2023（春）Python程序设计作业5：Pandas基础技能及综合应用

软工211-428-卢天奕。 2023-春-学生 2023-06-15 17:28:26

作业要求

[基础要求] 基于Jupyter Notebook 完成以下实验一、实验二、实验三；
[重点要求] 修改以下示例代码，以测试不同知识点。在博客上写出你：

修改的代码、
修改的愿意（意图）
代码运行的结果
你的结论

实验一：Series对象的应用

实验要求：

定义一个Series对象，包含5个整数数据；
访问、修改Series对象中的数据；
打印Series对象；
对Series对象进行计算，如求和、求平均值等。

修改的代码

import pandas as pd
# 定义Series对象
data = pd.Series([10, 20, 30, 40, 50], index=['a', 'b', 'c', 'd', 'e'])
# 访问Series对象中的数据
print(data['a'])
print(data['c':'d'])
# 修改Series对象中的数据
data['b'] = 25
# 打印Series对象
print(data)
# 对Series对象进行计算
print("和:", data.sum())
print("平均值:", data.mean())

修改的意愿：计划使用`index`参数定义了Series对象的索引，可以使用索引名称或位置访问和修改数据

运行结果：

结论：修改可实现，只是略繁琐

实验二：DataFrame对象的应用

实验要求：

定义一个DataFrame对象，包含3个列，每列分别为整数、浮点数和字符串类型；
访问、修改DataFrame对象中的数据；
对DataFrame对象进行计算，如求和、求平均值等。

修改的代码：

import pandas as pd
# 定义DataFrame对象
data = pd.DataFrame({'整数': [1, 2, 3, 4, 5], '浮点数': [1.2, 2.3, 3.4, 4.5, 5.6], '字符串': ['a', 'b', 'c', 'd', 'e']}, index=['r1', 'r2', 'r3', 'r4', 'r5'])
# 访问DataFrame对象中的数据
print(data.iloc[2, 1])
# 修改DataFrame对象中的数据
data.iat[2, 1] = 10.5
# 打印DataFrame对象
print(data)
# 对DataFrame对象进行计算
print("和:", data.sum())
print("平均值:", data.mean())

修改的意愿:使用`index`参数定义了DataFrame对象的行索引,bing1使用`.iloc[]`方法和行/列位置访问和修改数据。我们还可以使用`.iat[]`方法来访问和修改单个值。

运行结果：

结论：index方法略繁琐，其次可以借助一些pandas哭的方法

实验三：综合实例

实验要求：

定义一个包含省会城市、人口、GDP、城市面积的DataFrame对象；
计算各种排名，如人口最多的城市、GDP最高的城市等；
使用Pandas绘图，可视化上述实验结果。
修改的代码：
```
 
```
1. import pandas as pd
2. import matplotlib.pyplot as plt
3. # 定义DataFrame对象
4. data = pd.DataFrame({
5. '城市名称': ['北京', '上海', '广州', '深圳',],
6. '人口': [2171, 2424, 1500, 1303],
7. 'GDP': [330320, 32679, 20353, 22458],
8. '城市面积': [16410, 6340, 7434, 1996]
9. })
10. # 计算人口最多的城市
11. pop_rank = data.sort_values(by='人口', ascending=False)
12. print('人口最多的城市:', pop_rank.iloc[0]['城市名称'])
13. # 计算GDP最高的城市
14. gdp_rank = data.sort_values(by='GDP', ascending=False)
15. print('GDP最高的城市:', gdp_rank.iloc[0]['城市名称'])
16. # 计算人口密度排名
17. data['人口密度'] = data['人口'] / data['城市面积']
18. density_rank = data.sort_values(by='人口密度', ascending=False)
19. print('人口密度排名:', density_rank['城市名称'].values)
20. # 使用Pandas绘图
21. fig, axs = plt.subplots(2, 2, figsize=(12, 8))
22. data.plot(kind='bar', x='城市名称', y='人口', ax=axs[0][0])
23. axs[0][0].set_title('城市人口')
24. data.plot(kind='bar', x='城市名称', y='GDP', ax=axs[0][1])
25. axs[0][1].set_title('城市GDP')
26. data.plot(kind='bar', x='城市名称', y='城市面积', ax=axs[1][0])
27. axs[1][0].set_title('城市面积')
28. data.plot(kind='bar', x='城市名称', y='人口密度', ax=axs[1][1])
29. axs[1][1].set_title('城市人口密度')
30. plt.tight_layout()
31. plt.show()
修改的意愿：使用plot()方法是一种更简单的方法来对DataFrame对象进行可视化，但可能会对绘图的样式和布局有所限制。

运行的结果：

我的结论：Pandas能够很好地处理多列数据，并支持数据透视表的应用，可以方便地对数据进行汇总、分组和分析。