1,040
社区成员
发帖
与我相关
我的任务
分享这是我参加“朝闻道”知识分享大赛的第一篇文章
目录
Python 的标准库是其核心的扩展,包括操作系统接口、文件操作、输入输出流、文本处理等功能
dir() #查看模块中所包含的工具 help() #战术模块中所有方法的说明
常用模块

第三方库——基础模块

第三方库——机器学习

第三方库——深度学习平台

pip 安装扩展包用 pip 安装扩展包,以安装 TensorFlow 为例
pip install tensorflow #安装最新的TensorFlow 模块 pip install tensorflow = 1.14 #安装版本为 1.14 的TensorFlow 模块 pip install tensorflow >= 1.14 #安装1.14 以上版本的TensorFlow 模块
用 pip 卸载某个模块 pip uninstall tensorflow
用 pip卸载某个模块 pip search tensorflow
用 pip 显示某个已安装的包 pip list
切换镜像源 因为某些原因,直接使用pip自带的镜像源会出现一些问题
pip install tensorflow -i https://pypi.tuna.tsinghua.edu.cn/simple
用 pip 更新配置文件,修改默认源
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
常用镜像源

如何提供变量列的数据信息
变量列就是一个有顺序的数据序列,可以看做是一个增强版的list。对应了 numpy 中的 Series 格式偷懒的话可以直接用list
如何指定数据集的基本结构(变量定义)
字典格式可以为每个字典元素提供名称。
DataFrame()格式:
import pandas as pd
pd.DataFrame(
data=None 或 数据列表,字典格式时直接同时提供变量名
columns=None 或 变量名称列表
)
例(按列提供数据):
import pandas as pd
df1 = pd.DataFrame(
{
'var1': 1.0,
'var2': [1,2,3,4],
'var3': ["test","train","test","train"],
'var4': 'cons'
}
)
print(df1);
输出为:
var1 var2 var3 var4
0 1.0 1 test cons
1 1.0 2 train cons
2 1.0 3 test cons
3 1.0 4 train cons
例(按行提供数据):
import pandas as pd
df1 = pd.DataFrame(
columns=['number','fruits'],
data=[[1,"apple"],
[2,"banana"],
[3,"coconut"],
[4,"peach"]]
)
print(df1);
输出为:
number fruits
0 1 apple
1 2 banana
2 3 coconut
3 4 peach
Series
python 的原生数据结构中没有和数组对应的类型
list虽然比较接近数组的需求但是没有索引和排序的功能
pd.Series() 可以被理解为带索引结构的有序列表,从而能够更好地满足数据分析的需求
例:
import pandas as pd
s1 = pd.Series(["apple","banana","coconut","peach"],name = 'fruits')
print(s1)
输出为:
0 apple
1 banana
2 coconut
3 peach
Name: fruits, dtype: object
可以看出,DataFrame中的每一列都是一个Series,二者很多命令相似,可以直接套用。
pandas.read_csv(
filepath_or_buffer : 要读入的文件路径
sep = ',' : 列分隔符
header = 'infer' : 指定数据中的第几行作为变量名
names = None : 将会被用作索引的列名,多列时只能使用序号列表
usecols = None : 指定只读入某些列,使用索引列表或者名称列表均可
如:[0,1,3]表示只读取0,1,3列
encoding = None : 读入文件的编码方式 utf-8/GBK,中文数据最好设定为 utf-8
na_values : 制定将会被读入为缺失值的数值列表,默认下列数据被读入为缺失值:
'','#N/A','#N/A N/A','#NA','-1.#IND','-1.#IND','-NaN','-nan','1.#IND',
'1.#QNAN','N/A','NA','NULL','NaN','n/a'.'nan','null'
) : 读取csv格式文件,但也可以通用于文本文件读取
pandas.read_excel(
filepath_or_buffer: 要读入的文件路径
sheet_name: 要读入的表单,字符串或者数字符号均可,默认读入第一个
)
其余方法与pandas.read_csv()类似。
| 数据格式 | 读入命令 | 保存命令 |
|---|---|---|
| 剪贴板 | read_clipboard | to_clipboard |
| General delimited file | read_table | |
| Fixed-Width Text File | read_fwf | |
| CSV | read_csv | to_csv |
| MS Excel | read_excel | to_excel |
| OpenDocument | read_excel | |
| JSON | read_json | to_json |
| HTML | read_html | to_html |
| Stata | read_stata | to_stata |
| SAS | read_sas | |
| SPSS | read_spass | pyreadstat.write_sav |
| SQL | read_sql,read_sql_query,read_sql_table | to_sql |
| Google BigQuery | read_gbq | to_gbq |
| HDF5 Format | read_hdf | to_hdf |
| Feather Format | read_feather | to_feather |
| Parquet Format | read_parquet | to_parquet |
| ORC Format | read_orc | |
| Msgpack | read_msgpack | to_msgpack |
| Python Pickle Format | read_pickle | to_pickle |
pandas中将DataFrame转换为其他数据格式的命令
| 数据格式 | 转换命令 |
|---|---|
| dict格式 | to_dict |
| Markdown-friendly 表格格式 | to_markdown |
| console-friendly tabular output | to_string |
| NumPy array | to_numpy |
| NumPy record array | to_records |
| latex格式 | to_latex |
| parquet format | to_parquet |
| xarray object | to_xarray |