python如何只提取特定列的数据
由于数据量太大(3G),列较多(33列),所以数据导入的时候很慢,我想把数据导进去进行groupby等操作,求问各位大神在
pd.read_table时能只提取特定列的数据么?如果不能,我该怎么处理呢?太慢了,要崩溃了
import os
import pandas as pd
wd=os.getcwd()
os.chdir(os.path.dirname('更新数据.txt'))
chunker=pd.read_table(os.path.basename('更新数据.txt'),encoding='GB2312',sep='|',engine='python',iterator=True,chunksize=100000)
os.chdir(pwd)
chunks=[]
for chunk in chunker:
chunks.append(chunk)
df=pd.concat(chunks,ignore_index=True)