一个400亿行的文本文件,如何快速计算每个字段的取值分布

JulianCSDN 2017-02-25 11:07:09
一个文本文件,都是结构化数据;共5列,竖线分割,一共400亿行。
我现在要分析每一列的取值分布,非空占比,请问用什么技术比较快。

我想过用python来解析,但是不知道效率是不是最好的?有其他处理技术吗?
...全文
510 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

1,092

社区成员

发帖
与我相关
我的任务
社区描述
云计算服务器、网络、虚拟化相关讨论
社区管理员
  • 服务器
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧