社区
C语言
帖子详情
关于大数据文件比对问题
lnetant
2008-05-30 11:19:48
现有a、b 2个百万级数据文件,需要生成新的文件
新文件的内容是存在a中,但不存在b中的数据
在unix/linux下除了shell脚本比对外
使用c/c++有没有高效率的过滤方式或方法?!
例:
a文件内容:
1234
abcd
b文件内容:
abcd
efdg
形成新的c文件内容为:
1234
...全文
120
9
打赏
收藏
关于大数据文件比对问题
现有a、b 2个百万级数据文件,需要生成新的文件 新文件的内容是存在a中,但不存在b中的数据 在unix/linux下除了shell脚本比对外 使用c/c++有没有高效率的过滤方式或方法?! 例: a文件内容: 1234 abcd b文件内容: abcd efdg 形成新的c文件内容为: 1234
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
9 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
野男孩
2008-05-31
打赏
举报
回复
对两个文件按行计算一个 hash值, 同一个文件里hash相同的内容做成队列,然后对两个文件中hash相同的做比较。
谁考虑一下这个复杂度~
zxw89167935
2008-05-31
打赏
举报
回复
∽∝∞∽∝∞∽∝∞∽∝∞∽∝∞∽∝∞∽∝∞∽∝∞∽∝∞∽∝∞∽∝∞∽∝∞∽∝∞∽∝∞∽∝∞∽∝∞
力争成为中国最大的架构师群联盟,架构师技术交流群:28995710已接近尾声,62402336已正式开放!!!
已经上传的顶级软件产品的架构分析,本群资料仅供研究学习,不得商用!!!
google 、
eBay、
Youtube、
淘宝等
......
技术文章包括:
《自己动手写操作系统》
《搜索引擎-原理、技术与系统》
《企业应用架构模式》
......
重要的RUP实例
设计模式精解
......
资料陆续上传中
∽∝∞∽∝∞∽∝∞∽∝∞∽∝∞∽∝∞∽∝∞∽∝∞∽∝∞∽∝∞∽∝∞∽∝∞∽∝∞∽∝∞∽∝∞∽∝∞
Treazy
2008-05-31
打赏
举报
回复
[Quote=引用 6 楼 iambic 的回复:]
试下diff --help就知道行不行了。
也有专门的命令,但是只用过一次,记不得名字了。
[/Quote]
shell做比较省力了
但是如果你非得用c/c++去用正则或者其他方法实现,那效率就不好说了
到可以试试c/c++调perl脚本
iambic
2008-05-30
打赏
举报
回复
请先用diff程序试试。如果证实速度太慢再考虑别的方法。
xkyx_cn
2008-05-30
打赏
举报
回复
这种活还是交给shell吧
用sed awk来做吧
iambic
2008-05-30
打赏
举报
回复
试下diff --help就知道行不行了。
也有专门的命令,但是只用过一次,记不得名字了。
icansaymyabc
2008-05-30
打赏
举报
回复
使用c/c++当然有比shell效率高的过滤方式或方法了。
但是实现起来比较复杂,基本上等于你完成一个轻量级的简单数据库。
其实unix/linux下的shell脚本效率也是相当高的,它也是C语言实现的通用数据对照处理程序。
当然要针对你的数据编写专用的程序提高效率是可能的,但是如果你的设计不是很好的话,说不定比shell脚本的效率还低。
lnetant
2008-05-30
打赏
举报
回复
shell处理方式确实很不错,不过如果在处理数据过程中再加点要求,比如对所有的数据都要作压缩或是根据号码特定位插入不同表的话,你用shell出来后还得重新处理一次文件,估计速度还是不理想
diff作的我没记错的话因该是显示2个文件不同部分,而且是两个文件内容都有。
jmulxg
2008-05-30
打赏
举报
回复
应该是行比较吧?
感觉很难,期待大牛来帮忙
Python用pandas进行
大数据
Excel两
文件
比对
去重上百万
大数据
处理
通俗理解有两个excel
文件
分别为A和B 我要从B中去掉A中含有的数据,数据量大约在300w左右 因为数据量较大,无论是wps还是office自带的去重都无法正常使用这样就需要用到脚本了
论文研究-基于Hadoop Streaming的Last
比对
软件并行化的研究与实现.pdf
使用Hadoop Streaming技术将Last
比对
软件快速部署到云计算环境中,解决当前单机版Last
比对
软件处理
大数据
能力差的
问题
。通过自定义的基于NFS
文件
系统的数据集切分方法和基于Partitioner的任务分配方式能够实现均衡...
Unity游戏文本自动化生成脚本工具必学精讲
在游戏开发中,策划填写好配置表,... 2、修改配置表中的数据内容,导出cs
文件
,再将表中的内容打印出来,
比对
一下看二者是否不同。 (注意: 作业需写在CSDN博客中,请把作业链接贴在评论区,老师会定期逐个批改~~)
大数据
资源服务平台.docx
提供
大数据
ETL整合工具,对各类源头数据库、
文件
及其它数据类型进行数据抽取,并在过程中进行清洗转换,将结果写入汇集库。 2.对ETL进行集中调度和监控(不少于1500个ETL任务) 3. 包含商业版数据整合管理系统1套 套...
大数据
.docx
大数据
必须借由计算机对数据进行统计、
比对
、解析方能得出客观结果。美国在2012年就开始着手
大数据
,奥巴马更在同年投入2亿美金在
大数据
的开发中,更强调
大数据
会是之后的未来石油。数据挖掘(data mining)则是在...
C语言
69,337
社区成员
243,078
社区内容
发帖
与我相关
我的任务
C语言
C语言相关问题讨论
复制链接
扫一扫
分享
社区描述
C语言相关问题讨论
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章