文件去重问题,怎么提高效率

我是五道风 2013-10-08 04:16:41
有海量的文件,可能文件内容一样但名称不同,典型的去重问题,删除掉多余的。
暂时的思路是计算hash,然后比较,用MD5或SHA1算法。但是速度比较慢,MD4速度比MD5快50%左右,可以用MD4比较,但还是速度太慢,如果容量上T了,不知道有什么好的算法能提高一下速度?
PS:我觉得单纯的计算摘要,完全可以不用考虑安全性问题,当然防碰撞性能不要太差。
...全文
403 6 打赏 收藏 转发到动态 举报
写回复
用AI写文章
6 条回复
切换为时间正序
请发表友善的回复…
发表回复
FancyMouse 2013-10-09
  • 打赏
  • 举报
回复
上T的数据,瓶颈不是应该在IO上,无论用哪个hash算法性能不是都应该差不多的么
我是五道风 2013-10-09
  • 打赏
  • 举报
回复
引用 3 楼 FancyMouse 的回复:
上T的数据,瓶颈不是应该在IO上,无论用哪个hash算法性能不是都应该差不多的么
这也是很重要的一个问题,看了看网上的那些hash计算工具,自己也没发现什么明显的思路。
我是五道风 2013-10-09
  • 打赏
  • 举报
回复
引用 2 楼 sbwwkmyd 的回复:
只能是文件长度+内容HASH,对于大文件很多时候可以取段HASH,不用HASH整个文件。
谢谢,选取某些段进行hash速度会比较快
我是五道风 2013-10-09
  • 打赏
  • 举报
回复
引用 1 楼 ananluowei 的回复:
先初步筛选,可以用文件的长度。 针对长度相同的文件进一步处理。
谢谢
showjim 2013-10-08
  • 打赏
  • 举报
回复
只能是文件长度+内容HASH,对于大文件很多时候可以取段HASH,不用HASH整个文件。
大尾巴猫 2013-10-08
  • 打赏
  • 举报
回复
先初步筛选,可以用文件的长度。 针对长度相同的文件进一步处理。

33,006

社区成员

发帖
与我相关
我的任务
社区描述
数据结构与算法相关内容讨论专区
社区管理员
  • 数据结构与算法社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧