问下 百度云 存贮文件 去重复文件 的算法?

mimixi666 2013-09-25 09:19:42
来自于这段话的思考:

张三上传的《TOKYO HOT N0124》和李四上传的《TH n124》是同一个文件,只不过文件名不一样,难道我就不能识别出他们是一个文件,然后只将其分别给不同的用户保存成不同的文件名不久行啦?确实可行,但这要利用一些识别文件相同性的算法,例如 MD5 值等。只要两个文件的 MD5 值一样,文件大小一样,我就认为它们是相同的文件,只需要保存一份文件并给不同的用户记作不同的文件名就好了。

有一天你发现,因为每一个文件都需要计算 MD5 值,导致 CPU 负荷很大,而且本来一样的文件非要浪费带宽上传回来才可以检测一致性,能改进一下吗?

聪明的工程师写了个小软件/.小插件,美其名曰“上传控件”,将计算 MD5 的工作利用这个软件交给了上传用户的点老来完成,一旦计算出用户要上传的数据和服务器上已经存储的某个数据是一样的,就干脆不用上传了,直接在用户那里标记上这个文件已经按照 XX 文件名上传成功了。这个过程几乎是瞬间搞定了,并给其起了个高富帅的名字“秒传”!




所以就是想请教下这个百度云或者其它云网盘的去重复文件的算法的实现。。。
...全文
1425 5 打赏 收藏 转发到动态 举报
写回复
用AI写文章
5 条回复
切换为时间正序
请发表友善的回复…
发表回复
bihaichentian 2015-02-02
  • 打赏
  • 举报
回复
但是MD5这种摘要算法都是有可能出现碰撞的,作为网盘服务器,肯定有极其大量的文件,难免出现碰撞,怎么避免这种碰撞呢?
sanguomi 2013-12-02
  • 打赏
  • 举报
回复
基本都是这么算的。 国内最大某免费安全卫士的云查杀, 先算MD5 ,然后后台判断。
幸运小侯子 2013-10-18
  • 打赏
  • 举报
回复
引用 2 楼 xng2012 的回复:
文件名亮了哈
哈哈 标题亮了。
xng2012 2013-10-11
  • 打赏
  • 举报
回复
文件名亮了哈
  • 打赏
  • 举报
回复
md算法都是线性的,顺序把文件的每个字节异或。 跟文件传输比较起来,时间完全不是一个级别的,所以LZ不用太担心。
AllDup 中文版是一款搜索并删除计算机上重复文件的免费工具。通过快速搜索算法找到任何文件类型的副本,例如文本,图片,音乐或电影。功能强大的搜索引擎使您能够通过以下标准的组合来查找重复项:文件名,文件扩展名,文件大小,文件内容,文件日期,文件属性,硬链接和类似图片等。 重复文件查找工具 AllDup 中文多语特别版 重复文件查找工具 AllDup 中文多语特别版 AllDup 功能: 忽略 MP3 文件的 ID3 标签 搜索音乐和视频文件的副本 保存并恢复搜索结果以便稍后继续工作 有关所有操作的详细日志文件 列出非重复文件 内置的文件查看器允许您预览许多不同的文件格式,并在决定如何处理文件之前分析文件的内容 搜索数字照片文件的副本 通过无限数量的文件文件夹进行搜索 整个文件夹或单个文件可以通过掩码或大小条件从搜索中排除 搜索硬链接 方便的搜索结果列表 将搜索结果导出到TXT或CSV文件 许多灵活的选项可帮助您自动选择不必要的重复项 创建最后一个原始文件的快捷方式或硬链接 搜索可执行文件和任何其他文件的副本 不必要的重复项可以永久删除或复制/移动到您选择的文件夹 搜索是在多个指定的文件夹,驱动器,媒体存储,CD/DVD … 使用以下标准组合查找重复项:文件内容,文件名,文件扩展名,文件日期和文件属性! 快速搜索算法 为了您的安全,所有必须删除的文件都可以被移到回收站或单独的备份文件夹中 AllDup 可以为你做什么: 没有更多的文件克隆或文件重复! 如果您有大量的音乐,图片,下载或文档文件夹,它可以免费有用! 删除重复文件 – 只要你想! 删除重复文件比任何其他重复文件查找更快,更安全! 查找和硬链接重复文件! 找到并删除硬链接 查找,删除,删除,复制和移动重复文件! 查找并删除任何类型的重复文件! 删除重复文件 – 轻松和任何地方! 找到并从计算机,笔记本电脑,网络驱动器,闪存驱动器,内存驱动器中删除重复文件! 删除重复的音乐文件! 用不同的 ID3 标签查找重复的 MP3 文件! 删除重复的照片和图像! 找出一个文件是否有硬链接! 清除您的计算机,音乐或照片收集重复文件! 释放您PC上的硬盘空间! AllDup 帮助您查找,查看和删除具有重复内容的文件,无论名称如何! 找到并删除重复文件! AllDup 是一个强大的工具来搜索您的计算机上的文件重复! 找到并删除重复文件

20,808

社区成员

发帖
与我相关
我的任务
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
  • 分布式计算/Hadoop社区
  • 涤生大数据
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧