社区
Java SE
帖子详情
从10万个文件中找出相同的文件
q1531
2009-03-15 01:45:10
100万个文件,约300G左右,每个文件大小不超过400K,且位于不同文件夹下。
找出这些文件中相同的文件。
我的想法,计算出所有文件的MD5然后再找出MD5相同的文件,得到相同的文件。
有没有更好的方法?
...全文
170
8
打赏
收藏
从10万个文件中找出相同的文件
100万个文件,约300G左右,每个文件大小不超过400K,且位于不同文件夹下。 找出这些文件中相同的文件。 我的想法,计算出所有文件的MD5然后再找出MD5相同的文件,得到相同的文件。 有没有更好的方法?
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
8 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
ciazealee
2009-03-15
打赏
举报
回复
学习。。。。
tanghuan
2009-03-15
打赏
举报
回复
由于文件数目太大,放在内存中肯定不行。所以你要把中间结果放到自己创建的文件或数据库等中进行持久化。
先把所有文件名读取出来,按文件大小的字节数分类。
再对同一字节数的文件读取内容,计算出MD5摘要后再对摘要进行排序。如果没有相同的摘要,说明没有相同内容的文件,如果存在一样摘要的,再对内容进行按字节比较看是否不一样(保险起见),如果你发现摘要一样,内容不一样,说明你找到一个摘要冲突,你可以把这个公布出来,说不定会引起轰动呢。
铁匠梁老师
2009-03-15
打赏
举报
回复
期待中,实际生产问题。有时候不好解决,等待高人
CNNRNNCNNRNN
2009-03-15
打赏
举报
回复
用不着那么费神吧,基本上文件名相同,文件大小相同就可认为是同一个文件了
zhoushaolan
2009-03-15
打赏
举报
回复
关注IO操作,api中找方法吧,学习
aihouting
2009-03-15
打赏
举报
回复
使用File类中的 File[] listFiles(FilenameFilter filter) 方法,并覆盖FilenameFilter 类中的 accept方法,判断文件是否是同一个文件,
迭代使用。
q1531
2009-03-15
打赏
举报
回复
约为275.9G才对!
郁闷。用计算器算的按错了。
q1531
2009-03-15
打赏
举报
回复
额!
发错了!
100万个文件, 100W*400/(1024*1204)约为2759G
如何从大量的URL
中
找出
相同
的URL
请
找出
a、b 两个
文件
共同的 URL 2、分析 50亿 * 64B = 320GB (1GB=
10
00 MB=
10
00 000 KB=
10
00 000 000 B) 320GB的
文件
,无法直接加载到内存
中
进行处理。对于数据量太大无法一次加载到内存的题目,一般采用分治...
在存有
10
亿个数的
文件
中
找到最大的
10
0
万个
数
这是《编程珠玑》
中
的一道题目。
10
亿个整数,假设每个整数需要四个字节,如果使用排序的话,...二、从
文件
中
读取前一百
万个
数,每读入一个数,调用函数,保持其最小堆的性质,堆的根永远是堆
中
最小的元素。 三、从一百
现在有十
万个
单词,请你
找出
重复次数最多的十个。
字符串,最大长度4个G,乘以
10
万个
… 思路一 我们不能直接在内存里操作 可以拆分成n多个
文件
以长度区分,不同长度放在不同的
文件
夹 以首字母区分,不同首字母放在不同
文件
夹 以为字母区分,不同尾字母放在不同
文件
...
在
10
0G
文件
中
找出
出现次数最多的
10
0个IP
这个分类很关键,如果是随便分成
10
0份,
相同
的IP被分在了不同的
文件
中
,接下来再对每个
文件
统计次数并做归并,这个思路就没有意义了,起不到“大而化小,各个击破,缩小规模,逐个解决”的效果了。在统计完
10
0个
文件
...
C++分治法之:给两个
文件
,分别有
10
0亿个整数,我们只有1G内存,如何找到两个
文件
交集
答1:使用hash函数将第一个
文件
的所有整数映射到
10
00个
文件
中
,每个
文件
有
10
00
万个
整数,大约40M内存,内存可以放下,把
10
00个
文件
记为 a1,a2,a3…a
10
00,用同样的hash函数映射第二个
文件
到
10
00个
文件
中
,...
Java SE
62,614
社区成员
307,326
社区内容
发帖
与我相关
我的任务
Java SE
Java 2 Standard Edition
复制链接
扫一扫
分享
社区描述
Java 2 Standard Edition
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章