上T的数据,瓶颈不是应该在IO上,无论用哪个hash算法性能不是都应该差不多的么
只能是文件长度+内容HASH,对于大文件很多时候可以取段HASH,不用HASH整个文件。
先初步筛选,可以用文件的长度。 针对长度相同的文件进一步处理。
33,006
社区成员
35,326
社区内容
加载中
试试用AI创作助手写篇文章吧