google 的 simhash 算法就是一个计算相似度的算法,它可以计算两个文档的距离,叫做海明距离。但是我不确认它能不能排序,还没详细看。
两两比较是不可行的。 我有一个想法,一个文档应该可以计算出一个可以排序的特征码,在排序上接近的文档,就是相似的。
[quote=引用 3 楼 closurer 的回复:] 两两比较是不可行的。 我有一个想法,一个文档应该可以计算出一个可以排序的特征码,在排序上接近的文档,就是相似的。
感觉没办法,最快的方式就是在内存里处理,但你200w的数据,和你比较的数据显然不可能全放内存,部分读取处理的话,感觉也不可能快到哪里去 或者你可以考虑增加一些辅助方式,比如增加关键字来缩小匹配范围
110,539
社区成员
642,577
社区内容
加载中
让您成为最强悍的C#开发者
试试用AI创作助手写篇文章吧