【解决立结贴】大数量文章内容相似度匹配执行速度

renyiqiu 2017-09-21 05:53:47

表里有200万数据，现在要从中从表的字段文章内容Content匹配相似度，把相似的文章id获取出来，相似度的函数已经写好，现在的问题是，得双循环来进行判断，速度贼慢，不知道有没高效的方法呢

...全文

300 17 打赏收藏转发到动态举报

写回复

用AI写文章

17 条回复

切换为时间正序

请发表友善的回复…

发表回复

xuzuning 2017-09-28

打赏
举报

使用全文检索索引

renyiqiu 2017-09-28

打赏
举报

问题还是读取文章数据瓶颈，算法处理到时快

娃都会打酱油了 2017-09-22

打赏
举报

感觉没办法，最快的方式就是在内存里处理，但你200w的数据，和你比较的数据显然不可能全放内存，部分读取处理的话，感觉也不可能快到哪里去或者你可以考虑增加一些辅助方式，比如增加关键字来缩小匹配范围

正怒月神 2017-09-22

打赏
举报

所以，这个问题并不是先纠结效率吧？

正怒月神 2017-09-22

打赏
举报

其实不管你怎么实现匹配过程。最终不都是应该后台跑个服务，夜深人静的时候悄悄跑吗，

而不是实时去跑啊。

闭包客 2017-09-22

打赏
举报

两两比较是不可行的。我有一个想法，一个文档应该可以计算出一个可以排序的特征码，在排序上接近的文档，就是相似的。

shoppo0505 2017-09-22

打赏
举报

这个很难,很难. 要提升效率,这个涉及到的相关技术太多了.

ilikeff8 2017-09-22

打赏
举报

这么多算法有得研究 http://www.cnblogs.com/mxiao923/p/3816439.html

拜一刀 2017-09-22

打赏
举报

要不先提取下关键字?

renyiqiu 2017-09-22

打赏
举报

引用 12 楼 closurer 的回复:

google 的 simhash 算法就是一个计算相似度的算法，它可以计算两个文档的距离，叫做海明距离。但是我不确认它能不能排序，还没详细看。

恩我也在找这个算法，貌似比其他对比方式速度快

以专业开发人员为伍 2017-09-22

打赏
举报

200万篇文章

以专业开发人员为伍 2017-09-22

打赏
举报

呵呵，在半个月能比较完20篇文章，不错了，相当快了吧。

renyiqiu 2017-09-22

打赏
举报

引用 3 楼 closurer 的回复:

两两比较是不可行的。我有一个想法，一个文档应该可以计算出一个可以排序的特征码，在排序上接近的文档，就是相似的。

能详细说下吗大神

闭包客 2017-09-22

打赏
举报

google 的 simhash 算法就是一个计算相似度的算法，它可以计算两个文档的距离，叫做海明距离。但是我不确认它能不能排序，还没详细看。

闭包客 2017-09-22

打赏
举报

引用 8 楼 renyiqiu 的回复:

[quote=引用 3 楼 closurer 的回复:] 两两比较是不可行的。我有一个想法，一个文档应该可以计算出一个可以排序的特征码，在排序上接近的文档，就是相似的。

能详细说下吗大神[/quote] 因为我也在断断续续地做搜索引擎，这只是我的一个想法。如果一个 int，我们可以对它进行排序，可以计算出两个 int 之间的距离。如果一个文档可以计算出这样的一个可排序，可以计算距离的数值，那计算相似度就不需要两两比较了。

homesos 2017-09-22

打赏
举报

这个不需要即时运算吧，放在服务器慢慢分析。

renyiqiu 2017-09-22

打赏
举报

引用 2 楼 starfd 的回复:

感觉没办法，最快的方式就是在内存里处理，但你200w的数据，和你比较的数据显然不可能全放内存，部分读取处理的话，感觉也不可能快到哪里去或者你可以考虑增加一些辅助方式，比如增加关键字来缩小匹配范围

确实在往这个方向在想

个人的独立项目，拿出该项目给大家讲讲，涉及的知识面比较广：较少的前端及知识，SEO知识（核心），后端C#的盘古分词、摘要抽取、文章相似度计算（高速），二叉树、Lucene、采集源文章一至性问题、数据清洗通用处理（复杂正则）、内容合并等，伪静态、关键词获取，复杂采集（加密数据、文字图片同文字混排内容、验证类站点），高级缓存应用，代码性能优化（单服务器下）。高级图片压缩，动态交叉查询（非库）优化，负面文本内容分析(百度)、情感分析(百度)、后台服务等。各类坑的处理。

使用 bert-base-chinese 预训练模型将文本数据向量化后，使用 np.memap 进行保存，再使用 faiss 进行相似度匹配出每个文本与它最相似的 topN此篇文章使用了地址数据，目的是为了跑通这个流程，数据可以自己构建np.memap ：是NumPy库中的一种内存映射文件（Memory-Mapped File）对象，它允许你将硬盘上的大文件以类似数组的方式访问和操作，而不需要一次性将整个文件加载到内存中。当你创建一个对象时，实际上是创建了一个与磁盘文件对应的虚拟数组。

文 | Gemfield源 | 知乎Faiss为稠密向量提供高效相似度搜索和聚类，支持十亿级别向量的搜索，是目前最为成熟的近似近邻搜索库。本文从最基本的特征比对开始讲解，中间详细讲解Fa...

点击上方“机器学习与生成对抗网络”，关注"星标"获取有趣、好玩的前沿干货！作者丨Gemfield@知乎编辑 | 极市平台来源丨https://zhuanlan.zhih...

随鼠标或触摸移动

110,539

社区成员

642,577

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

让您成为最强悍的C#开发者

试试用AI创作助手写篇文章吧

+ 用AI写文章