一组数据与大量数据组对比，选出相似度最高的一条

qq_36836919 2019-03-02 12:36:41

每组数据由20个数字组成，均为0和1.
用一条数据去和大量数据对比，选出相似度最高的那一条。。
就是20个是否选择题，对比选择相似度最高的。
求给个效率比较高的方法。

...全文

504 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

咸哼酒家 2019-03-02

打赏
举报

回复

20个选择题，选择出正确率最高的那个，两个for循环

海量文本场景，如何寻找一个doc的topn相似doc，一般存在2个问题，1)、两两对比时间o(n^2)2)、高维向量比较比较耗时。文本集可以看成(doc,word)稀疏矩阵，一般常见的方法是构建到排索引，然后进行归并。

在您设定里，随机游走到最后一跳之后，会基于相似度来决定哪条三元组最相关。但如果在最后一跳有五条边都可能与问题概念“差不多”相关，模型要选哪一条？最终是否只能粗暴地选相似度最高的？如果这条边实际上是局部最优而非全局最优，会不会丢掉正确答案？我们的实现确实是采用最大相似度准则，但也允许我们保留若干条得分相近的三元组，后续在合并提示时看是否能同时给模型多条思路。对于多条边同分的罕见情况，我们采用随机挑选或简单地以字符串排序作为打破平局的方法。

第二、三代基因组测序数据混合拼接软件综述王昊1 ,陈挺1,2 摘要: DNA测序是生物信息学研究的重要内容之一，对测序序列的从头拼接是其中非常基础而重要的步骤。随着测序技术的不断更新，新的第三代测序数据拥有更长的序列长度、高错误率等性质，针对这些性质，同时使用二代、三代测序数据进行混合拼接是获得更好的拼接结果一种重要方式。本文介绍了现有的混合拼接软件的基本原理，并比较了不同软件拼接结果。最后，本文对选择拼接软件以及提出新的混合拼接方法的研究方向给出了建议。关键词:...

本文深入解析了5种高效的文本相似度算法，包括TF-IDF、余弦相似度、Word2Vec、编辑距离和BERT模型。通过Python实战代码，对比了它们在电商评论去重、新闻查重等场景下的优缺点与适用性，并提供了清晰的选型指南，帮助开发者根据语义理解、计算速度等需求选择最合适的方案。

数据挖掘基本任务：分类与预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐等，帮助企业提取数据中蕴含的商业价值，提高企业的竞争力。 DM过程： a目标定义（任务理解、指标确定） b数据采集（建模抽样、质量把控、实时采集） c数据整理（数据探索、数据清洗、数据变换） d构建模型（模式发现、构建模型、验证模型） e模

51,411

社区成员

86,035

社区内容

发帖

与我相关

我的任务

javaspring bootspring cloud 技术论坛（原bbs）

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章