ES相似度分值计算问题

sinat_34993739 2017-11-18 06:02:11

--版本：5.2，有一列使用ik分词
--搜索词：要
--返回结果：
要的成语
要成语
天生要完美演员
...
要！

我的问题是看起来最后一个《要！》是最相似的，为什么得分只有6.3分，而第一个得分10.5分。

费解，求大神帮助

...全文

688 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

检索式问答系统 score es_weight权重决定blue和Similarity，并最终求得score。 blue：通过两句子的长度打分，长度差的越远分数越低。 Similarity：通过两句向量余弦相似度求出。 gensim训练得到得的word2vec词向量最后求平均得到句子向量。 bert通过Bert_serving可直接得到句子向量。

目前基于集合的Jaccard算法以及基于编辑距离的Levenshtein在计算文本相似度场景中有着各自的特点，为了优化具体的计算时间抖动超时问题，需要学习此方面知识，本文主要内容为文本相似度计算方法的现状、Jaccard、Levenshtein算法实现基本原理以及代码实现论文基于改进的 Jaccard 系数文档相似度计算方法的算法。这样，即使两个主题的语义相似度较低，但由于它们之间可能存在隐含的相关关系，搜索引擎可以更好地理解用户的真实需求，并提供更准确、相关的搜索结果。我们要判断这两篇文章是否相似。

默认情况下，Elasticsearch根据相关性评分(_score)对匹配的搜索结果进行排序，相关性评分衡量每个文档与查询的匹配程度。虽然每种查询类型可以计算不同的相关性得分，但得分计算也取决于查询子句是在查询还是过滤器上下文中运行。 ...

更改elasticsearch的score评分在某些情况下，我们需要自定义score的分值，从而达到个性化搜索的目的。例如我们通过机器学习可以得到每个用户的特征向量、同时知道每个商品的特征向量，如何计算这两个特征向量的相似度？这个两个特征向量越高，评分越高，从而把那些与用户相似度高的商品优先推荐给用户。插件源码解读通过查看官网文档，运行一个脚步必须通过“ScriptEngine”来实现的。为了开发...

原文链接：https://www.elastic.co/blog/found-similarity-in-elasticsearch 原文 By Konrad Beiske 翻译 By 高家宝译者按该文虽然名为Elasticsearch中的相似度模型，实际上多数篇幅讲的都是信息检索邻域的通用相似度模型。其中涉及到具体实现的部分，Elasticsearch中相似度实际上是Lucene实现的，因此...

其他数据库

2,209

社区成员

9,519

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章