模糊查询，按相似度排序

wo554006164 2011-01-16 01:35:07

A表有100W数据，现在要对某一字段进行模糊查询，并按相似度进行排序

比如有以下几条数据：
“北京新闻”
“最新新闻：北京XXXXXXX”
“上海新闻”
“新闻频道:北京台”
“北京市最新新闻”

输入“北京新闻”想得到的结果：
“北京新闻”
“新闻频道:北京台”
“北京市最新新闻”
“最新新闻：北京XXXXXXX”
“上海新闻”

主要按相似度来排序，这怎么做？

...全文

863 13 打赏收藏转发到动态举报

写回复

用AI写文章

13 条回复

切换为时间正序

请发表友善的回复…

发表回复

phdapp 2011-01-18

打赏
举报

好在你不是两条两条的比，你要是两条两条的比那可以就是on^2的开销了。这个你顶多On开销。

phdapp 2011-01-18

打赏
举报

[Quote=引用 11 楼 wo554006164 的回复:]
引用 10 楼 phdapp 的回复:
你可以再建一个相似度表（ID, name, distance）
distance就是相似度。

你要想计算相似度就要用到“字符串相似度”算法，你去google一下 edit distance可以搜出来很多算法，比如最简单的 levenshtein distance. 相似度从0~1，越接近1越相似。

把你这100w数据做成一个arra……
[/Quote]

你也不用弄数组，直接while(rs.next) 条条循环比较就可以。

速度大概几秒。

wo554006164 2011-01-17

打赏
举报

[Quote=引用 7 楼 qianjin036a 的回复:]
这个要用词典来处理,否则,"新" 和 "新闻" 是无法区分开的.计算机并不知道这个词可以分解为"北京"和"新闻".
[/Quote]
能说下大概思路嘛

wo554006164 2011-01-17

打赏
举报

[Quote=引用 10 楼 phdapp 的回复:]
你可以再建一个相似度表（ID, name, distance）
distance就是相似度。

你要想计算相似度就要用到“字符串相似度”算法，你去google一下 edit distance可以搜出来很多算法，比如最简单的 levenshtein distance. 相似度从0~1，越接近1越相似。

把你这100w数据做成一个arraylist方式存储

以你的“北京新闻……
[/Quote]
这个效率会不会很低啊

phdapp 2011-01-17

打赏
举报

你可以再建一个相似度表（ID, name, distance）
distance就是相似度。

你要想计算相似度就要用到“字符串相似度”算法，你去google一下 edit distance可以搜出来很多算法，比如最简单的 levenshtein distance. 相似度从0~1，越接近1越相似。

把你这100w数据做成一个arraylist方式存储

以你的“北京新闻”为对比字符串，

while 循环你的arraylist, 分别检查每条记录那个词与“北京新闻”的distance（float型）结果是什么，存入相似度表，最后order by distancce就可以了。

Sphonix 2011-01-17

打赏
举报

估计楼主是在做数据挖掘吧，找本数据挖掘的书看看~

-晴天 2011-01-16

打赏
举报

这个要用词典来处理,否则,"新" 和 "新闻" 是无法区分开的.计算机并不知道这个词可以分解为"北京"和"新闻".

wo554006164 2011-01-16

打赏
举报

[Quote=引用 4 楼 acherat 的回复:]
还有，如果是一个只有北京，一个只有新闻，怎么算！LZ说明白吧！
[/Quote]

按输入顺序来。
输入“北京新闻” 北京就是主要的含“北京”的在含“新闻”的上面
输入“新闻北京” 新闻就是主要的

wo554006164 2011-01-16

打赏
举报

[Quote=引用 3 楼 maco_wang 的回复:]
你这个相似度是怎么计算的？

“新闻频道:北京台”
“北京市最新新闻”
这两条都是含有那4个字，都是分2部分，
下面的还是北京后面有新闻，上面的是新闻，后面有北京，
为什么北京市最新新闻在下面？
[/Quote]
这种相似度是相同的，那么这两个谁先谁后都行。

AcHerat 2011-01-16

打赏
举报

还有，如果是一个只有北京，一个只有新闻，怎么算！LZ说明白吧！

叶子 2011-01-16

打赏
举报

你这个相似度是怎么计算的？

“新闻频道:北京台”
“北京市最新新闻”
这两条都是含有那4个字，都是分2部分，
下面的还是北京后面有新闻，上面的是新闻，后面有北京，
为什么北京市最新新闻在下面？

AcHerat 2011-01-16

打赏
举报



--对你那个字段建立索引，然后select ..like..union all..拼！效率没问题的。

rucypli 2011-01-16

打赏
举报

做全文索引

在此基础上，将属性值用直觉模糊粗糙集表示，并通过各个方案与直觉模糊粗糙集正、负理想方案的相似度比较，实现决策方案排序。数值实例表明了该方法的可行性和有效性，其在态势评估、目标识别等信息融合领域有良好的...

springboot整合elasticsearch7，进行数据同步。elasticsearch相关度查询、排序。高亮显示；自动补全等功能。代码仅供参考，代码中有具体的注释，可以根据代码及注释内容，对自己项目架构及业务进行修改、整合。

在此基础上,将属性值用直觉模糊粗糙集表示,并通过各个方案与直觉模糊粗糙集正、负理想方案的相似度比较,实现决策方案排序。数值实例表明了该方法的可行性和有效性,其在态势评估、目标识别等信息融合领域有良好的应用...

针对属性权重未知的三角... 利用备选方案对象在方案集中的总体相对相似度值大小选取最优对象并排序, 以此给出三角模糊数型不确定多属性决策的相对相似度关系算法, 最后通过算例分析表明了所提出算法的可行性和有效性.

首先提出一种新的直觉模糊相似度公式，在此基础上构建了一种以直觉模糊数形式表征的直觉模糊距离公式以减少在运算中信息的丢失，运用直觉模糊熵方法确定指标权重，通过前景理论对方案进行对比和排序.最后，算例分析...

疑难问题

22,210

社区成员

121,726

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章