数据库模糊搜索算法

lylinsir2008 2008-12-23 02:19:15

很简单的困扰了我很久
比如输入关键字"武汉人民政府"
搜索结果中可以出来
"武汉市人民政府"
"武汉江汉区人民政府"
"武汉市洪山区人民政府"
等
如果输入关键字"武汉市人民政府"
搜索结果中可以出来
"武汉人民政府"
"武汉市江汉区人民政府"

也就是说只要
我的数据库字段里的值包含关键字或者关键字包含我的数据库字段
结果都可以出来
麻烦哪位知道说一下谢谢

...全文

826 37 打赏收藏转发到动态举报

写回复

用AI写文章

37 条回复

切换为时间正序

请发表友善的回复…

发表回复

ReyZhang 2009-01-13

打赏
举报

csnjia 2009-01-13

打赏
举报

路过,学习.

gengwanshanreally 2008-12-23

打赏
举报

learn

火星求索 2008-12-23

打赏
举报

全文引擎执行断字，此外，它还可以执行同义词库扩展、词干分析以及非索引字（干扰词）处理。

laidon 2008-12-23

打赏
举报

分词
@str like '%武汉%' and @str like'%人民政府%'

火星求索 2008-12-23

打赏
举报

全文索引就行，费劲
现成的解决方案就用呗

还要匹配分词
哪去百度做多好啊

walkghost 2008-12-23

打赏
举报

分词啊。额滴个神丫。太巨大了。

supremeholy 2008-12-23

打赏
举报

学习！
mark！

erik0930 2008-12-23

打赏
举报

mark,学习

xwk789xwk 2008-12-23

打赏
举报

路过,学习

bhtfg538 2008-12-23

打赏
举报

[Quote=引用 24 楼 isline 的回复:]
为什么不用全文检索？
[/Quote]

全文索引也是一个不错的选择
不过很难维护...选择自动维护的话查询效率要低
不过手动维护要人每次都要去试试
没钱请DBA 数据大的时候就闹火了 ,更新一次很花时间

huxuanhui 2008-12-23

打赏
举报

路过学习

jin225 2008-12-23

打赏
举报

搜索那么好做的话就不会只有一个google了
我做的搜索就随便用索引就行了

变成熊猫你就老实了是不 2008-12-23

打赏
举报

为什么不用全文检索？

飞飞虫2015 2008-12-23

打赏
举报

帮顶

bhtfg538 2008-12-23

打赏
举报

[Quote=引用 13 楼 winner2050 的回复:]
要用到分词。

一般根据空格分词就可以了，自己开发分词引擎，技术含量太高了。
[/Quote]

也没有大哥想的那么强大
先举个关键字用正则匹配出来特殊的符合比如 , 空格 ==之类的
然后传递到 SQL SERVER 的 UDF 中
分词就实现了
然后根据一个 INNER JOIN 就能实现了

bhtfg538 2008-12-23

打赏
举报

[Quote=引用 4 楼 greatverve 的回复:]
或许你用
@str like '%武汉%' adn @str like'%人民政府%'
能实现。
[/Quote]
没有简单的问题
你对 T-SQL 太小看了
很简单的算法
首先用分词技术根据每个汉字来分割,然后插入一个变量表在函数里面
只有一个 INNER JOIN 然后 ORDER BY ID desc 就把匹配最完整的放前面了

T-SQL 是很精深的

bhtfg538 2008-12-23

打赏
举报



CREATE TABLE tb (ID INT IDENTITY(1,1),VALUE VARCHAR(100))

INSERT tb SELECT '中国'

UNION ALL SELECT '中国人'

UNION ALL SELECT '中国人民'

UNION ALL SELECT '日本'

UNION ALL SELECT '日本人'

UNION ALL SELECT '我的心中有人姑娘'

UNION ALL SELECT '人民网'

UNION ALL SELECT '中国是个伟大的国家'

UNION ALL SELECT '我们都是中国人，都是炎黄子孙，都是龙人传人'



DECLARE @searchSTR VARCHAR(20)

SET @searchSTR='中国人'

SELECT ID,VALUE FROM tb a 

INNER JOIN fn_SplitStringToROWS(@searchSTR) b

    ON CHARINDEX(b.v,a.VALUE)>0

    WHERE VALUE LIKE '%[中国人]%' 

    GROUP BY ID,VALUE

    ORDER BY COUNT(DISTINCT v) DESC

    

DROP TABLE tb





--附函数

CREATE FUNCTION fn_SplitStringToROWS

(

@str VARCHAR(100)

)

RETURNS @t TABLE(v VARCHAR(2))

AS

BEGIN

    DECLARE @i INT

    SET @i=1

    WHILE @i<=LEN(@str)4

        BEGIN

            INSERT @t SELECT SUBSTRING(@str,@i,1)

            SET @i=@i+1

        END

    RETURN

END





/*





（所影响的行数为 9 行）



ID          VALUE                                                                                                

----------- ---------------------------------------------------------------------------------------------------- 

9           我们都是中国人，都是炎黄子孙，都是龙人传人

2           中国人

3           中国人民

8           中国是个伟大的国家

1           中国

6           我的心中有人姑娘

7           人民网

5           日本人



（所影响的行数为 8 行）



*/



--如果要实现匹配度排序,那么可以去掉 WHERE ... LIKE那句,多余

--

--如果只想实现模糊的匹配,那么可以不需要连表,直接

--

--SELECT ID,VALUE FROM tb  WHERE VALUE LIKE '%[中国人]%' 即可.

--

-- 

--

-- 

--

--按词匹配. 



create function f_splitIDX(@SourceSql varchar(8000),@StrSeprate varchar(10))

returns @temp table(id int identity(1,1),v varchar(100))



begin

    declare @i int

    set @SourceSql=rtrim(ltrim(@SourceSql))

    set @i=charindex(@StrSeprate,@SourceSql)

    while @i>=1

    begin

        insert @temp values(left(@SourceSql,@i-1))

        set @SourceSql=substring(@SourceSql,@i+1,len(@SourceSql)-@i)

        set @i=charindex(@StrSeprate,@SourceSql)

    end

    if @SourceSql<>'\'

       insert @temp values(@SourceSql)

    return 

end





CREATE TABLE tb (ID INT IDENTITY(1,1),VALUE VARCHAR(100))

INSERT tb SELECT '中国'

UNION ALL SELECT '中国人,中国'

UNION ALL SELECT '中国,中国人'

UNION ALL SELECT '中国人民'

UNION ALL SELECT '中国'

UNION ALL SELECT '日本'

UNION ALL SELECT '日本人'

UNION ALL SELECT '我的心中有人姑娘'

UNION ALL SELECT '人民网'

UNION ALL SELECT '中国是个伟大的国家'

UNION ALL SELECT '我们都是中国人，都是炎黄子孙，都是龙人传人'

DECLARE @searchSTR VARCHAR(20)

SET @searchSTR='中国人 中国'



SELECT a.ID,VALUE FROM tb a

    INNER JOIN dbo.f_splitIDX(@searchSTR,' ') b

    ON CHARINDEX(v,VALUE)>0

    GROUP BY a.ID,Value

    ORDER BY COUNT(DISTINCT v) DESC,MIN(b.id),a.id



DROP TABLE tb