求助大佬如何模糊匹配数据

Simon2274 2018-03-18 11:48:09

如图,我想找出两列数据的并集,就是既是上市公司,也是境内投资主体,但是有一个问题就是两列公司名称并不完全一样,例如A16是神州长城股份有限公司,但是C列就是神州长城国际工程有限公司。两个数据库数量比较多,用excel无法进行,想问问大佬怎么用sql进行匹配,小僧拜谢
...全文
927 5 打赏 收藏 转发到动态 举报
写回复
用AI写文章
5 条回复
切换为时间正序
请发表友善的回复…
发表回复
xzxmustwin 2018-03-26
  • 打赏
  • 举报
回复
我也觉得这个要根据业务逻辑来,用通用的函数的话肯定会造成匹配不准确,比如你给的例子中 ‘有限公司’ ‘中国’ ‘中海’这些出现了多次,但这些都不是关键的匹配内容。 也许可以先把字段中不重要的词先剔除 再用楼上的函数
laj0600310219 2018-03-23
  • 打赏
  • 举报
回复
你得先给出两列数据公司名称的匹配规则
icchhp 2018-03-22
  • 打赏
  • 举报
回复
不知道这个能不能帮到你 设计思路:对比一个字符串A与关键字字符串B之间的关联关系. 情况1:完全相关,例如,'中国人民银行'同时包含关键字 人民,银行. 情况2:部分相关,例如,'中国人民银行'部分包含关键字 人民,银行,xx. 情况3:模糊相关,例如'中国人民银行',与关键字'x中,人民',中部分字眼有相关性,部分则没有 使用方法 SELECT dbo.fn_GetSimilar(字符串,关键字(多个关键字用逗号隔开),适配关键字数量,如果查询关键字有10个,可是只有5个关键字能被搜索到就算完全相关的话写5,如果模糊查找写-1) 运行结果 SELECT dbo.fn_GetSimilar(N'中国人民银行',N'人民,银行',3) 1.0000 SELECT dbo.fn_GetSimilar(N'中国人民银行',N'人民,银行,xx',3) 0.6667 SELECT dbo.fn_GetSimilar(N'中国人民银行',N'x中,人民',-1) 0.7500 代码 ALTER FUNCTION [dbo].[fn_Split1]( @String nvarchar (max), @Delimiter nvarchar (10),@Type NVARCHAR(10) ) RETURNS @ValueTable TABLE ([Value] NVARCHAR(max),[id] int) AS --1. 字符串(分隔符分隔组成的字符串)转换成多行记录的表 -- Function BEGIN DECLARE @NextString nvarchar(max), @Pos int, @NextPos int, @CommaCheck nvarchar(1), @id int IF @Type='Delimiter' begin set @id=1 SET @NextString = '' SET @CommaCheck = right(@String,1) SET @String = @String + @Delimiter SET @Pos = CHARINDEX(@Delimiter,@String) SET @NextPos = 1 WHILE (@pos <> 0) BEGIN SET @NextString = SUBSTRING(@String,1,@Pos - 1) INSERT INTO @ValueTable ( [Value],[id]) VALUES (@NextString,@id) -- (@NextString+'#Delimiter#'+@Delimiter,@id) SET @String = SUBSTRING(@String,@pos +1,LEN(@String)) SET @NextPos = @Pos SET @pos = CHARINDEX(@Delimiter,@String) set @id = @id +1 END END IF @Type='Length' BEGIN DECLARE @len INT,@Length INT SET @Length=@Delimiter SET @len=(SELECT LEN(@String)) SET @id=1 WHILE (@len>0) BEGIN SET @NextString=(select SUBSTRING(@String,@id,@Length)) INSERT INTO @ValueTable ( [Value],[id]) SELECT @NextString,@id WHERE @NextString<>'' SET @id=@id+@Length SET @len=@len-1 END END RETURN END go --DROP FUNCTION fn_GetSimilar ALTER FUNCTION fn_GetSimilar (@StrA As nVarchar(4000), /*待比较的字符*/@StrB As nVarchar(255),/*关键字*/@strength INT/*比较强度*/) RETURNS DECIMAL(18,4) --Returns @table Table (Frequency DECIMAL(18,4)/*关键字比重*/,Correlation DECIMAL(18,4)/*关键字相关性*/) AS BEGIN DECLARE @Result DECIMAL(18,4),@lenSame DECIMAL(18,4),@lenA DECIMAL(18,4),@lenB DECIMAL(18,4),@lenSameA DECIMAL(18,4),@lenSameB DECIMAL(18,4) ,@re DECIMAL(18,4) ,@Frequency DECIMAL(18,4),@Correlation DECIMAL(18,4) set @lenA=CONVERT(DECIMAL(18,4),len(@StrA)) set @lenB=(SELECT COUNT(*) FROM dbo.fn_Split1(@StrB,',','Delimiter') ) SET @strength=(CASE WHEN @strength>@lenB THEN @lenB ELSE @strength END) IF (@strength<>-1) BEGIN--非模糊查询,关键字不能发生更改 SET @lenSame=CONVERT(DECIMAL(18,4),(SELECT COUNT(*) FROM (SELECT 1 AS id,@StrA as VALUE) a,dbo.fn_Split1(@StrB,',','Delimiter') b WHERE a.VALUE LIKE N'%'+b.VALUE+'%')) IF (@strength=@lenB) BEGIN--最高强度,必须全匹配 SET @re=(CASE WHEN @lenSame=@strength THEN 1 ELSE 0 END) END IF (@strength BETWEEN 0 AND @lenB) BEGIN--不要求全匹配 SET @re=@lenSame/@strength END END IF (@strength=-1) BEGIN--模糊匹配 DECLARE @BlurrySource TABLE (id int,VALUE nvarchar(50)) DECLARE @BlurryResulte TABLE (id int,VALUE DECIMAL(18,4)) DECLARE @BlurrySum TABLE (id int,VALUE nvarchar(50)) DECLARE @Blurry TABLE (id int,VALUE nvarchar(50)) DECLARE @BlurryNumber INT,@length int INSERT INTO @BlurrySource (id,VALUE) SELECT id,Value FROM dbo.fn_Split1(@StrA,1,'Length') INSERT INTO @BlurrySum (id,VALUE) SELECT id,Value FROM dbo.fn_Split1(@StrB,',','Delimiter') SET @BlurryNumber=(SELECT COUNT(*) FROM @BlurrySum) WHILE (@BlurryNumber>0) BEGIN SET @BlurryNumber=(SELECT COUNT(*) FROM @BlurrySum) DELETE @Blurry INSERT INTO @Blurry (id,VALUE) SELECT id,Value FROM dbo.fn_Split1( (SELECT value FROM @BlurrySum WHERE id=@BlurryNumber) ,1,'Length') SET @length=(select LEN(value) FROM @BlurrySum WHERE id=@BlurryNumber) SET @lenSame=CONVERT(DECIMAL(18,4),(SELECT COUNT(*) FROM @BlurrySource a,@Blurry b WHERE a.VALUE=b.VALUE))/@length INSERT INTO @BlurryResulte (id,value) VALUES (@BlurryNumber,@lenSame) DELETE @BlurrySum WHERE id=@BlurryNumber END SET @re=(select AVG(value) FROM @BlurryResulte) END RETURN @re END go
二月十六 2018-03-19
  • 打赏
  • 举报
回复
这种模糊搜索必须有规则,就是什么样的算是两个一样的公司,是几个字相同,还是前两个字相同等等,规则必须的有,不然匹配的肯定不准。
  • 打赏
  • 举报
回复
试试 这个相似度函数 create FUNCTION fn_GetSimilar ( @StrA As Varchar(255), --传入的待比较的字符 @StrB As Varchar(255) --期望字符 ) RETURNS int AS BEGIN DECLARE @Result int declare @lenA int declare @lenB int declare @lenSameA int declare @lenSameB int set @lenA=len(@StrA) set @lenB=len(@StrB) --计算A中字符在B中存在的数量 select @lenSameA=count(*) from dbo.fn_splitstr(@strA) where @StrB like '%'+splitValue+'%' --计算B中字符在A中存在的数量 select @lenSameB=count(*) from dbo.fn_splitstr(@StrB) where @StrA like '%'+splitValue+'%' set @Result =(@lenSameA+@lenSameB)*100 /(@lenA+@lenB) RETURN @Result END select dbo.fn_getsimilar('asdf','fdsa')

27,579

社区成员

发帖
与我相关
我的任务
社区描述
MS-SQL Server 应用实例
社区管理员
  • 应用实例社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧