求助大佬如何模糊匹配数据

Simon2274 2018-03-18 11:48:09

如图，我想找出两列数据的并集，就是既是上市公司，也是境内投资主体，但是有一个问题就是两列公司名称并不完全一样，例如A16是神州长城股份有限公司，但是C列就是神州长城国际工程有限公司。两个数据库数量比较多，用excel无法进行，想问问大佬怎么用sql进行匹配，小僧拜谢

...全文

927 5 打赏收藏转发到动态举报

写回复

用AI写文章

5 条回复

切换为时间正序

请发表友善的回复…

发表回复

xzxmustwin 2018-03-26

打赏
举报

我也觉得这个要根据业务逻辑来，用通用的函数的话肯定会造成匹配不准确，比如你给的例子中 ‘有限公司’ ‘中国’ ‘中海’这些出现了多次，但这些都不是关键的匹配内容。也许可以先把字段中不重要的词先剔除再用楼上的函数

laj0600310219 2018-03-23

打赏
举报

你得先给出两列数据公司名称的匹配规则

icchhp 2018-03-22

打赏
举报

不知道这个能不能帮到你设计思路:对比一个字符串A与关键字字符串B之间的关联关系. 情况1:完全相关,例如,'中国人民银行'同时包含关键字人民,银行. 情况2:部分相关,例如,'中国人民银行'部分包含关键字人民,银行,xx. 情况3:模糊相关,例如'中国人民银行',与关键字'x中,人民',中部分字眼有相关性,部分则没有使用方法 SELECT dbo.fn_GetSimilar(字符串,关键字(多个关键字用逗号隔开),适配关键字数量,如果查询关键字有10个,可是只有5个关键字能被搜索到就算完全相关的话写5,如果模糊查找写-1) 运行结果 SELECT dbo.fn_GetSimilar(N'中国人民银行',N'人民,银行',3) 1.0000 SELECT dbo.fn_GetSimilar(N'中国人民银行',N'人民,银行,xx',3) 0.6667 SELECT dbo.fn_GetSimilar(N'中国人民银行',N'x中,人民',-1) 0.7500 代码 ALTER FUNCTION [dbo].[fn_Split1]( @String nvarchar (max), @Delimiter nvarchar (10),@Type NVARCHAR(10) ) RETURNS @ValueTable TABLE ([Value] NVARCHAR(max),[id] int) AS --1. 字符串(分隔符分隔组成的字符串)转换成多行记录的表 -- Function BEGIN DECLARE @NextString nvarchar(max), @Pos int, @NextPos int, @CommaCheck nvarchar(1), @id int IF @Type='Delimiter' begin set @id=1 SET @NextString = '' SET @CommaCheck = right(@String,1) SET @String = @String + @Delimiter SET @Pos = CHARINDEX(@Delimiter,@String) SET @NextPos = 1 WHILE (@pos <> 0) BEGIN SET @NextString = SUBSTRING(@String,1,@Pos - 1) INSERT INTO @ValueTable ( [Value],[id]) VALUES (@NextString,@id) -- (@NextString+'#Delimiter#'+@Delimiter,@id) SET @String = SUBSTRING(@String,@pos +1,LEN(@String)) SET @NextPos = @Pos SET @pos = CHARINDEX(@Delimiter,@String) set @id = @id +1 END END IF @Type='Length' BEGIN DECLARE @len INT,@Length INT SET @Length=@Delimiter SET @len=(SELECT LEN(@String)) SET @id=1 WHILE (@len>0) BEGIN SET @NextString=(select SUBSTRING(@String,@id,@Length)) INSERT INTO @ValueTable ( [Value],[id]) SELECT @NextString,@id WHERE @NextString<>'' SET @id=@id+@Length SET @len=@len-1 END END RETURN END go --DROP FUNCTION fn_GetSimilar ALTER FUNCTION fn_GetSimilar (@StrA As nVarchar(4000), /*待比较的字符*/@StrB As nVarchar(255),/*关键字*/@strength INT/*比较强度*/) RETURNS DECIMAL(18,4) --Returns @table Table (Frequency DECIMAL(18,4)/*关键字比重*/,Correlation DECIMAL(18,4)/*关键字相关性*/) AS BEGIN DECLARE @Result DECIMAL(18,4),@lenSame DECIMAL(18,4),@lenA DECIMAL(18,4),@lenB DECIMAL(18,4),@lenSameA DECIMAL(18,4),@lenSameB DECIMAL(18,4) ,@re DECIMAL(18,4) ,@Frequency DECIMAL(18,4),@Correlation DECIMAL(18,4) set @lenA=CONVERT(DECIMAL(18,4),len(@StrA)) set @lenB=(SELECT COUNT(*) FROM dbo.fn_Split1(@StrB,',','Delimiter') ) SET @strength=(CASE WHEN @strength>@lenB THEN @lenB ELSE @strength END) IF (@strength<>-1) BEGIN--非模糊查询,关键字不能发生更改 SET @lenSame=CONVERT(DECIMAL(18,4),(SELECT COUNT(*) FROM (SELECT 1 AS id,@StrA as VALUE) a,dbo.fn_Split1(@StrB,',','Delimiter') b WHERE a.VALUE LIKE N'%'+b.VALUE+'%')) IF (@strength=@lenB) BEGIN--最高强度,必须全匹配 SET @re=(CASE WHEN @lenSame=@strength THEN 1 ELSE 0 END) END IF (@strength BETWEEN 0 AND @lenB) BEGIN--不要求全匹配 SET @re=@lenSame/@strength END END IF (@strength=-1) BEGIN--模糊匹配 DECLARE @BlurrySource TABLE (id int,VALUE nvarchar(50)) DECLARE @BlurryResulte TABLE (id int,VALUE DECIMAL(18,4)) DECLARE @BlurrySum TABLE (id int,VALUE nvarchar(50)) DECLARE @Blurry TABLE (id int,VALUE nvarchar(50)) DECLARE @BlurryNumber INT,@length int INSERT INTO @BlurrySource (id,VALUE) SELECT id,Value FROM dbo.fn_Split1(@StrA,1,'Length') INSERT INTO @BlurrySum (id,VALUE) SELECT id,Value FROM dbo.fn_Split1(@StrB,',','Delimiter') SET @BlurryNumber=(SELECT COUNT(*) FROM @BlurrySum) WHILE (@BlurryNumber>0) BEGIN SET @BlurryNumber=(SELECT COUNT(*) FROM @BlurrySum) DELETE @Blurry INSERT INTO @Blurry (id,VALUE) SELECT id,Value FROM dbo.fn_Split1( (SELECT value FROM @BlurrySum WHERE id=@BlurryNumber) ,1,'Length') SET @length=(select LEN(value) FROM @BlurrySum WHERE id=@BlurryNumber) SET @lenSame=CONVERT(DECIMAL(18,4),(SELECT COUNT(*) FROM @BlurrySource a,@Blurry b WHERE a.VALUE=b.VALUE))/@length INSERT INTO @BlurryResulte (id,value) VALUES (@BlurryNumber,@lenSame) DELETE @BlurrySum WHERE id=@BlurryNumber END SET @re=(select AVG(value) FROM @BlurryResulte) END RETURN @re END go

二月十六 2018-03-19

打赏
举报

这种模糊搜索必须有规则，就是什么样的算是两个一样的公司，是几个字相同，还是前两个字相同等等，规则必须的有，不然匹配的肯定不准。

学海无涯-回头是岸 2018-03-18

打赏
举报

试试这个相似度函数 create FUNCTION fn_GetSimilar ( @StrA As Varchar(255), --传入的待比较的字符 @StrB As Varchar(255) --期望字符 ) RETURNS int AS BEGIN DECLARE @Result int declare @lenA int declare @lenB int declare @lenSameA int declare @lenSameB int set @lenA=len(@StrA) set @lenB=len(@StrB) --计算A中字符在B中存在的数量 select @lenSameA=count(*) from dbo.fn_splitstr(@strA) where @StrB like '%'+splitValue+'%' --计算B中字符在A中存在的数量 select @lenSameB=count(*) from dbo.fn_splitstr(@StrB) where @StrA like '%'+splitValue+'%' set @Result =(@lenSameA+@lenSameB)*100 /(@lenA+@lenB) RETURN @Result END select dbo.fn_getsimilar('asdf','fdsa')

影视广告，视频包装，这个让互联网媒体价值翻倍的专业，产值已突破1000亿大关。电视广告，栏目片头、视频宣传片等需求量阶梯式增长，高品质的后期包装技术人才在市场就是香饽饽。如何成为一名被市场疯抢的视频制作者...

作者：文兄链接：https://www.zhihu.com/question/19929609/answer/133825589 来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。谢邀。本答案提要：1.plotly 2.R ggplot23.无需编程语言的工具（7个）4.基于JavaScript实现的工具（8个）5.基于其他语言的工具（5个）6.地图数据可视化工具（7个）7.金融（股票）数据可视化工具（2个）8.时间轴数据可视化工具（2个）9.函数与公式数据可视化工具（2个

知识来源：接地气学堂1 前言行文之初衷，建立知识树，因而不易速读，请君悉知。宜为工具书，按索引取之。独学而无友，必孤陋寡闻，请君赐教，不吝感激。循序图之，数据分析介绍前言一、基本认识1. 数据分析定义2. 需求层的工作概述3.数据层工作概述4.分析层工作概述5.输出层工作概述7.技术与能力其他概念数据赋能数据产品二.数据分析可以解决问题类型：1.“是多少”问题的解决思路2.“是什么”问题的解决方法3.“为什么”问题的解决方法4.“会怎样”问题的解决方法5.属于“怎么做”的方法总结三.数据分析思路如何

Mock 的意思就是，当你很难拿到源数据时，你可以使用某些手段，去获取到跟源数据相似的假数据，拿着这些假数据，前端可以先行开发，陆陆续续有oc的大佬，但是感觉没有很多欸，不知道现在什么情况，希望路过的大佬能投一下，已经开过两场座谈，如果有去年的大佬能说下情况也好，希望大家都能拿到满意的o。本硕211，湖北人，无车无房，一直在做嵌入式软件方向，也想继续往这方面发展1.东风技术中心蔡甸区，985，不定岗，但估计是智软部门，公积金10%2.小米洪山区，感觉面试过程更注重思路/思考，并且会进行适当引导，体验很棒！

这是一个求助帖，请问一下大家蚂蚁发完意向之后，点击确认意向，然后主管加了俺vx，接下来还要干啥么（想。研发岗挺不错的，就是做涂料油漆的太伤身体了，还有待遇六险二金，公积金12%，包吃住，就是base太低。1.广州小公司，规模100-499，岗位游戏测试，试用期税前6k，转正税前7k，餐补30一天，大小周。项目烂大街，沟通了 270+了，都是已读不回，那个待面试的是数据标注的，我是不是没救了。求助友友们这个状态是啥意思啊，看不到简历复筛了 #你已经投递多少份简历了# #海康# #小米# #我。