数据相似度匹配问题
需求,2组数据
基本数据:
微软(中国)有限公司
北京三立众合科技发展有限责任公司
合肥铭云软件科技有限公司
慧舟软件技术(上海)有限公司
昆明海惠通科技有限公司
深圳市奥怡轩实业有限公司
无锡艾斯科信息技术有限公司
厦门市领航科技有限公司
青岛北兴电子科技有限公司
需要匹配的数据:
无锡艾斯科信息技术
厦门市领航科技有限公司
北兴电子科技有限公司
北京艾提
北京迈拓晨峰科技发展有限公司
宁波胜达高科信息工程有限公司
用需要匹配的数据去基本数据库里查询匹配相似度最高的记录
我现在的做法是把一些区域性的字符都去掉,还有一些什么有限公司的字符都去掉,只保留关键字
然后逐字匹配,逐个字的拼音进行匹配
这样就会有北京XXX公司和上海XXX公司前完全匹配,其实这是2个完全不一样的公司
不知道大家还有什么方法
比如分词匹配(有免费的分词组件吗?)
谢谢