数据相似度匹配问题

whb147 2010-01-27 10:25:02
需求,2组数据
基本数据:
微软(中国)有限公司
北京三立众合科技发展有限责任公司
合肥铭云软件科技有限公司
慧舟软件技术(上海)有限公司
昆明海惠通科技有限公司
深圳市奥怡轩实业有限公司
无锡艾斯科信息技术有限公司
厦门市领航科技有限公司
青岛北兴电子科技有限公司

需要匹配的数据:
无锡艾斯科信息技术
厦门市领航科技有限公司
北兴电子科技有限公司
北京艾提
北京迈拓晨峰科技发展有限公司
宁波胜达高科信息工程有限公司

用需要匹配的数据去基本数据库里查询匹配相似度最高的记录
我现在的做法是把一些区域性的字符都去掉,还有一些什么有限公司的字符都去掉,只保留关键字
然后逐字匹配,逐个字的拼音进行匹配

这样就会有北京XXX公司和上海XXX公司前完全匹配,其实这是2个完全不一样的公司
不知道大家还有什么方法
比如分词匹配(有免费的分词组件吗?)

谢谢


...全文
923 27 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
27 条回复
切换为时间正序
请发表友善的回复…
发表回复
friendzlr 2011-07-16
  • 打赏
  • 举报
回复
数据去重站运行后发现的匹配如下
8 厦门市领航科技有限公司
11 厦门市领航科技有限公司
7 无锡艾斯科信息技术有限公司
10 无锡艾斯科信息技术
9 青岛北兴电子科技有限公司
12 北兴电子科技有限公司
friendzlr 2011-07-11
  • 打赏
  • 举报
回复
我知道一个网站有个在线工具可以解决这个问题:
数据去重工具
把这两批数据一起放进这个工具,这个工具会把相似的公司名称当作重复数据给找出来。
初学额 2011-03-20
  • 打赏
  • 举报
回复
复杂的学习,很感兴趣。。。。
a1sdfg11 2010-10-08
  • 打赏
  • 举报
回复
ssafdaddfsf
csdn_风中雪狼 2010-04-08
  • 打赏
  • 举报
回复
学习支持
段传涛 2010-02-01
  • 打赏
  • 举报
回复
四楼 是博士生毕业 。 比较牛啊
whb147 2010-02-01
  • 打赏
  • 举报
回复
谢谢大家,
我现在正在学习分词,看看有什么好的办法
先揭帖,
不懂到时候再来问
iStringTheory 2010-01-28
  • 打赏
  • 举报
回复
使用lucene
悔说话的哑巴 2010-01-28
  • 打赏
  • 举报
回复
请参考:
http://blog.csdn.net/lkf0217/archive/2009/08/20/4466952.aspx
ilovey4 2010-01-28
  • 打赏
  • 举报
回复
友情帮顶
C_NET_rgz 2010-01-28
  • 打赏
  • 举报
回复
DINGDING
zsz1001 2010-01-28
  • 打赏
  • 举报
回复
学习
jasper 2010-01-28
  • 打赏
  • 举报
回复
真是什么需求都有啊
whb147 2010-01-28
  • 打赏
  • 举报
回复
再顶
wuyq11 2010-01-27
  • 打赏
  • 举报
回复
中文分词
LD算法
whb147 2010-01-27
  • 打赏
  • 举报
回复
最近在看分词,准备做一个行业分词,
然后再匹配
这样是否就好点了
vssvss 2010-01-27
  • 打赏
  • 举报
回复
我最近在做电话区号的匹配 跟你差不多 我也正烦着呢
关注中
longhair9711 2010-01-27
  • 打赏
  • 举报
回复
whb147 2010-01-27
  • 打赏
  • 举报
回复
因为有些谐音的
所以加了拼音匹配,做双重匹配

大家都用什么做分词?
ruanwei1987 2010-01-27
  • 打赏
  • 举报
回复
楼主 你看可以不可以这样 用一个减其他的


返回0就是完全匹配啊


我觉得用拼音没有意义

还不如用汉字 匹配呢

当然如果都加上匹配度更高
加载更多回复(7)

111,098

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术 C#
社区管理员
  • C#
  • AIGC Browser
  • by_封爱
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

让您成为最强悍的C#开发者

试试用AI创作助手写篇文章吧