数据相似度匹配问题

whb147 2010-01-27 10:25:02
需求,2组数据
基本数据:
微软(中国)有限公司
北京三立众合科技发展有限责任公司
合肥铭云软件科技有限公司
慧舟软件技术(上海)有限公司
昆明海惠通科技有限公司
深圳市奥怡轩实业有限公司
无锡艾斯科信息技术有限公司
厦门市领航科技有限公司
青岛北兴电子科技有限公司

需要匹配的数据:
无锡艾斯科信息技术
厦门市领航科技有限公司
北兴电子科技有限公司
北京艾提
北京迈拓晨峰科技发展有限公司
宁波胜达高科信息工程有限公司

用需要匹配的数据去基本数据库里查询匹配相似度最高的记录
我现在的做法是把一些区域性的字符都去掉,还有一些什么有限公司的字符都去掉,只保留关键字
然后逐字匹配,逐个字的拼音进行匹配

这样就会有北京XXX公司和上海XXX公司前完全匹配,其实这是2个完全不一样的公司
不知道大家还有什么方法
比如分词匹配(有免费的分词组件吗?)

谢谢


...全文
991 27 打赏 收藏 转发到动态 举报
写回复
用AI写文章
27 条回复
切换为时间正序
请发表友善的回复…
发表回复
friendzlr 2011-07-16
  • 打赏
  • 举报
回复
数据去重站运行后发现的匹配如下
8 厦门市领航科技有限公司
11 厦门市领航科技有限公司
7 无锡艾斯科信息技术有限公司
10 无锡艾斯科信息技术
9 青岛北兴电子科技有限公司
12 北兴电子科技有限公司
friendzlr 2011-07-11
  • 打赏
  • 举报
回复
我知道一个网站有个在线工具可以解决这个问题:
数据去重工具
把这两批数据一起放进这个工具,这个工具会把相似的公司名称当作重复数据给找出来。
初学额 2011-03-20
  • 打赏
  • 举报
回复
复杂的学习,很感兴趣。。。。
a1sdfg11 2010-10-08
  • 打赏
  • 举报
回复
ssafdaddfsf
csdn_风中雪狼 2010-04-08
  • 打赏
  • 举报
回复
学习支持
段传涛 2010-02-01
  • 打赏
  • 举报
回复
四楼 是博士生毕业 。 比较牛啊
whb147 2010-02-01
  • 打赏
  • 举报
回复
谢谢大家,
我现在正在学习分词,看看有什么好的办法
先揭帖,
不懂到时候再来问
iStringTheory 2010-01-28
  • 打赏
  • 举报
回复
使用lucene
悔说话的哑巴 2010-01-28
  • 打赏
  • 举报
回复
请参考:
http://blog.csdn.net/lkf0217/archive/2009/08/20/4466952.aspx
ilovey4 2010-01-28
  • 打赏
  • 举报
回复
友情帮顶
C_NET_rgz 2010-01-28
  • 打赏
  • 举报
回复
DINGDING
zsz1001 2010-01-28
  • 打赏
  • 举报
回复
学习
jasper 2010-01-28
  • 打赏
  • 举报
回复
真是什么需求都有啊
whb147 2010-01-28
  • 打赏
  • 举报
回复
再顶
wuyq11 2010-01-27
  • 打赏
  • 举报
回复
中文分词
LD算法
whb147 2010-01-27
  • 打赏
  • 举报
回复
最近在看分词,准备做一个行业分词,
然后再匹配
这样是否就好点了
vssvss 2010-01-27
  • 打赏
  • 举报
回复
我最近在做电话区号的匹配 跟你差不多 我也正烦着呢
关注中
longhair9711 2010-01-27
  • 打赏
  • 举报
回复
whb147 2010-01-27
  • 打赏
  • 举报
回复
因为有些谐音的
所以加了拼音匹配,做双重匹配

大家都用什么做分词?
ruanwei1987 2010-01-27
  • 打赏
  • 举报
回复
楼主 你看可以不可以这样 用一个减其他的


返回0就是完全匹配啊


我觉得用拼音没有意义

还不如用汉字 匹配呢

当然如果都加上匹配度更高
加载更多回复(7)

111,120

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术 C#
社区管理员
  • C#
  • Creator Browser
  • by_封爱
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

让您成为最强悍的C#开发者

试试用AI创作助手写篇文章吧