表重复数据查找的问题,(根据某一字段的数据相似性)求救!!!!!

sly520 2009-03-01 10:23:52
问题如题,说明的是:现在有一张表(ID,名称,区域,详细地址...)数据量比较大,表中有许多的重复数据。由于不同用户在界面输入数据的时候在"名称"输入框中输入的数据不一致,而表达的是同一个名称(例如:北京21届国际博览会和2009年北京第21届国际博览会),现在我需要把“名称”这个字段相似的数据找出来显示到grid中,或是按对比相似的概率找出来,注:每天记录的ID是不同的。请请各位帮忙看看有没有好的思路建议或者好的算法教教小弟,等候大家帮忙咯,分数是少了点,本人好久没上来啦以后补上啦。
...全文
147 11 打赏 收藏 转发到动态 举报
写回复
用AI写文章
11 条回复
切换为时间正序
请发表友善的回复…
发表回复
sly520 2009-03-02
  • 打赏
  • 举报
回复
今晚继续顶起给些好的思路或算法好结贴呀!!!
sly520 2009-03-01
  • 打赏
  • 举报
回复
7楼的方法中主要是关键字难确定啊,问题就在这了,只要能够最大程度的找出相似数据就行了,各位帮忙想想思路和算法什么的 !!!!
vrhero 2009-03-01
  • 打赏
  • 举报
回复
这个难度比较大,基本上属于中文分词...

按4楼的描述还不止是匹配分词还要求统计分词...如果你的关键字范围比较小还比较可行,否则比较理解的方案实现的代价远远超乎你的想象...
sly520 2009-03-01
  • 打赏
  • 举报
回复
我说错了,不需要彻底,但是至少要把相似的数据找出来啊,这里的彻底不彻底是查询的精度的问题啦
天乐 2009-03-01
  • 打赏
  • 举报
回复
针对每一类相似性的数据进行分析,抽出能够确定语义的关键字符,构造正则表达式,采取正则匹配来验证。


这个方法不能一劳永逸的解决所有业务数据的问题,需要有针对性的分析。

正则表达式的表达力很强,匹配效率也不错,推荐
止戈而立 2009-03-01
  • 打赏
  • 举报
回复
[Quote=引用 4 楼 sly520 的回复:]
谢谢,这个方法可行哦但是这样感觉查找出来不够彻底啊,最好是能把一类的数据都能找出来,例如 题目里的 博览会 这一类数据都能找出来,我现在要做的是一个小程序,管理好表中数据,可能会要设计查询的等级(高,中,低)让用户能按需要的查询等级查询相似的数据出来
[/Quote]

如果你能归纳出关键字的话,那自然是可以。
可以这么说:基本上不可能有什么彻底的方法。
sly520 2009-03-01
  • 打赏
  • 举报
回复
对啊,就是需要对每天数据进行分析 头大啊!我这里不需要考虑通用了 呵呵 有没有好点思路啊?!!!
sly520 2009-03-01
  • 打赏
  • 举报
回复
谢谢,这个方法可行哦但是这样感觉查找出来不够彻底啊,最好是能把一类的数据都能找出来,例如 题目里的 博览会 这一类数据都能找出来,我现在要做的是一个小程序,管理好表中数据,可能会要设计查询的等级(高,中,低)让用户能按需要的查询等级查询相似的数据出来
天乐 2009-03-01
  • 打赏
  • 举报
回复
头疼的问题~~

似乎需要针对数据特点先分析一下,看看有没有规律,再来制定一个较为容易实现、又能满足需求的算法。

考虑通用算法的话,恐怕成本太高。

止戈而立 2009-03-01
  • 打赏
  • 举报
回复
试一下以length(名称)先排序,然后取出前n个名称,循环: 名称 Like '%较短的名称%' 执行查找。
把查找的结果显示出来。
sly520 2009-03-01
  • 打赏
  • 举报
回复
帮自己顶起啊,各位!!

111,126

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术 C#
社区管理员
  • C#
  • Creator Browser
  • by_封爱
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

让您成为最强悍的C#开发者

试试用AI创作助手写篇文章吧