字符串相似度

yzsqqc 2012-06-17 12:07:03
现在需要将某个特定的字符串A与数据库中的大量记录(字符串1、字符串2...字符串n)进行比较,找出最相似的结果,我的做法是用mid和for循环将字符串A转化成存放单个文字的字符数组str(i)(如A="这是示例",转化后str(0)="这",str(1)="是",str(2)="示",str(3)="例"),

然后
 if instr(1, "*数据库的某条记录*" ,str(i))<> 0 then num = num + 1
来统计重复字符串数目,最后统计
 format( num/len("*数据库的某条记录*"), "00.0%") 
,降序排列。全过程可以实现,不过误差敏感度很大,即使我统计的时候也用了类似
Replace("*数据库的某条记录*"," ","")
来去除空格、标点的影响,不过依然分析结果不理想,往往一个很长的包含大量字符的文本 其类似度 要高于 与源字符串仅有微小差别的文本。请问有没有一些优化方案或其他替代方式呢?谢谢!
...全文
114 1 打赏 收藏 转发到动态 举报
写回复
用AI写文章
1 条回复
切换为时间正序
请发表友善的回复…
发表回复
贝隆 2012-06-18
  • 打赏
  • 举报
回复
这个有些概念模糊....

7,763

社区成员

发帖
与我相关
我的任务
社区描述
VB 基础类
社区管理员
  • VB基础类社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧