字符串相似度

yzsqqc 2012-06-17 12:07:03

现在需要将某个特定的字符串A与数据库中的大量记录（字符串1、字符串2...字符串n）进行比较，找出最相似的结果，我的做法是用mid和for循环将字符串A转化成存放单个文字的字符数组str(i)（如A="这是示例"，转化后str(0)="这",str(1)="是",str(2)="示",str(3)="例"），

然后

 if instr(1, "*数据库的某条记录*" ,str(i))<> 0 then num = num + 1

来统计重复字符串数目，最后统计

 format( num/len("*数据库的某条记录*"), "00.0%")

,降序排列。全过程可以实现，不过误差敏感度很大，即使我统计的时候也用了类似

Replace("*数据库的某条记录*"," ","")

来去除空格、标点的影响，不过依然分析结果不理想，往往一个很长的包含大量字符的文本其类似度要高于与源字符串仅有微小差别的文本。请问有没有一些优化方案或其他替代方式呢？谢谢！

...全文

114 1 打赏收藏转发到动态举报

写回复

用AI写文章

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

贝隆 2012-06-18

打赏
举报

这个有些概念模糊....

字符串相似度算法 字符串相似度算法 字符串相似度算法 字符串相似度算法 相似度 字符串

字符串相似度比较算法,可比较不同长度的任意两个字符串的相似度，以百分比显示。

# Python 47个字符串方法## 课程介绍同学们是否总是要搜资料、查官网后，才知道怎么操作字符串？如果是，来学学本课程吧，本课程以讲解官网文档的方式，讲解 Python 47个字符串方法，涉及替换、删除、连接、查找、...

Levenshtein算法python也是用的这个对比字符串相似度的，还不错

一个实现不同字符串相似度和距离度量的库。目前实现了十几种算法（包括 Levenshtein 编辑距离和兄弟、Jaro-Winkler、最长公共子序列、余弦相似度等）。查看下面的汇总表以获取完整列表... python字符串相似度 下载概述归一化、度量、相似性和距离（归一化）相似度和距离公制距离基于带状疱疹（n-gram）的相似性和距离文史丹规范化的文史丹加权文体 Damerau-Levenshtein 最佳字符串对齐雅罗-温克勒最长公共子序列公制最长公共子序列 N-Gram 基于带状疱疹（n-gram）的算法 Q-Gram 余弦相似度 杰卡德指数 Sorensen-Dice 系数重叠系数（即 Szymkiewicz-Simpson）实验性的 SIFT4 更多详情、使用方法，请下载后阅读README.md文件

VB基础类

7,763

社区成员

197,609

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章