求教字符串相似度的算法

thinkercui 2013-11-12 05:09:38

两个字符串的相似度，有很多定义方式。
有人认为，公共串越长，越相似；
有人认为，编辑距离越短，越相似。

本人认为应该以编辑距离为相似度度量标准。
但是，当求两个字符串的相似度时，传统的编辑距离算法时间和空间复杂度都比较高。
请教各位高手，有什么办法能够比较快速的求出两个串之间的编辑距离么。。？

...全文

428 7 打赏收藏转发到动态举报

写回复

7 条回复

切换为时间正序

请发表友善的回复…

发表回复

sanweixianshi 2013-12-28

打赏
举报

回复

好吧，这个问题还是比较感兴趣的

thinkercui 2013-12-21

打赏
举报

回复

@sanweixianshi 楼主涉水未深，不敢说什么样的文献是经典的。。

thinkercui 2013-12-21

打赏
举报

回复

@zhou19891113 楼主也没什么想法啦。第一种，就是采用传统的编辑距离算法，这种方法到网上一搜“编辑距离”，到处都是；第二种，是改进的编辑距离算法，本方法是以传统的编辑距离算法为基础，采用限定区域的方法（也就是取对角线周围部分）来算一个估计编辑距离（因为限定了可以连续插入或者删除的可能性，所以只能算是局部最优）；第三种，在第二种基础上进行修改，首先限定一个区域，计算一个估计编辑距离，然后根据估计编辑距离来动态扩展选取范围，这种方法实际效果不很理想；第四种，采用哈希表的方法，本方法设定一个编辑距离估计值H，也就是说，两个串间的编辑距离<=H。这样，可以将两个串分成H+1份，用着H+1份建哈希表，至少有一份是一定能粘到一起去（没有任何编辑错误），剩下的部分再采用传统编辑距离算法进行计算，本算法适合短距离测定。楼主也尝试过其他方法，但是都没能有好的结果。。

sanweixianshi 2013-12-20

打赏
举报

回复

有没有经典文献？

Ericz 2013-12-02

打赏
举报

回复

楼主，把你的方法发出来看看。

thinkercui 2013-12-01

打赏
举报

回复

@zhuce1986 嗯，还是很感谢，但是，并行计算不能说明算法效率高。。。

手软脚软 2013-11-30

打赏
举报

回复

从算法角度提升两个串之间的编辑距离会比较有挑战。当需要比较的字符串非常多，比如上亿的规模，楼主可以考虑下并行计算方案，将这些字符串放到多台机器上计算，速度会快很多，开源hadoop是个不错的选择。楼主可以查下资料。

　　搜集了快一个月的资料，虽然不完全懂，但还是先慢慢写着吧，说不定就有思路了呢。　　开源的最大好处是会让作者对脏乱臭的代码有羞耻感。　　当一个做推荐系统的部门开始重视【数据清理，数据标柱，效果评测，数据统计，数据分析】这些所谓的脏活累活，这样的推荐系统才会有救。　　求教GitHub的使用。　　简单不等于傻逼。　　我为什么说累：我又是一个习惯在聊...

写在前面，从三月份开始找实习到现在正好两个月，这期间大大小小投了竹简智能、阿里、滴滴、美团、腾讯、京东、搜狗、百度、微软亚研几个公司，本着从小公司开始逐渐打怪升级的原则，不断积累面试经验，到现在也斩获了不少offer。这也是最近专栏停更的主要原因，写这篇文章主要是为了帮助那些跟我一样没有什么项目经验、没有顶会论文甚至实验室方向也不是深度学习与NLP的同学们，另外一方面就是让大家对各大公司在深度学习...

几块钱就搞定，还省事。/** * 代码中的类名、方法名、参数名已经指定，请勿修改，直接返回方法规定的值即可 * * * @param str string字符串 * @retur。*//** * 代码中的类名、岗位：工程类、算法类、产品类、运营类、设计类、分析类、战略类、市场类、职能类、客服类、审核类、内容评级类、销售及支持类....内推流。生产管理类，加班情况，职业前景，有了解的可以给点建议吗有没有好兄弟也是这个类，可以交流下 #23届找工作求助阵地# #23届找工作求助阵地# #找工作中的意难平。

写文章暑期实习NLP算法岗面经总结呜呜哈做一个有思想的码农关注他488 人赞同了该文章写在前面，从三月份开始找实习到现在正好两个月，这期间大大小小投了竹简智能、阿里、滴滴、美团、腾讯、京东、搜狗、百度、微软亚研几个公司，本着从小公司开始逐渐打怪升级的原则，不断积累面试经验，到现在也斩获了不少offer。这也是最近专栏停更的主要原因，写这篇文章主要是为了帮助那些跟我一样没有什么项目经验、没有顶会论...

知识问答简介问答系统的历史如下图所示：可以看出，整体进程由基于模板到信息检索到基于知识库的问答。基于信息检索的问答算法是基于关键词匹配+信息抽取、浅层语义分析。基于社区的问答依赖于网民贡献，问答过程依赖于关键词检索技术。基于知识库的问答则基于语义解析和知识库。根据问答形式可以分为一问一答、交互式问答、阅读理解。一个经典的测评数据集为QALD，主要任务有三类：多语种问答，基于Dbpedia 问答基于链接数据 Hybrid QA，基于RDF and free text data 知识问答

搜索引擎技术

2,760

社区成员

2,052

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章