社区
搜索引擎技术
帖子详情
求教字符串相似度的算法
thinkercui
2013-11-12 05:09:38
两个字符串的相似度,有很多定义方式。
有人认为,公共串越长,越相似;
有人认为,编辑距离越短,越相似。
本人认为应该以编辑距离为相似度度量标准。
但是,当求两个字符串的相似度时,传统的编辑距离算法时间和空间复杂度都比较高。
请教各位高手,有什么办法能够比较快速的求出两个串之间的编辑距离么。。?
...全文
428
7
打赏
收藏
求教字符串相似度的算法
两个字符串的相似度,有很多定义方式。 有人认为,公共串越长,越相似; 有人认为,编辑距离越短,越相似。 本人认为应该以编辑距离为相似度度量标准。 但是,当求两个字符串的相似度时,传统的编辑距离算法时间和空间复杂度都比较高。 请教各位高手,有什么办法能够比较快速的求出两个串之间的编辑距离么。。?
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
7 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
sanweixianshi
2013-12-28
打赏
举报
回复
好吧,这个问题还是比较感兴趣的
thinkercui
2013-12-21
打赏
举报
回复
@sanweixianshi 楼主涉水未深,不敢说什么样的文献是经典的。。
thinkercui
2013-12-21
打赏
举报
回复
@zhou19891113 楼主也没什么想法啦。 第一种,就是采用传统的编辑距离算法,这种方法到网上一搜“编辑距离”,到处都是; 第二种,是改进的编辑距离算法,本方法是以传统的编辑距离算法为基础,采用限定区域的方法(也就是取对角线周围部分)来算一个估计编辑距离(因为限定了可以连续插入或者删除的可能性,所以只能算是局部最优); 第三种,在第二种基础上进行修改,首先限定一个区域,计算一个估计编辑距离,然后根据估计编辑距离来动态扩展选取范围,这种方法实际效果不很理想; 第四种,采用哈希表的方法,本方法设定一个编辑距离估计值H,也就是说,两个串间的编辑距离<=H。这样,可以将两个串分成H+1份,用着H+1份建哈希表,至少有一份是一定能粘到一起去(没有任何编辑错误),剩下的部分再采用传统编辑距离算法进行计算,本算法适合短距离测定。 楼主也尝试过其他方法,但是都没能有好的结果。。
sanweixianshi
2013-12-20
打赏
举报
回复
有没有经典文献?
Ericz
2013-12-02
打赏
举报
回复
楼主,把你的方法发出来看看。
thinkercui
2013-12-01
打赏
举报
回复
@zhuce1986 嗯,还是很感谢,但是,并行计算不能说明算法效率高。。。
手软脚软
2013-11-30
打赏
举报
回复
从算法角度提升两个串之间的编辑距离会比较有挑战。 当需要比较的字符串非常多,比如上亿的规模,楼主可以考虑下并行计算方案, 将这些字符串放到多台机器上计算,速度会快很多,开源hadoop是个不错的选择。 楼主可以查下资料。
基于局部敏感哈希的协同过滤
算法
之simHash
算法
搜集了快一个月的资料,虽然不完全懂,但还是先慢慢写着吧,说不定就有思路了呢。 开源的最大好处是会让作者对脏乱臭的代码有羞耻感。 当一个做推荐系统的部门开始重视【数据清理,数据标柱,效果评测,数据统计,数据分析】这些所谓的脏活累活,这样的推荐系统才会有救。
求教
GitHub的使用。 简单不等于傻逼。 我为什么说累:我又是一个习惯在聊...
bp
算法
和nlp
算法
_暑期实习NLP
算法
岗面经总结
写在前面,从三月份开始找实习到现在正好两个月,这期间大大小小投了竹简智能、阿里、滴滴、美团、腾讯、京东、搜狗、百度、微软亚研几个公司,本着从小公司开始逐渐打怪升级的原则,不断积累面试经验,到现在也斩获了不少offer。这也是最近专栏停更的主要原因,写这篇文章主要是为了帮助那些跟我一样没有什么项目经验、没有顶会论文甚至实验室方向也不是深度学习与NLP的同学们,另外一方面就是让大家对各大公司在深度学习...
华为云&;外企德科东莞和西安OD招聘,web前后台开发和测试
几块钱就搞定,还省事。/** * 代码中的类名、方法名、参数名已经指定,请勿修改,直接返回方法规定的值即可 * * * @param str string
字符串
* @retur。*//** * 代码中的类名、岗位:工程类、
算法
类、产品类、运营类、设计类、分析类、战略类、市场类、职能类、客服类、审核类、内容评级类、销售及支持类....内推流。生产管理类,加班情况,职业前景,有了解的可以给点建议吗有没有好兄弟也是这个类,可以交流下 #23届找工作求助阵地# #23届找工作求助阵地# #找工作中的意难平。
暑期实习NLP
算法
岗面经总结
写文章暑期实习NLP
算法
岗面经总结呜呜哈做一个有思想的码农关注他488 人赞同了该文章写在前面,从三月份开始找实习到现在正好两个月,这期间大大小小投了竹简智能、阿里、滴滴、美团、腾讯、京东、搜狗、百度、微软亚研几个公司,本着从小公司开始逐渐打怪升级的原则,不断积累面试经验,到现在也斩获了不少offer。这也是最近专栏停更的主要原因,写这篇文章主要是为了帮助那些跟我一样没有什么项目经验、没有顶会论...
知识图谱入门 【九】- 知识问答
知识问答简介 问答系统的历史如下图所示: 可以看出,整体进程由基于模板到信息检索到基于知识库的问答。基于信息检索的问答
算法
是基于关键词匹配+信息抽取、浅层语义分析。基于社区的问答依赖于网民贡献,问答过程依赖于关键词检索技术。基于知识库的问答则基于语义解析和知识库。 根据问答形式可以分为一问一答、交互式问答、阅读理解。一个经典的测评数据集为QALD,主要任务有三类: 多语种问答,基于Dbpedia 问答基于链接数据 Hybrid QA,基于RDF and free text data 知识问答
搜索引擎技术
2,760
社区成员
2,052
社区内容
发帖
与我相关
我的任务
搜索引擎技术
搜索引擎的服务器通过网络搜索软件或网络登录等方式,将Internet上大量网站的页面信息收集到本地,经过加工处理建立信息数据库和索引数据库。
复制链接
扫一扫
分享
社区描述
搜索引擎的服务器通过网络搜索软件或网络登录等方式,将Internet上大量网站的页面信息收集到本地,经过加工处理建立信息数据库和索引数据库。
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章