文档部分重复检测研究下载

weixin_39821228 2019-09-12 07:00:22
pdf. 49页.
本文提出了一种算法以解决文档部分重复检测问题。该方法分为句子级别的重复检测以及序列匹配两个子问题。首先,本文提出了一种快速有效的句子级别的特征提取方法—Low-IDF-SIG算法,并基于该算法实现了一个可以高效地找出句子级别重复的检测系统。为了对本文提出的方法的精度及效率进行评测,作者还在一个真实的语料库上对提出的方法与其他方法进行了比较。实验结果证明本文提出的方法能有效地提高句子级别的重复检测任务的效率和精度。此外本文还提出了基于MapReduce范式的文档部分重复检测算法PDC-MR-Ⅱ算法。并基于该算法实现了一个基于MapReduce范式的高效的分布式文档部分重复检
相关下载链接://download.csdn.net/download/kamo54/8444851?utm_source=bbsseo
...全文
14 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

13,654

社区成员

发帖
与我相关
我的任务
社区描述
CSDN 下载资源悬赏专区
其他 技术论坛(原bbs)
社区管理员
  • 下载资源悬赏专区社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧