爬虫中如何实现内容去重,有什么好的算法?求大神!!

SW1575167988 2013-03-25 10:18:39
爬虫中如何实现内容去重,有什么好的算法?最好用c#语言的,我有看过语义指纹提取关键字算法,有哪位大神能给个好的算法
...全文
136 3 打赏 收藏 转发到动态 举报
写回复
用AI写文章
3 条回复
切换为时间正序
请发表友善的回复…
发表回复
  • 打赏
  • 举报
回复
当然,根据rl判断是最初级的判断,这支持判断文档“重复特征”的最笨办法。
  • 打赏
  • 举报
回复
在进入一个页面之前,可以根据url来判断是否重复。如果要进入一个重复的页面,那么首先要把之前查询到的此页面下的内容删除,否则不能进入。
threenewbee 2013-03-25
  • 打赏
  • 举报
回复
使用贝叶斯网络,大概概念可以看看一些论文 http://www.nmgkjyjj.com/Article_Show.asp?ArticleID=6077

110,533

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术 C#
社区管理员
  • C#
  • Web++
  • by_封爱
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

让您成为最强悍的C#开发者

试试用AI创作助手写篇文章吧