希望各界程序员朋友一起和我讨论这个问题,谢谢

lovewangya 2009-12-15 11:04:26
最近在研究搜索引擎算法涉及到一个搜索引擎判断文章伪原创技术,我现在想不通的是搜索引擎现在已经搜索了好几百亿个网页,而且现在每天还搜索新的页面,不知道他们是如何判断新文章的伪原创的,如果是把新收录的文件和已经存在数据库当中的好几百亿文章对比判断的话([color=#FF0000]当然这里不去考虑伪原创算法效率问题),那也得好长时间啊,何况内容长度一般不会少于300个汉字吧?如果把所有收录文章的内容都生成md5去比较也得好长时间啊?如果这样的话搜索引擎根本完成不了现有的工作量,这也是我非常迷惑不解的地方,有新思路新想法或者了解这块的朋友欢迎解开我的困惑,谢谢了[/color]
...全文
60 4 打赏 收藏 转发到动态 举报
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
honglei8485 2009-12-15
  • 打赏
  • 举报
回复
顶一下,学习中,
lizhike 2009-12-15
  • 打赏
  • 举报
回复
你研究一下分词吧 那个可以搞定你想要的效果
江南昆虫 2009-12-15
  • 打赏
  • 举报
回复
中文分词和TF-IDF
http://www.williamlong.info/archives/1839.html

自己搜索“分词”吧
lovewangya 2009-12-15
  • 打赏
  • 举报
回复
[Quote=引用 1 楼 lizhike 的回复:]
你研究一下分词吧 那个可以搞定你想要的效果
[/Quote]

不懂能打个比方吗?

21,891

社区成员

发帖
与我相关
我的任务
社区描述
从PHP安装配置,PHP入门,PHP基础到PHP应用
社区管理员
  • 基础编程社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧