求教,如何获取过滤需要的信息,并且如何排除重复信息

lukylfm 2011-11-04 03:26:10
做过一段时间数据搜索,近期面试,面试官问我做的爬取数据的深度最多有多少,我的理解就是对当前页面的链接往下深入,好像不是他问的答案

还问我怎么排重的,就是说重覆的内容不要,我一般都进页面找规律,用正则匹配,没弄过排重,说对内容进行比较,问我怎么比较,我就说做个循环,对取到的内容进行比较,也答的不对

还有我一般用什么获取过滤需要的信息,我就是用的正则啊

还有遍历文件夹,文件夹里面还有文件夹如何遍历

如何提高获取需要信息的效率没答上来

还问我每天获取的信息量是多少,这东西能定么,当初做的时候是按公司要求的,没定量

还问数据量大如何解决


请教高手,我答的是不是过于浅了,应该怎么弄,这些我做的不是很多,问的我都不好意思了
...全文
117 3 打赏 收藏 转发到动态 举报
写回复
用AI写文章
3 条回复
切换为时间正序
请发表友善的回复…
发表回复
千与 2012-08-19
  • 打赏
  • 举报
回复
你说的深度的理解是没有问题的。
至于排重,最简单的方法就是基于VSM模型,即比较任意两个文档的相似度,思路:
1、对两篇文档分词,分别得到Term向量{tc1, tc2, ..., tck, ..., tm}和{tc1, tc2, ..., tci, ..., tcn}
2、比较上面两个向量中相同Term的数量,如果超过你所设置的一个百分比,就认为它们是非常相似的
一般,采用这样一种策略:取出词频高的相同的Term,得到集合T1,再取出词频很低的Term,得到集合T2,如果对于两篇文档,T1和T2都非常相似(设置指定的阈值),那就认为两篇文档是相似的。

比较复杂一些的可以使用一些著名的排重算法,如google的simhash算法,等等
helei123a 2012-03-31
  • 打赏
  • 举报
回复
排重:获取特征,比如关键词,分类,网站来源等,根据simhash或者md5实现排重
lukylfm 2011-11-08
  • 打赏
  • 举报
回复
怎么没人回答呵

2,760

社区成员

发帖
与我相关
我的任务
社区描述
搜索引擎的服务器通过网络搜索软件或网络登录等方式,将Internet上大量网站的页面信息收集到本地,经过加工处理建立信息数据库和索引数据库。
社区管理员
  • 搜索引擎技术社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧