增量式与分布式爬虫

落雪成伊 2012-03-23 05:49:02
老师要做一个项目,需要我们根据已有的开源爬虫改进,从而实现以下功能:
1.增量式爬取
判断是否为已爬过的内容;
(把已爬过网页的网址保存成索引文件,方便下一次爬的时候进行比对。若网址及内容都相同,则不必写入磁盘;反之则爬取新的内容)

2.记录爬取网站的路径

3.反应所爬取网站的更新内容的日期

4.爬取后存储的文件名根据时间命名

5.边爬边生成html

6.能扩展实现分布式

不知道哪些开源爬虫更适合利用呢?感觉heritrix和nutch都太大了,不好改~ 不知道有没有小的好改一点的爬虫。。。
另外希望大侠们能给我一点意见,学习爬虫看哪些书或者资料比较好?感觉我还处于没入门的状态,只能慢慢自学。。
...全文
677 6 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
6 条回复
切换为时间正序
请发表友善的回复…
发表回复
蜀黍2013 2012-09-07
  • 打赏
  • 举报
回复
htmlunit~试试看,不错的
matraxa 2012-04-22
  • 打赏
  • 举报
回复
楼主你好,我最近也有这个需要,不知你有没进展,有没经验可以分享!
落雪成伊 2012-04-02
  • 打赏
  • 举报
回复
不知道呀,我不知道它具体属于什么的。。只知道爬虫是用java写的。。[Quote=引用 3 楼 的回复:]

好吧 我也理下你!!
但是我也不知道..
你是不是发错板块了!!
[/Quote]
Pomelo828 2012-03-29
  • 打赏
  • 举报
回复
好吧 我也理下你!!
但是我也不知道..
你是不是发错板块了!!
落雪成伊 2012-03-28
  • 打赏
  • 举报
回复
貌似好像除你之外没人理我……[Quote=引用 1 楼 的回复:]

我不太知道,帮你顶。
[/Quote]
li72li72 2012-03-23
  • 打赏
  • 举报
回复
我不太知道,帮你顶。

81,122

社区成员

发帖
与我相关
我的任务
社区描述
Java Web 开发
社区管理员
  • Web 开发社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧