增量式与分布式爬虫

落雪成伊 2012-03-23 05:49:02

老师要做一个项目，需要我们根据已有的开源爬虫改进，从而实现以下功能:
1.增量式爬取
判断是否为已爬过的内容；
（把已爬过网页的网址保存成索引文件，方便下一次爬的时候进行比对。若网址及内容都相同，则不必写入磁盘；反之则爬取新的内容）

2.记录爬取网站的路径

3.反应所爬取网站的更新内容的日期

4.爬取后存储的文件名根据时间命名

5.边爬边生成html

6.能扩展实现分布式

不知道哪些开源爬虫更适合利用呢？感觉heritrix和nutch都太大了，不好改~ 不知道有没有小的好改一点的爬虫。。。
另外希望大侠们能给我一点意见，学习爬虫看哪些书或者资料比较好？感觉我还处于没入门的状态，只能慢慢自学。。

...全文

677 6 打赏收藏转发到动态举报

写回复

6 条回复

切换为时间正序

请发表友善的回复…

发表回复

蜀黍2013 2012-09-07

打赏
举报

回复

htmlunit~试试看，不错的

matraxa 2012-04-22

打赏
举报

回复

楼主你好，我最近也有这个需要，不知你有没进展，有没经验可以分享！

落雪成伊 2012-04-02

打赏
举报

回复

不知道呀，我不知道它具体属于什么的。。只知道爬虫是用java写的。。[Quote=引用 3 楼的回复:]

好吧我也理下你！！
但是我也不知道..
你是不是发错板块了！！
[/Quote]

Pomelo828 2012-03-29

打赏
举报

回复

好吧我也理下你！！
但是我也不知道..
你是不是发错板块了！！

落雪成伊 2012-03-28

打赏
举报

回复

貌似好像除你之外没人理我……[Quote=引用 1 楼的回复:]

我不太知道，帮你顶。
[/Quote]

li72li72 2012-03-23

打赏
举报

回复

我不太知道，帮你顶。

基于Hadoop的分布式并行增量爬虫技术研究

分布式爬虫技术对于正在进行爬虫的同学带来一些新的想法和实践建议

python 爬虫教程增量式爬虫的相关示例

#资源达人分享计划#

分布式网络爬虫的设计与实现应用分析文档.docx 随着互联网网络规模的爆炸性增长，相关的服务和信息量也随之快速增长，集中式网络爬虫信息采集的速度已经无法满足快速获取大量数据的需求。分布式网络爬虫由可并行获取资源的多个节点爬虫组成，它们在数据检索方面表现优秀。因此，本文将根据风险平台的需求，设计出一个高效的分布式网络爬虫。本文在对当前流行的分布式网络爬虫的相关技术进行了一定研究的基础上，分析系统设计要点，结合代码介绍系统实现细节，并通过对比实验体现本爬虫的效率，最后对全文进行总结，并提出展望。本文所研究设计的分布式网络爬虫系统，不仅提高了计算机信息采集的速度，最大限度地利用了网络带宽，而且能够适应更多类型的数据,加强了爬虫的可扩展性。关键词：分布式网络爬虫；Bloom过滤器；搜索引擎

81,122

社区成员

341,744

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章