关于网络爬虫CRAWLER的一个小问题

ldy231 2008-04-03 04:21:10

请教下我有个网络爬虫程序.老师有个专门的要求要每秒爬的网页不超过5个,请问这个如何设置啊?无限感激...

...全文

63 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

压缩包里包含crawler4j爬虫的最新源码，和一些使用实例，完全能满足平常的使用

crawler4j-3.4,不错的网络爬虫，部署简单，具体使用见微博

网络爬虫 ( Web Crawler) 又称网络蜘蛛、网络机器人它是一种按照一定规则，自动浏览万维网的程序或脚本。通俗地讲，网络爬虫就是一个模拟真人浏览万维网行为的程序这个程序可以代替真人自动请求万维网，并接收从万维网返回的数据。与真人浏览万维网相比，网络爬虫能够浏览的信息量更大，效率也更高。其主要功能是按照一定的规则，自动地抓取互联网上的信息，并将这些信息存储在本地或者数据库中，以供后续的数据处理和分析。网络爬虫通常被用于搜索引擎、数据挖掘、信息监控等领域。

Python网络爬虫入门网络爬虫（web crawler），也叫网络蜘蛛(Web Spider)、网络机器人（Internet Bot）。简单地说，抓取万维网（World Wide Web）上所需要的数据的程序就叫网络爬虫。网络爬虫常见分类：通用网络爬虫（General Purpose Web Crawler）又称全网爬虫（Scalable Web Crawler）爬行对象从一些种子 URL 扩充到整个 Web，主要为门户站点搜索引擎和大型 Web 服务提供商采集数据。这类网络爬虫的爬行范围

爬虫分类网络爬虫按照系统结构和实现技术，大致可以分为以下几种类型：通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫。实际的网络爬虫系统通常是几种爬虫技术相结合实现的通用网络爬虫通用网络爬虫又称全网爬虫（Scalable Web Crawler），爬行对象从一些种子 URL 扩充到整个 Web，主要为门户站点搜索引擎和大型 Web 服务提供商采集数据。这类网络爬虫的爬行范围...

81,122

社区成员

341,744

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章