社区
Java SE
帖子详情
Heritrix配置后,不能抓取,请求帮助
liujun3512159
2010-03-26 05:26:09
我点“start”按钮,好像没反应,不能抓图,请求帮助
...全文
98
1
打赏
收藏
Heritrix配置后,不能抓取,请求帮助
我点“start”按钮,好像没反应,不能抓图,请求帮助
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
1 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
liujun3512159
2010-03-26
打赏
举报
回复
从这个图上,能看出,我估计在什么地方有错误码?
heritrix
配置
篇
本文介绍
Heritrix
爬虫软件的安装
配置
流程,包括环境变量设定、管理账户
配置
、运行命令及基本
抓取
任务设置。适用于初次接触
Heritrix
的用户。
基于
Heritrix
的增量
抓取
探讨了增量
抓取
在搜索引擎中的重要性及其实施难点,包括如何快速定位变化内容及判断网页实质变化,介绍了
Heritrix
实现这一功能的具体方法。
Heritrix
提高
抓取
效率的若干尝试
本文介绍了提高
Heritrix
抓取
效率的三种方法。一是利用ELFHash策略多线程
抓取
网页,通过修改代码使
Heritrix
开多个线程同时
抓取
,速度大幅提升;二是只
抓取
HTML对象,依据官方文档设置规则;三是取消Robots.txt的限制,修改相关函数以避免判断文件是否存在耗时。
Heritrix
抓取
高级篇
本文介绍如何使用
Heritrix
进行高效网页
抓取
,包括定制
抓取
规则、解决单线程问题、调整内存限制、忽略robots.txt限制及
配置
选项等。
heritrix
下载、安装、
配置
、以及简单开发
本文详细介绍
Heritrix
的下载、
配置
步骤,并演示如何通过
Heritrix
进行网页
抓取
任务的设置与执行。
Java SE
62,622
社区成员
307,257
社区内容
发帖
与我相关
我的任务
Java SE
Java 2 Standard Edition
复制链接
扫一扫
分享
社区描述
Java 2 Standard Edition
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章