社区
Java
帖子详情
heritrix运行中遇到的问题
wshliyan
2008-05-07 09:33:23
将heritrix1.12.1.zip和heritrix1.12.1-src.zip解压,配置后如下
运行如下脚本
得到如下结果:
zai webui中创建job,提交,发现如下错误
而且抓取的进度总是为0;
在网上找了很久,始终没有解决问题,本人很菜,希望大家帮忙看看什么问题,先谢了~~~
...全文
63
5
打赏
收藏
heritrix运行中遇到的问题
将heritrix1.12.1.zip和heritrix1.12.1-src.zip解压,配置后如下 运行如下脚本 得到如下结果: zai webui中创建job,提交,发现如下错误 而且抓取的进度总是为0; 在网上找了很久,始终没有解决问题,本人很菜,希望大家帮忙看看什么问题,先谢了~~~
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
5 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
wshliyan
2008-05-26
打赏
举报
回复
runhua,我把分都给你啦~~~~
wshliyan
2008-05-26
打赏
举报
回复
现在已经好了,谢谢关注
runhua
2008-05-14
打赏
举报
回复
可能jdk的版本不对
wshliyan
2008-05-07
打赏
举报
回复
网上找了很多heritrix在eclipse下的配置,试了之后也总是有错误--在工程上有红色的错误符号,不知道问题处在哪,急啊~~~~哪位大虾有配置方法,希望能赐教于我,不胜感激
e-mail:csu_liyan_2004@163.com
wshliyan
2008-05-07
打赏
举报
回复
第一次发帖,不知道为什么图片没有显示出来
急啊~~~
一个简单的java爬虫产品
最近一直在研究爬虫和Lucene,虽然开始决定选用
Heritrix
来执行爬虫操作,但是后来发现用它来做还是存在一定的
问题
,比如需要程序生成相应的XML文件,对于同一个Job,怎样才能保证重复
运行
该Job时文件夹始终是同一个(
Heritrix
为Job创建文件夹的规则是“Job名称-时间戳”)等等,都是需要考虑的
问题
,最终还是将其搁浅。 后来google了一下,找到了一个简单爬虫的程序代码(http://www.blogjava.net/Jack2007/archive/2008/03/24/188138.html),随即试验了一下,发现确实能得到网页的内容,在这里还是要谢谢代码的提供者——Jack.Wang。 虽然试验成功,但是在随后的大数据量试验时,还是出现了
问题
。最初试验时,我只是让程序去抓取10个URL链接,当我将URL链接数改为100个时,
问题
出现了——URL
中
存在重复,而且非常容易的就变成死循环。举个例子来说,比如我首先爬的是A.html,在A.html
中
有两个链接:B.html,C.html,等爬完A.html以后,程序会爬B.html,这时如果B.html
中
的所有链接
中
有A.html这个页面的链接,那么程序又会去爬A.html这个页面,如此一来就形成了一个死循环,永远也不能停止。 跟踪程序发现,原来是在添加要抓取的网页的链接列表
中
,没有将已经抓取过的URL去除,所以才造成了死循环。现在虽然加上了这个判断,但是从我
运行
程序的效果来看,也不是很理想,总是感觉有些慢,800个页面要一两分钟才能爬完,这个我觉得有点说不过去。 这个产品,做到现在,我
遇到
了这么几个情况,有和大家分享的,也有向大家请教,求助的。 1.关于对应关系数据的保存方式 在创建索引的时候,需要将网页的URL和网页的内容传到相应的方法
中
,当然URL和内容是要对应的,也许是经验太少吧,我采取的是通过构建一个JavaBean的方式来传递的,不知道大家有没有更好的方法 2.关于要创建索引的内容的保存方式 最初的想法是不创建文件,直接将内容保存到变量
中
,然后创建索引,即先抓取网页的内容,然后将网页的内容和URL保存到自己构建的JavaBean对象
中
,接着将这个对象放到一个list列表
中
,等所有网页抓取完毕以后,将这个列表传到创建索引的方法
中
。这种做法看似不错,可是当URL数量很大时,会导致内存不够用,所以还是创建文件比较稳妥。 3.关于网页编码
问题
遇到
这个
问题
也是一个巧合,本来我抓取的是客户的一个网站,后来同事说如果客户看访问日志,这个月的数据会和平常的数据不一样,所以我就抓取公司的网站,结果,
问题
出现了。原先公司的网站是用GB2312编码做的页面,现在采用的是UTF-8的编码,虽然我已经判断了页面的编码,可是依然不能解决保存的文件
中
文乱码的
问题
,不知道大家有什么好办法没有。错误信息为:java.io.UnsupportedEncodingException 附件为爬虫代码 本文出自 “徘徊在c#,java,php之间” 博客,请务必保留此出处http://jerrysun.blog.51cto.com/745955/221879
Squidwarc:Squidwarc是一款高保真度,用户可编写脚本的归档爬网程序,使用带有或不带有头部的Chrome或Chromium
Squidwarc是一款高保真度,用户可编写脚本的存档爬网程序,使用带有或不带有头部的Chrome或Chromium。 Squidwarc旨在满足对类似于Herritrix的高保真爬虫的需求,同时仍然易于个人档案管理员进行设置和使用。 当广泛的档案女王爬行时, Squidwarc并未(暂时)寻求废除
Heritrix
,而是寻求解决
Heritrix
的缺点,即: 没有执行JavaScript 一切都是纯文本 需要配置才能知道如何保存网络 用户需要的设置时间和技术知识 有关此的更多信息,请参见 Squidwarc使用Node.js, 和。 如果不是通过命令行
运行
,那么Squidwarc强烈建议使用在Squidwarc的Web前端
中
使用 。 如果您无法在系统上安装Node但安装了docker,则可以使用提供的docker文件或compose文件。 如果您都没有,那么Squidwarc强烈建议您使用或 。 WARCreate首先执行此操作,如果没有,则不存在Squidwarc :two_hearts: 如果您想要录制网络, Squidwarc强烈推荐 。 开箱即用的爬网 仅页面
Heritrix
解决
中
文乱码
最近,突发奇想,想把工作
中
遇到
的
问题
和大家分享出来。自己没有牛到贡献一个开源项目,但是,有多少就贡献多少吧。 废话不多说。第一次分享的是
Heritrix
的乱码解决。 根据官方文档或者是一些blog,可以很轻松的配出一个可以
运行
的
heritrix
,基于web的管理页面也十分简单。但是
中
文乱码
问题
却很少有提及,就算提及,也是一句话,和没说一样。 目前Google、Baidu上能搜到的
【
Heritrix
01】
Heritrix
ecplise下配置安装存在的
问题
问题
: 1、端口的
问题
,在配置
中
修改端口 2、错误500的
问题
,缺少文件 3、占用
问题
,重启eclipse解决方案: 1、由于计算机上安装有各种各样的服务,会使得许多端口得到占用,而
heritrix
在默认配置下端口是8080,这就会产生端口的忙碌状态,是的
heritrix
一直处于等待状态,而无法响应; 所以在配置
heritrix
首先对端
【爬虫】
Heritrix
3.2安装和
运行
实例
Heritrix
安装 本地环境 系统:Ubuntu 16.04
Heritrix
版本:3.2.0 JDK版本:1.7(
Heritrix
3.2不支持Java8) 下载解压 下载方式如下 在CSDN上查找可以直接通过命令行使用的
Heritrix
3.2版本,然后解压到工作目录,通过执行二进制文件
运行
也可以在GitHub下载release版本,然后通过IDE直接编译
运行
如果能访...
Java
50,529
社区成员
85,608
社区内容
发帖
与我相关
我的任务
Java
Java相关技术讨论
复制链接
扫一扫
分享
社区描述
Java相关技术讨论
java
spring boot
spring cloud
技术论坛(原bbs)
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章