heritrix运行中遇到的问题

wshliyan 2008-05-07 09:33:23

将heritrix1.12.1.zip和heritrix1.12.1-src.zip解压，配置后如下

运行如下脚本

得到如下结果：

zai webui中创建job，提交，发现如下错误

而且抓取的进度总是为0；
在网上找了很久，始终没有解决问题，本人很菜，希望大家帮忙看看什么问题，先谢了~~~

...全文

63 5 打赏收藏转发到动态举报

写回复

用AI写文章

5 条回复

切换为时间正序

请发表友善的回复…

发表回复

wshliyan 2008-05-26

打赏
举报

runhua，我把分都给你啦~~~~

wshliyan 2008-05-26

打赏
举报

现在已经好了，谢谢关注

runhua 2008-05-14

打赏
举报

可能jdk的版本不对

wshliyan 2008-05-07

打赏
举报

网上找了很多heritrix在eclipse下的配置，试了之后也总是有错误--在工程上有红色的错误符号，不知道问题处在哪，急啊~~~~哪位大虾有配置方法，希望能赐教于我，不胜感激
e-mail：csu_liyan_2004@163.com

wshliyan 2008-05-07

打赏
举报

第一次发帖，不知道为什么图片没有显示出来
急啊~~~

最近一直在研究爬虫和Lucene，虽然开始决定选用Heritrix来执行爬虫操作，但是后来发现用它来做还是存在一定的问题，比如需要程序生成相应的XML文件，对于同一个Job，怎样才能保证重复运行该Job时文件夹始终是同一个（Heritrix为Job创建文件夹的规则是“Job名称-时间戳”）等等，都是需要考虑的问题，最终还是将其搁浅。　　后来google了一下，找到了一个简单爬虫的程序代码（http://www.blogjava.net/Jack2007/archive/2008/03/24/188138.html），随即试验了一下，发现确实能得到网页的内容，在这里还是要谢谢代码的提供者——Jack.Wang。　　虽然试验成功，但是在随后的大数据量试验时，还是出现了问题。最初试验时，我只是让程序去抓取10个URL链接，当我将URL链接数改为100个时，问题出现了——URL中存在重复，而且非常容易的就变成死循环。举个例子来说，比如我首先爬的是A.html，在A.html中有两个链接：B.html，C.html，等爬完A.html以后，程序会爬B.html，这时如果B.html中的所有链接中有A.html这个页面的链接，那么程序又会去爬A.html这个页面，如此一来就形成了一个死循环，永远也不能停止。　　跟踪程序发现，原来是在添加要抓取的网页的链接列表中，没有将已经抓取过的URL去除，所以才造成了死循环。现在虽然加上了这个判断，但是从我运行程序的效果来看，也不是很理想，总是感觉有些慢，800个页面要一两分钟才能爬完，这个我觉得有点说不过去。　　这个产品，做到现在，我遇到了这么几个情况，有和大家分享的，也有向大家请教，求助的。　　 1.关于对应关系数据的保存方式　　在创建索引的时候，需要将网页的URL和网页的内容传到相应的方法中，当然URL和内容是要对应的，也许是经验太少吧，我采取的是通过构建一个JavaBean的方式来传递的，不知道大家有没有更好的方法　　　　 2.关于要创建索引的内容的保存方式　　最初的想法是不创建文件，直接将内容保存到变量中，然后创建索引，即先抓取网页的内容，然后将网页的内容和URL保存到自己构建的JavaBean对象中，接着将这个对象放到一个list列表中，等所有网页抓取完毕以后，将这个列表传到创建索引的方法中。这种做法看似不错，可是当URL数量很大时，会导致内存不够用，所以还是创建文件比较稳妥。　　 3.关于网页编码问题　　遇到这个问题也是一个巧合，本来我抓取的是客户的一个网站，后来同事说如果客户看访问日志，这个月的数据会和平常的数据不一样，所以我就抓取公司的网站，结果，问题出现了。原先公司的网站是用GB2312编码做的页面，现在采用的是UTF-8的编码，虽然我已经判断了页面的编码，可是依然不能解决保存的文件中文乱码的问题，不知道大家有什么好办法没有。错误信息为：java.io.UnsupportedEncodingException 　　附件为爬虫代码本文出自 “徘徊在c＃，java，php之间” 博客，请务必保留此出处http://jerrysun.blog.51cto.com/745955/221879

Squidwarc是一款高保真度，用户可编写脚本的存档爬网程序，使用带有或不带有头部的Chrome或Chromium。 Squidwarc旨在满足对类似于Herritrix的高保真爬虫的需求，同时仍然易于个人档案管理员进行设置和使用。当广泛的档案女王爬行时， Squidwarc并未（暂时）寻求废除Heritrix，而是寻求解决Heritrix的缺点，即：没有执行JavaScript 一切都是纯文本需要配置才能知道如何保存网络用户需要的设置时间和技术知识有关此的更多信息，请参见 Squidwarc使用Node.js，和。如果不是通过命令行运行，那么Squidwarc强烈建议使用在Squidwarc的Web前端中使用。如果您无法在系统上安装Node但安装了docker，则可以使用提供的docker文件或compose文件。如果您都没有，那么Squidwarc强烈建议您使用或。 WARCreate首先执行此操作，如果没有，则不存在Squidwarc :two_hearts: 如果您想要录制网络， Squidwarc强烈推荐。开箱即用的爬网仅页面

最近，突发奇想，想把工作中遇到的问题和大家分享出来。自己没有牛到贡献一个开源项目，但是，有多少就贡献多少吧。废话不多说。第一次分享的是Heritrix的乱码解决。根据官方文档或者是一些blog，可以很轻松的配出一个可以运行的heritrix，基于web的管理页面也十分简单。但是中文乱码问题却很少有提及，就算提及，也是一句话，和没说一样。目前Google、Baidu上能搜到的

问题： 1、端口的问题，在配置中修改端口 2、错误500的问题，缺少文件 3、占用问题，重启eclipse解决方案： 1、由于计算机上安装有各种各样的服务，会使得许多端口得到占用，而heritrix在默认配置下端口是8080，这就会产生端口的忙碌状态，是的heritrix一直处于等待状态，而无法响应；所以在配置heritrix首先对端

Heritrix安装本地环境系统：Ubuntu 16.04 Heritrix版本：3.2.0 JDK版本：1.7（Heritrix 3.2不支持Java8）下载解压下载方式如下在CSDN上查找可以直接通过命令行使用的Heritrix 3.2版本，然后解压到工作目录，通过执行二进制文件运行也可以在GitHub下载release版本，然后通过IDE直接编译运行如果能访...

Java

50,529

社区成员

85,608

社区内容

发帖

与我相关

我的任务

javaspring bootspring cloud 技术论坛（原bbs）

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章