如题所示,自学nutch爬虫,根据网上的教程先后设置了java JDK,tomcat,cygwin和nutch1.2,好不容易安装成功,第一次抓取却失败了,我的java运行没有问题,因此应该不是java环境变量的设置问题。我觉得安装过程中唯一可能不同的地方,就是我的cygwin下载的时候包里面没有找到叫教程中需要打勾下载的java GCC,因此没有下载,和这个有关系吗?下面是几张截图:
这是在Cygwin上显示nutch安装成功的截图
这是我运行抓取指令的截图(事先已经修改了conf中的crawl-urlfilter.txt文件和nutch-site.xml文件)
这是显示抓取失败的截图
在网上找了一下相关解答,发现甚少,还请大神帮忙!