江湖急救！！！ Nutch 2.2.1 爬虫的问题，路过的大神们过来瞧瞧

Napoleon_Aiert 2014-07-10 04:18:13

是这样的，我配置好了Nutch，然后按照上面的指导也爬取了一些网页，OK。
问题来了：
这句话：bin/nutch crawl urls –threads n –depths n
这是用来爬取网页的，默认情况下，如果不指定爬取目录，它会自己在与 bin 目录同级的地方建立三个目录（或许更多，不了解），用来装爬取到的网页，但是我运行后，爬虫爬的好欢快，爬了一千多个网页，但是指定目录下上面文件夹都没有被创建，只是Mysql里面存储了网页的记录，但是其他的文件呢？？说好的会自动创建目录来存储爬取的数据的呢？？

PS：一个网页有很多内容，图片啊各种东东，Nutch爬虫爬的是哪些？默认情况下，又是存储在哪的呢？？

希望各位路过的大神有力出力，不吝赐教！

...全文

236 6 打赏收藏转发到动态举报

写回复

用AI写文章

6 条回复

切换为时间正序

请发表友善的回复…

发表回复

lizonghui1993 2014-09-05

打赏
举报

nutch2 的命令还是你说的这个吗。。。我用的nutch1.9就已经是这个了 bin/crawl urls crawl solr N urls 导入url那个文件夹 crawl 执行后会生成这个文件夹，里面有crawldb，linkdb，segments solr solr服务器，写这个http://localhost:8983/solr/ N 迭代次数 nutch爬的就是你过滤了你在regex-urlfilter设置过滤规则的那些url，-号就是去掉，什么gif，jpg，css那些都去掉了，+号就是你要的我最近做这个nutch也出现问题了，抓取的url不全，我抓个大网站首页，过滤规则什么网址都抓，只能抓不到100个。。。 lz，也过去一个多月了，你搞明白nutch了吧，出现过我这种问题吗。。。

Napoleon_Aiert 2014-07-24