江湖急救!!! Nutch 2.2.1 爬虫的问题,路过的大神们过来瞧瞧

Napoleon_Aiert 2014-07-10 04:18:13
是这样的,我配置好了Nutch,然后按照上面的指导也爬取了一些网页,OK。
问题来了:
这句话:bin/nutch crawl urls –threads n –depths n
这是用来爬取网页的,默认情况下,如果不指定爬取目录,它会自己在与 bin 目录同级的地方建立三个目录(或许更多,不了解),用来装爬取到的网页,但是我运行后,爬虫爬的好欢快,爬了一千多个网页,但是指定目录下上面文件夹都没有被创建,只是Mysql里面存储了网页的记录,但是其他的文件呢??说好的会自动创建目录来存储爬取的数据的呢??

PS:一个网页有很多内容,图片啊各种东东,Nutch爬虫爬的是哪些?默认情况下,又是存储在哪的呢??

希望各位路过的大神有力出力,不吝赐教!
...全文
236 6 打赏 收藏 转发到动态 举报
写回复
用AI写文章
6 条回复
切换为时间正序
请发表友善的回复…
发表回复
lizonghui1993 2014-09-05
  • 打赏
  • 举报
回复
nutch2 的命令还是你说的这个吗。。。 我用的nutch1.9就已经是这个了 bin/crawl urls crawl solr N urls 导入url那个文件夹 crawl 执行后会生成这个文件夹,里面有crawldb,linkdb,segments solr solr服务器 ,写这个http://localhost:8983/solr/ N 迭代次数 nutch爬的就是你过滤了你在regex-urlfilter设置过滤规则的那些url,-号就是去掉,什么gif,jpg,css那些都去掉了,+号就是你要的 我最近做这个nutch也出现问题了,抓取的url不全,我抓个大网站首页,过滤规则什么网址都抓,只能抓不到100个。。。 lz,也过去一个多月了,你搞明白nutch了吧,出现过我这种问题吗。。。
Napoleon_Aiert 2014-07-24
  • 打赏
  • 举报
回复
引用 2 楼 u012087785 的回复:
我是来学习的。
既然没有人回答,我俩就是难兄难弟了 。。。。
Napoleon_Aiert 2014-07-12
  • 打赏
  • 举报
回复
看来没有人知道了。。。
Napoleon_Aiert 2014-07-10
  • 打赏
  • 举报
回复
引用 2 楼 u012087785 的回复:
我是来学习的。
握爪握爪!
_devin 2014-07-10
  • 打赏
  • 举报
回复
我是来学习的。
Napoleon_Aiert 2014-07-10
  • 打赏
  • 举报
回复
各位大神,江湖救急呀,冰天雪地赤身裸体360跪求大神到来

50,527

社区成员

发帖
与我相关
我的任务
社区描述
Java相关技术讨论
javaspring bootspring cloud 技术论坛(原bbs)
社区管理员
  • Java相关社区
  • 小虚竹
  • 谙忆
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧