请教nutch Crawl的问题

moren123 2008-12-29 11:06:10
请问一下各位,我用了NUTCH 0.8按照http://wiki.apache.org/nutch/RunNutchInEclipse中介绍的,
输入了org.apache.nutch.crawl.Crawl

*

on tab Arguments, Program Arguments

urls -dir crawl -depth 3 -topN 50

*

in VM arguments

-Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop.log
运行,
urls目录下也有好几个URL,但是爬到的结果整个crawl目录的大小才2K左右,里面的数据肯定是不完整的,请问一下有没有人知道怎么回事? 谢谢。
...全文
92 9 打赏 收藏 转发到动态 举报
写回复
用AI写文章
9 条回复
切换为时间正序
请发表友善的回复…
发表回复
h576497619m 2009-07-03
  • 打赏
  • 举报
回复
...查询无结果
samttsch 2009-06-17
  • 打赏
  • 举报
回复
你是不是 网址没有以 / 结尾??
如:
http://www.csdn.net/
另外要在 crawl-urlfilter.txt中添加
+^http://([a-z0-9]*\.)*csdn.net/
指定可以爬行 csdn.net域名下的内容
moren123 2008-12-31
  • 打赏
  • 举报
回复
呵呵,发现是一个连接都没有捉到,估计是在捉URL的时候没有放到数据库里面,有没有人遇到过这种情况的?
moren123 2008-12-29
  • 打赏
  • 举报
回复
谢谢几位,看来今晚我要回去好好调试一下。
ffumax 2008-12-29
  • 打赏
  • 举报
回复
帮顶
kokobox 2008-12-29
  • 打赏
  • 举报
回复
网上有很多爬虫工具的介绍,你可以搜一搜,这里用的人应该不多。
jinhuiyu 2008-12-29
  • 打赏
  • 举报
回复
还没有安装过NUTCH,帮你顶一下吧
moren123 2008-12-29
  • 打赏
  • 举报
回复
准确的说,这种情况是无论URLS目录下有没有数据,得到的结果都一样。
moren123 2008-12-29
  • 打赏
  • 举报
回复
晕 这么快就到底了,顶一下,难道这个论坛没有人遇到过这种情况?

81,090

社区成员

发帖
与我相关
我的任务
社区描述
Java Web 开发
社区管理员
  • Web 开发社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧