请教nutch中的crawl的配置!!

leeking888 2010-10-21 03:32:16
看了很多网上的东西 安装nutch后发现都不行..
首先
配置好crawl后
1.配置 crawl-urlfilter.txt 里面的网站
+^http://([a-z0-9]*\.)*163.com/ (匹配所有网页)

2.创建urls目录
urls/url.txt 内容为 http://www.163.com

就可以爬了...

但是怎么样进行多个网站的匹配呢??
我试过
urls/url.txt 内容为
http://www.163.com
http://www.baidu.com
http://www.其他...com

crawl-urlfilter.txt里面
+^http://([a-z0-9]*\.)*163.com/ (匹配所有网页)

+^http://([a-z0-9]*\.)*baidu.com/ (匹配所有网页)

+^http://([a-z0-9]*\.)*其他.com/ (匹配所有网页)



结果不行..只有163是可以的..

而且我要是想指定一个路径开始呢??也无法爬得下来..如
http://www.163.com/news/201010/所有的网页
怎么样配置呢??
...全文
67 2 打赏 收藏 转发到动态 举报
写回复
用AI写文章
2 条回复
切换为时间正序
请发表友善的回复…
发表回复
flg717 2011-09-01
  • 打赏
  • 举报
回复
你应该在你的url.txt文件中也配置其他的网址,和crawl-urlfilter.txt里面的一直,就可以了

67,515

社区成员

发帖
与我相关
我的任务
社区描述
J2EE只是Java企业应用。我们需要一个跨J2SE/WEB/EJB的微容器,保护我们的业务核心组件(中间件),以延续它的生命力,而不是依赖J2SE/J2EE版本。
社区管理员
  • Java EE
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧