请教nutch中的crawl的配置!!

leeking888 2010-10-21 03:32:16

看了很多网上的东西安装nutch后发现都不行..
首先
配置好crawl后
1.配置 crawl-urlfilter.txt 里面的网站

+^http://([a-z0-9]*\.)*163.com/ (匹配所有网页)

2.创建urls目录
urls/url.txt 内容为 http://www.163.com

就可以爬了...

但是怎么样进行多个网站的匹配呢??
我试过
urls/url.txt 内容为
http://www.163.com
http://www.baidu.com
http://www.其他...com

crawl-urlfilter.txt里面

+^http://([a-z0-9]*\.)*163.com/ (匹配所有网页)

+^http://([a-z0-9]*\.)*baidu.com/ (匹配所有网页)

+^http://([a-z0-9]*\.)*其他.com/ (匹配所有网页)

结果不行..只有163是可以的..

而且我要是想指定一个路径开始呢??也无法爬得下来..如
http://www.163.com/news/201010/所有的网页
怎么样配置呢??

...全文

67 2 打赏收藏转发到动态举报

写回复

用AI写文章

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

flg717 2011-09-01

打赏
举报

你应该在你的url.txt文件中也配置其他的网址，和crawl-urlfilter.txt里面的一直，就可以了

如果想把多次用nutch crawl获得的所有目录合并在一起。可以按以下步骤进行

nutch 爬到的CSDN数据 nutch crawlnutch 爬到的CSDN数据 nutch crawlnutch 爬到的CSDN数据 nutch crawl

nutch虽然是开源的，但初学nutch的同志门肯定对源码比较头疼，很难看懂，本资料是对crawl源码的解析，希望对大家有用。

java实现的开源搜索引擎nutch 主要类分析：一、org.apache.nutch.crawl.Injector: 1，注入url.txt 2，url标准化 3，拦截url，进行正则校验（regex-urlfilter.txt） 4，对符URL标准的url进行map对构造CrawlDatum>，在构造过程中给CrawlDatum初始化得分，分数可影响url host的搜索排序，和采集优先级！ 5，reduce只做一件事，判断url是不是在crawldb中已经存在，如果存在则直接读取原来CrawlDatum，如果是新host，则把相应状态存储到里边（STATUS_DB_UNFETCHED（状态意思为没有采集过））二、org.apache.nutch.crawl.Generator: 1，过滤不及格url （使用url过滤插件） 2，检测URL是否在有效更新时间里 3，获取URL metaData，metaData记录了url上次更新时间 4，对url进行打分 5，将url载入相应任务组（以host为分组） 6，计算url hash值 7，收集url, 直至到达 topN 指定量三、org.apache.nutch.crawl.Fetcher: 1，从segment中读取CrawlDatum>，将它放入相

nutcher 是 Apache Nutch 的中文教程，在github上托管。nutch社区目前缺少教程和文档，而且教程对应版本号较为落后。nutcher致力于为nutch提供一个较新的中文教程和文档，供开发者学习。 github地址： https://github.com/CrawlScript/nutcher 目录： Nutch教程——导入Nutch工程，执行完整爬取 Nutch流程控制源码详解（bin/crawl中文注释版） Nutch教程——URLNormalizer源码详解 Nutch参数配置——http.content.limit 文档截图：

Java EE

67,515

社区成员

225,878

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章