社区
Java
帖子详情
Nutch配置要爬行的URL问题
lulili5219
2010-02-02 09:45:34
Nutch配置要爬行的初始URL时,是不是只能指定http://www.baidu.com这个形式的URL,不能指定包含正则表达式的URL(例如http://www.baidu.com/echomepages/[\s\S]* )?
我想指定包含正则表达式的URL,应该如何设置?
...全文
112
3
打赏
收藏
Nutch配置要爬行的URL问题
Nutch配置要爬行的初始URL时,是不是只能指定http://www.baidu.com这个形式的URL,不能指定包含正则表达式的URL(例如http://www.baidu.com/echomepages/[\s\S]* )? 我想指定包含正则表达式的URL,应该如何设置?
复制链接
扫一扫
分享
举报
写回复
配置赞助广告
3 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
重返春季
2010-02-02
打赏
举报
回复
楼主怎么解决的呀,学习一下,也帮你顶一下!
lulili5219
2010-02-02
打赏
举报
回复
我用另一种方法解决了。。。看来这分是拿不回来了
lulili5219
2010-02-02
打赏
举报
回复
只是个退而求其次的替代方法
相关推荐
nutch
分布式爬虫单击爬取教程完整版
nutch
分布式爬虫单击爬取教程完整版 目录 一、环境 二、安装目录 三、爬取网站 四、爬取步骤 1. 创建新的虚拟机 2.
配置
Nutch
(1)安装JDK 2 (2)安装Ant (3)构建
nutch
编译环境 (4)验证
Nutch
安装 3 . 分步爬取 (bin/
nutch
) (1)
配置
爬取属性 (2)
配置
URL
种子列表 7 (3)分步爬取:准备 8 (4)分步爬取:三次抓取 9 (5)分步爬取:消除重复
URL
15 (6)分步爬取:反转链接 16 (7)分步爬取:为Apache Solr建立索引 16
nutch
的基本工作流程理解
(一):
Nutch
的工作流程: Crawdb、linkdb 是web link目录,存放
url
及
url
的互联关系,作为
爬行
与重新
爬行
的依据。 segments 是主目录,存放抓回来的网页。页面内容有bytes[]的raw content 和 parsed text的形式。
nutch
以广度优先的原则来
爬行
,因此每爬完一轮会生成一个segment目录。 index 是lucen...
发帖
Java
Java
Java相关技术讨论
复制链接
扫一扫
4.9w+
社区成员
8.5w+
社区内容
Java相关技术讨论
java
spring boot
spring cloud
技术论坛(原bbs)
社区管理员
加入社区
获取链接或二维码
帖子事件
创建了帖子
2010-02-02 09:45
社区公告
暂无公告