社区
Java
帖子详情
Nutch配置要爬行的URL问题
lulili5219
2010-02-02 09:45:34
Nutch配置要爬行的初始URL时,是不是只能指定http://www.baidu.com这个形式的URL,不能指定包含正则表达式的URL(例如http://www.baidu.com/echomepages/[\s\S]* )?
我想指定包含正则表达式的URL,应该如何设置?
...全文
121
3
打赏
收藏
Nutch配置要爬行的URL问题
Nutch配置要爬行的初始URL时,是不是只能指定http://www.baidu.com这个形式的URL,不能指定包含正则表达式的URL(例如http://www.baidu.com/echomepages/[\s\S]* )? 我想指定包含正则表达式的URL,应该如何设置?
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
3 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
重返春季
2010-02-02
打赏
举报
回复
楼主怎么解决的呀,学习一下,也帮你顶一下!
lulili5219
2010-02-02
打赏
举报
回复
我用另一种方法解决了。。。看来这分是拿不回来了
lulili5219
2010-02-02
打赏
举报
回复
只是个退而求其次的替代方法
Crawling-and-Deduplication-of-Polar-Datasets-Using-
Nutch
-and-Tika:使用
Nutch
和Tika对Polar数据集进行爬网和重复数据删除
使用
Nutch
和Tika
爬行
和重复数据删除重复数据集 #Politeness
配置
:为了处理礼貌,已将属性添加到文件
nutch
-site.xml中。 我们将坚果机器人(http.agent.name)标记为CS572 RASNA,代理说明(http.agent.description)...
网络爬虫调研报告.doc
(2)处理队列 :要被处理的
URL
被传送到这个队列。为了避免同一个
URL
被多次处理 ,当一个
URL
被处理过后 ,它将被转移到完成队列或者错误队列 (如果发生错误 )。 (3)错误队列 :如果在下载网页是发生错误 ,该
URL
将...
网络爬虫调研报告(1).doc
(2)处理队列 :要被处理的
URL
被传送到这个队列。为了避免同一个
URL
被多次处理 ,当一个
URL
被处理过后 ,它将被转移到完成队列或者错误队列 (如果发生错误 )。 (3)错误队列 :如果在下载网页是发生错误 ,该
URL
将...
网络爬虫调研报告(2).doc
(2)处理队列 :要被处理的
URL
被传送到这个队列。为了避免同一个
URL
被多次处理 ,当一个
URL
被处理过后 ,它将被转移到完成队列或者错误队列 (如果发生错误 )。 (3)错误队列 :如果在下载网页是发生错误 ,该
URL
...
Nutch
在Ubuntu上的简单
配置
与服务器
本文将详细介绍如何在Ubuntu服务器上进行简单的
Nutch
配置
。您可以根据自己的需求进一步调整和优化
Nutch
的
配置
,以适应特定的
爬行
任务。在
Nutch
的
配置
目录中创建一个名为
url
s的文件,用于指定要
爬行
的
URL
列表。其中,...
Java
50,526
社区成员
85,605
社区内容
发帖
与我相关
我的任务
Java
Java相关技术讨论
复制链接
扫一扫
分享
社区描述
Java相关技术讨论
java
spring boot
spring cloud
技术论坛(原bbs)
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章