社区
Java
帖子详情
Nutch配置要爬行的URL问题
lulili5219
2010-02-02 09:45:34
Nutch配置要爬行的初始URL时,是不是只能指定http://www.baidu.com这个形式的URL,不能指定包含正则表达式的URL(例如http://www.baidu.com/echomepages/[\s\S]* )?
我想指定包含正则表达式的URL,应该如何设置?
...全文
126
3
打赏
收藏
Nutch配置要爬行的URL问题
Nutch配置要爬行的初始URL时,是不是只能指定http://www.baidu.com这个形式的URL,不能指定包含正则表达式的URL(例如http://www.baidu.com/echomepages/[\s\S]* )? 我想指定包含正则表达式的URL,应该如何设置?
复制链接
扫一扫
分享
转发到动态
举报
AI
作业
写回复
配置赞助广告
用AI写文章
3 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
重返春季
2010-02-02
打赏
举报
回复
楼主怎么解决的呀,学习一下,也帮你顶一下!
lulili5219
2010-02-02
打赏
举报
回复
我用另一种方法解决了。。。看来这分是拿不回来了
lulili5219
2010-02-02
打赏
举报
回复
只是个退而求其次的替代方法
nutch
_1.4
配置
### Apache
Nutch
1.4在Windows下的安装与
配置
详解 #### 一、Apache
Nutch
简介及重要性 Apache
Nutch
是一款用Java语言编写的开源网络爬虫项目,旨在自动化地抓取网页中的链接,检查并修复坏链接,以及创建已访问...
nutch
_1.4在windows下安装
配置
.pdf
###
Nutch
1.4 在 Windows 下的安装与
配置
知识点详解 #### 一、
Nutch
简介 - **定义**: Apache
Nutch
是一款基于 Java 的开源网页爬虫项目,能够自动抓取互联网上的网页及其内部链接,并对其进行索引处理。 - **...
nutch
网页爬取总结
1. **种子
URL
设置**:定义要开始抓取的起始
URL
集合。 2. **
URL
分析**:
Nutch
使用正则表达式过滤和重写
URL
,确保只抓取目标网站。 3. **抓取**:
Nutch
通过 HTTP 协议下载网页,并将内容保存在 Segment 中。 4...
关于
Nutch
的安装
总之,
Nutch
的安装和使用涉及多个步骤,包括环境
配置
、源代码获取、
配置
参数、执行
爬行
任务等。理解并熟练掌握这些步骤,将有助于构建自己的搜索引擎系统。在实际操作过程中,可能会遇到各种
问题
,需要根据错误提示...
nutch
的源码解读和
nutch
入门
5. **
配置
与插件机制**:
Nutch
具有丰富的
配置
选项,可以通过修改 `
nutch
-default.xml` 和 `
nutch
-site.xml` 文件进行定制。同时,
Nutch
提供了插件系统,用户可以自定义 `Fetcher`、`Parser` 和 `Indexer` 等组件,...
Java
51,396
社区成员
85,836
社区内容
发帖
与我相关
我的任务
Java
Java相关技术讨论
复制链接
扫一扫
分享
社区描述
Java相关技术讨论
java
spring boot
spring cloud
技术论坛(原bbs)
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章