Nutch配置要爬行的URL问题

lulili5219 2010-02-02 09:45:34

Nutch配置要爬行的初始URL时，是不是只能指定http://www.baidu.com这个形式的URL，不能指定包含正则表达式的URL（例如http://www.baidu.com/echomepages/[\s\S]* ）？
我想指定包含正则表达式的URL，应该如何设置？

...全文

144 3 打赏收藏转发到动态举报

写回复

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

重返春季 2010-02-02

打赏
举报

回复

楼主怎么解决的呀，学习一下，也帮你顶一下！

lulili5219 2010-02-02

打赏
举报

回复

我用另一种方法解决了。。。看来这分是拿不回来了

lulili5219 2010-02-02

打赏
举报

回复

只是个退而求其次的替代方法

### Apache Nutch 1.4在Windows下的安装与配置详解 #### 一、Apache Nutch简介及重要性 Apache Nutch是一款用Java语言编写的开源网络爬虫项目，旨在自动化地抓取网页中的链接，检查并修复坏链接，以及创建已访问...

### Nutch 1.4 在 Windows 下的安装与配置知识点详解 #### 一、Nutch 简介 - **定义**: Apache Nutch 是一款基于 Java 的开源网页爬虫项目，能够自动抓取互联网上的网页及其内部链接，并对其进行索引处理。 - **...

1. **种子 URL 设置**：定义要开始抓取的起始 URL 集合。 2. **URL 分析**：Nutch 使用正则表达式过滤和重写 URL，确保只抓取目标网站。 3. **抓取**：Nutch 通过 HTTP 协议下载网页，并将内容保存在 Segment 中。 4...

总之，Nutch的安装和使用涉及多个步骤，包括环境配置、源代码获取、配置参数、执行爬行任务等。理解并熟练掌握这些步骤，将有助于构建自己的搜索引擎系统。在实际操作过程中，可能会遇到各种问题，需要根据错误提示...

5. **配置与插件机制**：Nutch 具有丰富的配置选项，可以通过修改 `nutch-default.xml` 和 `nutch-site.xml` 文件进行定制。同时，Nutch 提供了插件系统，用户可以自定义 `Fetcher`、`Parser` 和 `Indexer` 等组件，...

51,410

社区成员

86,069

社区内容

发帖

与我相关

我的任务

javaspring bootspring cloud 技术论坛（原bbs）

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章