用nutch做搜索引擎出现的错误在线等。

a380627112 2011-04-26 09:44:57

crawl started in: dir
rootUrlDir = urls
threads = 4
depth = 5
indexer=lucene
topN = 10
Injector: starting
Injector: crawlDb: dir/crawldb
Injector: urlDir: urls
Injector: Converting injected urls to crawl db entries.
错误如下————————————————————————————————————————
Exception in thread "main" java.io.IOException: Job failed!
at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252)
at org.apache.nutch.crawl.Injector.inject(Injector.java:211)
at org.apache.nutch.crawl.Crawl.main(Crawl.java:124)

网上找了原因说。我的jdk不对，需要用1.6的，可是我的确是是1.6的。求解释
这是nutch-site.xml

<property>
<name>http.agent.name</name>
<value>MySearch</value>
<description>My Search Engine</description>
</property>

<property>
<name>http.agent.description</name>
<value>MySearch</value>
<description>Further description of our bot- this text is used in
the User-Agent header. It appears in parenthesis after the agent name.
</description>
</property>

<property>
<name>http.agent.url</name>
<value>http://www.163.com</value>
<description>A URL to advertise in the User-Agent header. This will
appear in parenthesis after the agent name. Custom dictates that this
should be a URL of a page explaining the purpose and behavior of this
crawler.
</description>
</property>
这是 crawl -urlfilter.txt
# accept hosts in MY.DOMAIN.NAME

+^http://([a-z0-9]*\.)*163.*/

...全文

123 6 打赏收藏转发到动态举报

写回复

6 条回复

切换为时间正序

请发表友善的回复…

发表回复

lcl3356897 2012-02-27

打赏
举报

回复

我也求啊
介问题搞了好久了

哈哈牛人 2011-06-21

打赏
举报

回复

估计你是插件那里没有弄对。。要么一些插件JAR没有引入。。要么就是配置的那点，关于插件那里没有弄对

linmy_ 2011-05-31

打赏
举报

回复

查看一下hadoop的log，里边有错误提示。。。

boy629 2011-05-30

打赏
举报

回复

+^http://([a-z0-9]*\.)*163.*/
改成+^http://([a-z0-9]*\.)*163.com*/你试试

逍遥K杰 2011-05-19

打赏
举报

回复

lz恢复啊

逍遥K杰 2011-05-17

打赏
举报

回复

我与lz遇到了同样的问题，lz解决了吗。求解答

总之，Nutch作为一个开源的Web搜索引擎框架，以其独特的透明度、灵活性和可扩展性，成为了学术研究、商业应用以及个人数据管理等多个领域的有力工具。通过不断的技术迭代和社区贡献，Nutch正逐步成为互联网信息检索...

**Nutch搜索引擎配置详解** Nutch是一款开源的网络爬虫软件，主要用于收集、索引和搜索互联网上的数据。它在大数据领域中占有重要地位，尤其对于构建自定义搜索引擎的项目非常实用。Nutch的设计理念是模块化，允许...

实验中，主要涉及的技术包括搜索引擎基础、Nutch的使用、Lucene的布尔检索以及IKAnalyzer的集成。首先，实验环境的配置至关重要。这里选择了Ubuntu 11.10作为操作系统，搭配JDK 1.7.0_03。Nutch 0.9被用于网页抓取...

这是因为在线服务的可用性对于用户来说至关重要，而索引更新是保持搜索引擎准确性和时效性的必要步骤。传统的全量更新方式可能导致服务短暂下线，这在高流量的搜索引擎中是不可接受的。 Nutch的热替换策略通常包括...

### 利用开源工具搭建小型搜索引擎 #### 一、搜索引擎基础知识 **1.1 搜索引擎的分类** 搜索引擎根据其工作方式和数据处理的特点可以分为以下几类： - **目录索引类**: 这类搜索引擎主要依靠人工或者半自动的...

51,396

社区成员

85,836

社区内容

发帖

与我相关

我的任务

javaspring bootspring cloud 技术论坛（原bbs）

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章