测试Nutch的时候,搜索结果一直为0 附log

Urack 2010-01-16 07:22:20
最近在机器上测试nutch0.9,每次搜索结果都是0 不知道是哪里变量设置错误了。
参考了书店的书还有网上的很多教程就是没法做到预期的效果。
环境
cygwin最新版(前天在线安装的)/ Tomcat 5.5 /JDK 1.6 /nutch 0.9

如爬取apache.org网站以后,索引内容应该是正确建立了。以下是抓取的状态信息,使用luke也确实看到了索引内容
但是每次使用 “bin/nutch org.apache.nutch.searcher.NutchBean apache >&search.log”来测试的时候
检测的结果都是 “Total hits: 0”

注:使用tomcat的时候也是检索不到结果
如下是机器在cygwin时候的log
=========================================================

bin/nutch readdb apache.org/crawldb -stats >&stats.log
CrawlDb statistics start: apache.org/crawldb
Statistics for CrawlDb: apache.org/crawldb
TOTAL urls: 2207
retry 0: 2207
min score: 0.0
avg score: 0.0030
max score: 1.03
status 1 (db_unfetched): 2106
status 2 (db_fetched): 94
status 3 (db_gone): 2
status 5 (db_redir_perm): 5
CrawlDb statistics: done

bin/nutch org.apache.nutch.searcher.NutchBean apache >&search.log
Total hits: 0

如下是tomcat的检索log
===============================================

2010-01-16 19:17:58,679 WARN Configuration - bad conf file: element not <property>
2010-01-16 19:17:58,689 INFO PluginRepository - Plugins: looking in: C:\Tomcat\webapps\ROOT\WEB-INF\classes\plugins
2010-01-16 19:17:58,879 INFO PluginRepository - Plugin Auto-activation mode: [true]
2010-01-16 19:17:58,879 INFO PluginRepository - Registered Plugins:
2010-01-16 19:17:58,879 INFO PluginRepository - the nutch core extension points (nutch-extensionpoints)
2010-01-16 19:17:58,879 INFO PluginRepository - Basic Query Filter (query-basic)
2010-01-16 19:17:58,879 INFO PluginRepository - Basic URL Normalizer (urlnormalizer-basic)
2010-01-16 19:17:58,879 INFO PluginRepository - Basic Indexing Filter (index-basic)
2010-01-16 19:17:58,879 INFO PluginRepository - Html Parse Plug-in (parse-html)
2010-01-16 19:17:58,879 INFO PluginRepository - Basic Summarizer Plug-in (summary-basic)
2010-01-16 19:17:58,879 INFO PluginRepository - Site Query Filter (query-site)
2010-01-16 19:17:58,879 INFO PluginRepository - HTTP Framework (lib-http)
2010-01-16 19:17:58,879 INFO PluginRepository - Text Parse Plug-in (parse-text)
2010-01-16 19:17:58,879 INFO PluginRepository - Regex URL Filter (urlfilter-regex)
2010-01-16 19:17:58,879 INFO PluginRepository - Pass-through URL Normalizer (urlnormalizer-pass)
2010-01-16 19:17:58,879 INFO PluginRepository - Http Protocol Plug-in (protocol-http)
2010-01-16 19:17:58,879 INFO PluginRepository - Regex URL Normalizer (urlnormalizer-regex)
2010-01-16 19:17:58,879 INFO PluginRepository - OPIC Scoring Plug-in (scoring-opic)
2010-01-16 19:17:58,879 INFO PluginRepository - CyberNeko HTML Parser (lib-nekohtml)
2010-01-16 19:17:58,879 INFO PluginRepository - JavaScript Parser (parse-js)
2010-01-16 19:17:58,879 INFO PluginRepository - URL Query Filter (query-url)
2010-01-16 19:17:58,879 INFO PluginRepository - Regex URL Filter Framework (lib-regex-filter)
2010-01-16 19:17:58,879 INFO PluginRepository - Registered Extension-Points:
2010-01-16 19:17:58,879 INFO PluginRepository - Nutch Summarizer (org.apache.nutch.searcher.Summarizer)
2010-01-16 19:17:58,879 INFO PluginRepository - Nutch URL Normalizer (org.apache.nutch.net.URLNormalizer)
2010-01-16 19:17:58,879 INFO PluginRepository - Nutch Protocol (org.apache.nutch.protocol.Protocol)
2010-01-16 19:17:58,879 INFO PluginRepository - Nutch Analysis (org.apache.nutch.analysis.NutchAnalyzer)
2010-01-16 19:17:58,879 INFO PluginRepository - Nutch URL Filter (org.apache.nutch.net.URLFilter)
2010-01-16 19:17:58,879 INFO PluginRepository - Nutch Indexing Filter (org.apache.nutch.indexer.IndexingFilter)
2010-01-16 19:17:58,879 INFO PluginRepository - Nutch Online Search Results Clustering Plugin (org.apache.nutch.clustering.OnlineClusterer)
2010-01-16 19:17:58,879 INFO PluginRepository - HTML Parse Filter (org.apache.nutch.parse.HtmlParseFilter)
2010-01-16 19:17:58,879 INFO PluginRepository - Nutch Content Parser (org.apache.nutch.parse.Parser)
2010-01-16 19:17:58,879 INFO PluginRepository - Nutch Scoring (org.apache.nutch.scoring.ScoringFilter)
2010-01-16 19:17:58,879 INFO PluginRepository - Nutch Query Filter (org.apache.nutch.searcher.QueryFilter)
2010-01-16 19:17:58,879 INFO PluginRepository - Ontology Model Loader (org.apache.nutch.ontology.Ontology)
2010-01-16 19:17:58,889 INFO NutchBean - creating new bean
2010-01-16 19:17:58,909 INFO NutchBean - opening indexes in crawl/indexes
2010-01-16 19:17:58,999 INFO Configuration - found resource common-terms.utf8 at file:/C:/Tomcat/webapps/ROOT/WEB-INF/classes/common-terms.utf8
2010-01-16 19:17:59,009 INFO NutchBean - opening segments in crawl/segments
2010-01-16 19:17:59,029 INFO SummarizerFactory - Using the first summarizer extension found: Basic Summarizer
2010-01-16 19:17:59,029 INFO NutchBean - opening linkdb in crawl/linkdb
2010-01-16 19:17:59,049 INFO NutchBean - query request from 127.0.0.1
2010-01-16 19:17:59,069 INFO NutchBean - query: apache
2010-01-16 19:17:59,069 INFO NutchBean - lang:
2010-01-16 19:17:59,139 INFO NutchBean - searching for 20 raw hits
2010-01-16 19:17:59,310 INFO NutchBean - total hits: 0
...全文
540 12 打赏 收藏 转发到动态 举报
写回复
用AI写文章
12 条回复
切换为时间正序
请发表友善的回复…
发表回复
telnetor 2011-01-01
  • 打赏
  • 举报
回复
2010-01-16 19:17:58,679 WARN Configuration - bad conf file: element not <property>
检查下配置文件
unimate 2010-08-17
  • 打赏
  • 举报
回复
肯定是写错配置文件了nutch-site.xml。好好检查一下
hjjdebug 2010-01-28
  • 打赏
  • 举报
回复
遇到了和你一样的问题,我解决了。
只要保证crawled 生成的目录是5个, 就可以了。
而url.txt 中写url 地址时,末尾必需加/, 否则只生成3个目录, 无index,search 结果就总是0了。
不知你的问题和我的问题是否一致。
出现问题就是看log. 一路走来,遇到了很多问题。 google 和 log, 说实话,网络上许多东西
介绍的都太简单,但还是有用。 实际碰到的问题却很复杂....
Urack 2010-01-20
  • 打赏
  • 举报
回复
opening indexes in crawl/indexes确实感觉这里不太对,因为我的文件都是放在nutch根目录下的一个叫apache.org的文件家里面的。 但是不知道为啥老是去crawl/indexes去查。
检查过第六步,http.agent.name 确实有设,但是还是有问题。

今天重新再ubuntu下测试,同样的配置完全通过了,难道RP问题、准备再重装一次cygwin看看。谢谢mawenhu) 的提醒,。
准备再测试一下看看,

另外cygwin下如何进入窗口模式,就是类似windows可以图形操作的界面
guoyunsky 2010-01-20
  • 打赏
  • 举报
回复
没玩过nutch,帮顶
小老虎Marvin 2010-01-18
  • 打赏
  • 举报
回复
http://blog.csdn.net/taige5555/archive/2008/11/13/3291829.aspx这个里面有你要的问题,看第6步!是不是少了http.agent.name 设置,我遇到的问题和你一样,就是这么解决的
小老虎Marvin 2010-01-18
  • 打赏
  • 举报
回复
问题出现在opening indexes in crawl/indexes 这一句,你可能把索引放在其他地方了,而系统没找到!
Urack 2010-01-18
  • 打赏
  • 举报
回复
有高手么 回复一下,偶实在是没辙了 谢谢啦
  • 打赏
  • 举报
回复
帮顶下
Urack 2010-01-17
  • 打赏
  • 举报
回复
果然是没人回,呼。。。重装了系统还是没解决
Java2King 2010-01-17
  • 打赏
  • 举报
回复
只用过heritrix
Urack 2010-01-17
  • 打赏
  • 举报
回复
呼 还是没人回啊 继续顶ing 又重新装了一遍还是不行,所谓的修改site.xml的方法全部修改了还是不靠谱

2,760

社区成员

发帖
与我相关
我的任务
社区描述
搜索引擎的服务器通过网络搜索软件或网络登录等方式,将Internet上大量网站的页面信息收集到本地,经过加工处理建立信息数据库和索引数据库。
社区管理员
  • 搜索引擎技术社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧