Eclipse中加载Nutch 求助(lucene + Nutch 搜索引擎)

冰峰雪岭 2009-08-16 10:35:56
lucene + Nutch 搜索引擎一书 83页:
1. eclipse中创建java project from existing ant buildfile,导入build.xml。

2.然后让完成必要的配置工作,包括把从conf目录添加到build->classpath;把src/test添加到源代码目录(source folders);添加所有的lib下面的jars和plugin lib中的所有文件到工程中


小弟第一次接触eclipse,现在基本不懂什么,上面第二条说的有些太概括了,几乎每个过程都不明白,哪位大牛帮详细解释下,感激不尽~~
...全文
610 11 打赏 收藏 转发到动态 举报
写回复
用AI写文章
11 条回复
切换为时间正序
请发表友善的回复…
发表回复
flytobest 2011-01-22
  • 打赏
  • 举报
回复
呵呵,几天以后重试,成功了!
  • 打赏
  • 举报
回复
自己建个标签库
flytobest 2011-01-18
  • 打赏
  • 举报
回复
我的照做了,还是有问题
y505461691 2010-04-18
  • 打赏
  • 举报
回复
用ant生成war包时老出现错误:
BUILD FAILED
F:\workspace\Nutch\build.xml:62: F:\workspace\Nutch\${conf.dir} not found
这个问题怎么处理,对ant不熟悉。是不是和eclipse的版本有关呢。高人指点一下,谢谢
chenyi4211 2010-04-15
  • 打赏
  • 举报
回复
楼主,问题解决了没有啊?小弟也遇到了一模一样的问题,不知道怎么办啊?
a157320825 2010-03-23
  • 打赏
  • 举报
回复
不知道你们用的是那个版本的eclipse??
我也在搞这个设计,可是怎么都不行啊!
new_sky_hony 2010-01-27
  • 打赏
  • 举报
回复
[Quote=引用 4 楼 lin405634383 的回复:]
第一步:添加conf目录到buid->Classpath.我是这样做的:
              选中所建的Nutch工程,依次点击Project(任务栏上)->Properties->Java Build Path
      ->Libraries(右上第三个选项)->Add Class Folder... (右边第五个)
              ->Create New Folder...(弹出框下面) ->Advanced》
      ->勾上Link to folder in the file system ->Browse... ->选择你的conf目录路径:
            (e.g.with mine D:\nutch-1.0\conf)->确定并OK,这样你的工程Nutch下就应该
            有conf文件夹了。
第二步:添加"src/test"到源代码目录(Source folders):
      选中所建的Nutch工程,依次点击Project(任务栏上)->Properties->Java Build Path
      ->Source(右上) ->Link Source... ->Browse... ->选择你的test目录路径:(以我的为
              例:D:\nutch-1.0\src\test ->Finish并OK。
第三步:添加所有的lib下面的jars和plugin lib中的所有文件到工程中。
              选中所建的Nutch工程,依次点击Project(任务栏上)->Properties->Java Build Path
      ->Libraries(右上第三个选项)->Add External JARs... (右边第二个)->找到你的nutch1.0
      中的lib文件夹(以我的为例:D:\nutch-1.0\lib),将其中所有的.jar文件选中 ->单击打开按
              钮,同样找到nutch1.0中的plugins文件夹中所有以lib-开关的文件夹,把里面的.jar文件选中
              加入Libraries中。(似乎Libraries中已经有了,不过最好这样操作一次)。完成后按下OK
我的Nutch工程顺利编译通过。不敢保证你们也一样!
[/Quote]
恩,同意!我就是这么干滴。
lin405634383 2009-12-11
  • 打赏
  • 举报
回复
第一步:添加conf目录到buid->Classpath.我是这样做的:
选中所建的Nutch工程,依次点击Project(任务栏上)->Properties->Java Build Path
->Libraries(右上第三个选项)->Add Class Folder... (右边第五个)
->Create New Folder...(弹出框下面) ->Advanced》
->勾上Link to folder in the file system ->Browse... ->选择你的conf目录路径:
(e.g.with mine D:\nutch-1.0\conf)->确定并OK,这样你的工程Nutch下就应该
有conf文件夹了。
第二步:添加"src/test"到源代码目录(Source folders):
选中所建的Nutch工程,依次点击Project(任务栏上)->Properties->Java Build Path
->Source(右上) ->Link Source... ->Browse... ->选择你的test目录路径:(以我的为
例:D:\nutch-1.0\src\test ->Finish并OK。
第三步:添加所有的lib下面的jars和plugin lib中的所有文件到工程中。
选中所建的Nutch工程,依次点击Project(任务栏上)->Properties->Java Build Path
->Libraries(右上第三个选项)->Add External JARs... (右边第二个)->找到你的nutch1.0
中的lib文件夹(以我的为例:D:\nutch-1.0\lib),将其中所有的.jar文件选中 ->单击打开按
钮,同样找到nutch1.0中的plugins文件夹中所有以lib-开关的文件夹,把里面的.jar文件选中
加入Libraries中。(似乎Libraries中已经有了,不过最好这样操作一次)。完成后按下OK
我的Nutch工程顺利编译通过。不敢保证你们也一样!
lin405634383 2009-12-11
  • 打赏
  • 举报
回复
我和你一样的情况,正在寻找解决的办法!
kezhon 2009-11-30
  • 打赏
  • 举报
回复
天哪,你帮我发了帖子了,我们遇到了完全同样的问题。
你20分的点数太少了。
还有,我按照那本书的方法导入build.xml后,显示的项目列表跟书上的不一样,我的不是一些文件夹,而是一大堆jar.
冰峰雪岭 2009-10-28
  • 打赏
  • 举报
回复
哎~~
网络爬虫调研报告 基本原理 Spider概述 Spider即网络爬虫 ,其定义有广义和狭义之分。狭义上指遵循标准的 http协议利用超链接和 Web文档检索的方法遍历万维网信息空间的软件程序 ;而广义的定义则是所有能遵循 http协议检索 Web文档的软件都称之为网络爬虫。 Spider是一个功能很强的自动提取网页的程序 ,它为搜索引擎从万维网上下载网页 ,是搜索引擎的重要组成 .它通过请求站点上的 HTML文档访问某一站点。它遍历 Web空间 ,不断从一个站点移动到另一个站点 ,自动建立索引 ,并加入到网页数据库。网络爬虫进入某个超级文本时 ,它利用 HTML语言的标记结构来搜索信息及获取指向其他超级文本的 URL地址 ,可以完全不依赖用户干预实现网络上的自动爬行和搜索。 Spider的队列 (1)等待队列 :新发现的 URL被加入到这个队列 ,等待被 Spider程序处理 ; (2)处理队列 :要被处理的 URL被传送到这个队列。为了避免同一个 URL被多次处理 ,当一个 URL被处理过后 ,它将被转移到完成队列或者错误队列 (如果发生错误 )。 (3)错误队列 :如果在下载网页是发生错误 ,该 URL将被加入 到错误队列。 (4)完成队列 :如果在处理网页没有发生错误 ,该 URL将被加入到完成队列。 网络爬虫搜索策略 在抓取网页的时候 ,目前网络爬虫一般有两种策略 :无主题搜索与基于某特定主体的专业智能搜索。其前者主要包括 :广度优先和深度优先。广度优先是指网络爬虫会先抓取起始网页链接的所有网页 ,然后再选择其的一个链接网页 ,继续抓取在此网页链接的所有网页。这是最常用的方式,因为这个方法可以让网络爬 虫并行处理 ,提高其抓取速度。深度优先是指网络爬虫会从起始页开始 ,一个链接一个链接跟踪下去 ,处理完这条线路之后再转入下一个起始页 ,继续跟踪链接。这个方法有个优点是网络爬虫在设计的时候比较容易。大多数网页爬行 器采用宽度优先搜索策略或者是对这种策略的某些改进。 在专业搜索引擎 ,网络爬虫的任务是获取 Web页面和决定链接的访问顺序 ,它通常从一个 "种子集 "(如用户查询、种子链接或种子页面 )发,以迭代的方式访问页面和提取链接。搜索过程 ,未访问的链接被暂存在一个称为 "搜索前沿 "(Spider Frontier)的队列 ,网络爬虫根据搜索前沿链接的 "重要程度 "决定下一个要访问的链接。如何评价和预测链接的 "重要程度 "(或称价值 )是决定网络爬虫搜索策略的关键。 众多的网络爬虫设计各不相同 ,但归根结底是采用不同的链接价值评价标准。 常用开源网络爬虫介绍及其比较 Nutch 开发语言:Java 简介: Apache的子项目之一,属于Lucene项目下的子项目。 Nutch是一个基于Lucene,类似Google的完整网络搜索引擎解决方案,基于Hadoop的 分布式处理模型保证了系统的性能,类似Eclipse的插件机制保证了系统的可客户化,而 且很容易集成到自己的应用之。 Larbin 开发语言:C++ 简介   larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人 Sébastien Ailleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎 提供广泛的数据来源。   Larbin只是一个爬虫,也就是说larbin只抓取网页,至于如何parse的事情则由 用户自己完成。另外,如何存储到数据库以及建立索引的事情 larbin也不提供。   latbin最初的设计也是依据设计简单但是高度可配置性的原则,因此我们可以看 到,一个简单的larbin的爬虫可以每天获取500万的网页,非常高效。 Heritrix 开发语言:Java 简介 与Nutch比较 Heritrix 和 Nutch。二者均为Java开源框架,Heritrix 是 SourceForge上的开源产品,Nutch为Apache的一个子项目,它们都称作网络爬虫/蜘蛛( Web Crawler),它们实现的原理基本一致:深度遍历网站的资源,将这些资源抓取到本地, 使用的方法都是分析网站每一个有效的URI,并提交Http请求,从而获得相应结果,生成 本地文件及相应的日志信息等。 Heritrix 是个 "archival crawler" -- 用来获取完整的、精确的、站点内容的深度复制。包括获取图像以及其他非文本内容。 抓取并存储相关的内容。对内容来者不拒,不对页面进行内容上的修改。重新爬行对相 同的URL不针对先前的进行替换。爬虫通过Web用户界面启动、监控、调整,允许弹性的 定义要获取的URL。 二者的差异: Nutch 只获取并保存可索引的内容。Heritrix则是照单全收。力求保存页
体顶端 网络爬虫调研报告 基本原理 Spider概述 Spider即网络爬虫 ,其定义有广义和狭义之分。狭义上指遵循标准的 http协议利用超链接和 Web文档检索的方法遍历万维网信息空间的软件程序 ;而广义的定义则是所有能遵循 http协议检索 Web文档的软件都称之为网络爬虫。 Spider是一个功能很强的自动提取网页的程序 ,它为搜索引擎从万维网上下载网页 ,是搜索引擎的重要组成 .它通过请求站点上的 HTML文档访问某一站点。它遍历 Web空间 ,不断从一个站点移动到另一个站点 ,自动建立索引 ,并加入到网页数据库。网络爬虫进入某个超级文本时 ,它利用 HTML语言的标记结构来搜索信息及获取指向其他超级文本的 URL地址 ,可以完全不依赖用户干预实现网络上的自动爬行和搜索。 Spider的队列 (1)等待队列 :新发现的 URL被加入到这个队列 ,等待被 Spider程序处理 ; (2)处理队列 :要被处理的 URL被传送到这个队列。为了避免同一个 URL被多次处理 ,当一个 URL被处理过后 ,它将被转移到完成队列或者错误队列 (如果发生错误 )。 (3)错误队列 :如果在下载网页是发生错误 ,该 URL将被加入 到错误队列。 (4)完成队列 :如果在处理网页没有发生错误 ,该 URL将被加入到完成队列。 网络爬虫搜索策略 在抓取网页的时候 ,目前网络爬虫一般有两种策略 :无主题搜索与基于某特定主体的专业智能搜索。其前者主要包括 :广度优先和深度优先。广度优先是指网络爬虫会先抓取起始网页链接的所有网页 ,然后再选择其的一个链接网页 ,继续抓取在此网页链接的所有网页。这是最常用的方式,因为这个方法可以让网络爬 虫并行处理 ,提高其抓取速度。深度优先是指网络爬虫会从起始页开始 ,一个链接一个链接跟踪下去 ,处理完这条线路之后再转入下一个起始页 ,继续跟踪链接。这个方法有个优点是网络爬虫在设计的时候比较容易。大多数网页爬行 器采用宽度优先搜索策略或者是对这种策略的某些改进。 在专业搜索引擎 ,网络爬虫的任务是获取 Web页面和决定链接的访问顺序 ,它通常从一个 "种子集 "(如用户查询、种子链接或种子页面 )发,以迭代的方式访问页面和提取链接。搜索过程 ,未访问的链接被暂存在一个称为 "搜索前沿 "(Spider Frontier)的队列 ,网络爬虫根据搜索前沿链接的 "重要程度 "决定下一个要访问的链接。如何评价和预测链接的 "重要程度 "(或称价值 )是决定网络爬虫搜索策略的关键。 众多的网络爬虫设计各不相同 ,但归根结底是采用不同的链接价值评价标准。 常用开源网络爬虫介绍及其比较 Nutch 开发语言:Java 简介: Apache的子项目之一,属于Lucene项目下的子项目。 Nutch是一个基于Lucene,类似Google的完整网络搜索引擎解决方案,基于Hadoop的 分布式处理模型保证了系统的性能,类似Eclipse的插件机制保证了系统的可客户化,而 且很容易集成到自己的应用之。 Larbin 开发语言:C++ 简介   larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人 Sébastien Ailleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎 提供广泛的数据来源。   Larbin只是一个爬虫,也就是说larbin只抓取网页,至于如何parse的事情则由 用户自己完成。另外,如何存储到数据库以及建立索引的事情 larbin也不提供。   latbin最初的设计也是依据设计简单但是高度可配置性的原则,因此我们可以看 到,一个简单的larbin的爬虫可以每天获取500万的网页,非常高效。 Heritrix 开发语言:Java 简介 与Nutch比较 Heritrix 和 Nutch。二者均为Java开源框架,Heritrix 是 SourceForge上的开源产品,Nutch为Apache的一个子项目,它们都称作网络爬虫/蜘蛛( Web Crawler),它们实现的原理基本一致:深度遍历网站的资源,将这些资源抓取到本地, 使用的方法都是分析网站每一个有效的URI,并提交Http请求,从而获得相应结果,生成 本地文件及相应的日志信息等。 Heritrix 是个 "archival crawler" -- 用来获取完整的、精确的、站点内容的深度复制。包括获取图像以及其他非文本内容。 抓取并存储相关的内容。对内容来者不拒,不对页面进行内容上的修改。重新爬行对相 同的URL不针对先前的进行替换。爬虫通过Web用户界面启动、监控、调整,允许弹性的 定义要获取的URL。 二者的差异: Nutch 只获取并保存可索引的内容。Heritrix则是照单全收。力
窗体顶端 网络爬虫调研报告 基本原理 Spider概述 Spider即网络爬虫 ,其定义有广义和狭义之分。狭义上指遵循标准的 http协议利用超链接和 Web文档检索的方法遍历万维网信息空间的软件程序 ;而广义的定义则是所有能遵循 http协议检索 Web文档的软件都称之为网络爬虫. Spider是一个功能很强的自动提取网页的程序 ,它为搜索引擎从万维网上下载网页 ,是搜索引擎的重要组成 。它通过请求站点上的 HTML文档访问某一站点.它遍历 Web空间 ,不断从一个站点移动到另一个站点 ,自动建立索引 ,并加入到网页数据库。网络爬虫进入某个超级文本时 ,它利用 HTML语言的标记结构来搜索信息及获取指向其他超级文本的 URL地址 ,可以完全不依赖用户干预实现网络上的自动爬行和搜索。 Spider的队列 (1)等待队列 :新发现的 URL被加入到这个队列 ,等待被 Spider程序处理 ; (2)处理队列 :要被处理的 URL被传送到这个队列。为了避免同一个 URL被多次处理 ,当一个 URL被处理过后 ,它将被转移到完成队列或者错误队列 (如果发生错误 )。 (3)错误队列 :如果在下载网页是发生错误 ,该 URL将被加入 到错误队列。 (4)完成队列 :如果在处理网页没有发生错误 ,该 URL将被加入到完成队列。 网络爬虫搜索策略 在抓取网页的时候 ,目前网络爬虫一般有两种策略 :无主题搜索与基于某特定主体的专业智能搜索。其前者主要包括 :广度优先和深度优先。广度优先是指网络爬虫会先抓取起始网页链接的所有网页 ,然后再选择其的一个链接网页 ,继续抓取在此网页链接的所有网页。这是最常用的方式,因为这个方法可以让网络爬 虫并行处理 ,提高其抓取速度。深度优先是指网络爬虫会从起始页开始 ,一个链接一个链接跟踪下去 ,处理完这条线路之后再转入下一个起始页 ,继续跟踪链接。这个方法有个优点是网络爬虫在设计的时候比较容易。大多数网页爬 行器采用宽度优先搜索策略或者是对这种策略的某些改进. 在专业搜索引擎 ,网络爬虫的任务是获取 Web页面和决定链接的访问顺序 ,它通常从一个 "种子集 "(如用户查询、种子链接或种子页面 )发,以迭代的方式访问页面和提取链接。搜索过程 ,未访问的链接被暂存在一个称为 "搜索前沿 "(Spider Frontier)的队列 ,网络爬虫根据搜索前沿链接的 "重要程度 "决定下一个要访问的链接。如何评价和预测链接的 "重要程度 "(或称价值 )是决定网络爬虫搜索策略的关键。 众多的网络爬虫设计各不相同 ,但归根结底是采用不同的链接价值评价标准。 常用开源网络爬虫介绍及其比较 Nutch 开发语言:Java 简介: Apache的子项目之一,属于Lucene项目下的子项目。 Nutch是一个基于Lucene,类似Google的完整网络搜索引擎解决方案,基于Hadoop的 分布式处理模型保证了系统的性能,类似Eclipse的插件机制保证了系统的可客户化,而 且很容易集成到自己的应用之. Larbin 开发语言:C++ 简介   larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人 Sébastien Ailleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎 提供广泛的数据来源。   Larbin只是一个爬虫,也就是说larbin只抓取网页,至于如何parse的事情则由 用户自己完成。另外,如何存储到数据库以及建立索引的事情 larbin也不提供。   latbin最初的设计也是依据设计简单但是高度可配置性的原则,因此我们可以看 到,一个简单的larbin的爬虫可以每天获取500万的网页,非常高效。 Heritrix 开发语言:Java 简介 与Nutch比较 Heritrix 和 Nutch.二者均为Java开源框架,Heritrix 是 SourceForge上的开源产品,Nutch为Apache的一个子项目,它们都称作网络爬虫/蜘蛛( Web Crawler),它们实现的原理基本一致:深度遍历网站的资源,将这些资源抓取到本地, 使用的方法都是分析网站每一个有效的URI,并提交Http请求,从而获得相应结果,生成 本地文件及相应的日志信息等。 Heritrix 是个 "archival crawler" -- 用来获取完整的、精确的、站点内容的深度复制.包括获取图像以及其他非文本内容.抓 取并存储相关的内容。对内容来者不拒,不对页面进行内容上的修改。重新爬行对相同 的URL不针对先前的进行替换。爬虫通过Web用户界面启动、监控、调整,允许弹性的定 义要获取的URL。 二者的差异: Nutch 只获取并保存可索引的内容。Heritrix则是照单全收。

58,454

社区成员

发帖
与我相关
我的任务
社区描述
Java Eclipse
社区管理员
  • Eclipse
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧