社区
Java EE
帖子详情
Lucene+Nutch网络爬虫,求相关资料或者书籍
wlj3203
2009-11-18 04:45:10
Lucene+Nutch网络爬虫,求相关资料或者书籍。电子书 网站网址都可以
...全文
376
7
打赏
收藏
Lucene+Nutch网络爬虫,求相关资料或者书籍
Lucene+Nutch网络爬虫,求相关资料或者书籍。电子书 网站网址都可以
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
7 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
hepeng_8
2011-05-07
打赏
举报
回复
不是真实的啊
kkgoing
2011-04-15
打赏
举报
回复
什么个情况
new_sky_hony
2010-01-27
打赏
举报
回复
nutch的配置视频,希望对你有用:
http://www.boobooke.com/v/bbk2817/
http://www.boobooke.com/v/bbk2818/
叶涛网站推广优化
2010-01-27
打赏
举报
回复
2楼的不错
zl3450341
2009-11-18
打赏
举报
回复
http://www.lucene.com.cn/about.htm
看看
invoked
2009-11-18
打赏
举报
回复
http://download.csdn.net/source/1218640
http://cid-47027e68f36cbaf5.spaces.live.com/blog/cns!47027E68F36CBAF5!443.entry
good luck.
Nutch
入门.rar
Nutch
是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 目 录 1.
nutch
简介...1 1.1什么是
nutch
..1 1.2研究
nutch
的原因...1 1.3
nutch
的目标..1 1.4
nutch
VS
lucene
.....2 2.
nutch
的安装与配置.....3 2.1 JDK的安装与配置.3 2.2
nutch
的安装与配置........5 2.3 tomcat的安装与配置......5 3.
nutch
初体验7 3.1 爬行企业内部网....7 3.1.1 配置
nutch
....7 3.1.2 配置tomcat..8 3.1.3 执行抓取命令......9 3.1.4 测试结果...11 3.1.5 Intranet Recrawl..13 3.2 爬行全网.....18 3.2.1
nutch
数据集的基本组成:.....18 3.2.2 爬行"官方"网址.....18 3.2.3 爬行中文网址....22 4.
nutch
基本原理分析...23 4.1
nutch
的基本组成.23 4.2
nutch
工作流程.....23 5.
nutch
工作流程分析...25 5.1
爬虫
...25 5.1.1 工作策略...25 5.1.2 工作流程分析....25 5.1.3 其它..27 5.2 索引...27 5.2.1 索引主要过程....27 5.2.2 工作流程分析....28 5.2.3 倒排索引(inverted index)....29 5.2.4其它...29 5.3 搜索...29 5.4 分析...30 5.5
nutch
的其他一些特性..31 6.
nutch
分析方法和工具........33 6.1 Crawldb......33 6.2 Linkdb........35 6.3 Segments....35 6.4 Index..39 7.
nutch
分布式文件系统........41 2007-8-26 北京邮电大学-李阳
Nutch
入门学习 7.1 概述...41 7.2 MapReduce.......41 7.3 文件系统语法......42 7.4 文件系统设计......42 7.5 系统的可用性......43 7.6
Nutch
文件系统工作架构...43 8.
nutch
应用.45 8.1 修改源码.....45 8.2 插件机制---plugin........45 8.2.1 什么是plugin......45 8.2.2 使用plugin的好处.......45 8.2.3 plugin工作原理...46 8.2.4 编写plugin47 8.3 API接口.......53 8.3.1使用
Nutch
API....53 8.3.2使用OpenSearch API...55 8.4
nutch
的应用前景.57 附录一:
nutch
的
相关
网站......58 附录二: 参考文献..58
全文索引-
lucene
,solr,
nutch
,hadoop之
nutch
与hadoop
全文索引-
lucene
。solr。
nutch
,hadoop之
lucene
全文索引-
lucene
。solr,
nutch
,hadoop之solr 我在去年的时候,就想把
lucene
,solr。
nutch
和hadoop这几个东东给具体的介绍下,但因为时间的关系。我还是仅仅写了两篇文章,分别介绍了一下
lucene
和solr,后来就没有在写了,但我心里还是期待的,尽管到如今我没有真正搞...
java web
爬虫
_java开源web
爬虫
哪个好用?
Lucene
+
nutch
+heritrix网上可以找得到源代码,开源的搜索引擎,包含
爬虫
、检索等功能。Heritrix是一个
爬虫
框架,可加如入一些可互换的组件。 它的执行是递归进行的,主要有以下几步: 1。在预定的URI中选择一个。 2。获取URI 3。分析,归档结果 4。选择已经发现的感兴趣的URI。加入预定队列。 5。标记已经处理过的URI 是IA的开放源代码,可扩展的,基于整个Web的,归档...
java heritrix_Heritrix 和
Nutch
比较与分析(java开源
网络
爬虫
)
Heritrix项目介绍Heritrix工程始于2003年初,IA的目的是开发一个特殊的
爬虫
,对网上的资源进行归档,建立
网络
数字图书馆。在过去的6年里,IA已经建立了400TB的数据。 IA期望他们的crawler包含以下几种:宽带
爬虫
: 能够以更高的带宽去站点爬。主题
爬虫
: 集中于被选择的问题。持续
爬虫
: 不仅仅爬更当前的网页还负责爬日后更新的网页。实验
爬虫
: 对
爬虫
技术进行实验,以决定该爬什么...
网络
爬虫
相关
软件以及论文检索与推荐网站调研
最近接到一个项目,需要做一个基于
网络
爬虫
技术的论文检索与推荐的网站,所以打算先对市面上已有的基于此技术的软件进行一次统计和分析,以备后面查询使用。一.
网络
爬虫
相关
软件1. 搜索引擎
Nutch
Nutch
是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web
爬虫
。
Nutch
的创始人是Doug Cutting,他同时也是
Lucene
、Hado
Java EE
67,514
社区成员
225,878
社区内容
发帖
与我相关
我的任务
Java EE
J2EE只是Java企业应用。我们需要一个跨J2SE/WEB/EJB的微容器,保护我们的业务核心组件(中间件),以延续它的生命力,而不是依赖J2SE/J2EE版本。
复制链接
扫一扫
分享
社区描述
J2EE只是Java企业应用。我们需要一个跨J2SE/WEB/EJB的微容器,保护我们的业务核心组件(中间件),以延续它的生命力,而不是依赖J2SE/J2EE版本。
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章