社区
Java EE
帖子详情
NUTCH能不能支持多机器分布式采集
dlcoco9999
2008-07-02 11:09:54
刚搭建了nutch,可以修改源码,加了中文分词.想在多机器上并发进行采集,但是没这方面的经验.谁有配置多机器分布式采集的经验,能告诉我从哪里入手,如果能有文档资料更好,在这里说谢谢了
...全文
91
1
打赏
收藏
NUTCH能不能支持多机器分布式采集
刚搭建了nutch,可以修改源码,加了中文分词.想在多机器上并发进行采集,但是没这方面的经验.谁有配置多机器分布式采集的经验,能告诉我从哪里入手,如果能有文档资料更好,在这里说谢谢了
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
1 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
03
分布式
采集
系统总体设计方案100412[归纳].pdf
03
分布式
采集
系统总体设计方案100412[归纳].pdf
Apache
Nutch
网络爬虫 v1.19.zip
Apache
Nutch
网络爬虫 v1.19.zip
Nutch
公开课从搜索引擎到网络爬虫
课程背景:
Nutch
诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自
Nutch
1.2版本之后,
Nutch
已经从搜索引擎演化为网络爬虫,接着
Nutch
进一步演化为两大分支版本:1.X和2.X,最大的区别在于2.X对底层的数据存储进行了抽象以
支持
各种底层存储技术。在
Nutch
的进化过程中,产生了Hadoop、Tika和Gora三个Java开源项目。如今这三个项目都发展迅速,极其火爆,尤其是Hadoop,其已成为大规模数据处理的事实上的标准。Tika使用多种现有的开源内容解析项目来实现从多种格式的文件中提取元数据和结构化文本,Gora
支持
把大数据持久化到多种存储实现。
大数据技术 Hadoop开发者第二期
Nutch
MapReduce HDFS Hive Mahout HBase 共64页.r
大数据技术 Hadoop开发者第二期
Nutch
MapReduce HDFS Hive Mahout HBase 共64页.r
网络游戏-基于高实时
分布式
网络的爬虫软件设计与实现.zip
网络游戏-基于高实时
分布式
网络的爬虫软件设计与实现.zip
Java EE
67,537
社区成员
225,852
社区内容
发帖
与我相关
我的任务
Java EE
J2EE只是Java企业应用。我们需要一个跨J2SE/WEB/EJB的微容器,保护我们的业务核心组件(中间件),以延续它的生命力,而不是依赖J2SE/J2EE版本。
复制链接
扫一扫
分享
社区描述
J2EE只是Java企业应用。我们需要一个跨J2SE/WEB/EJB的微容器,保护我们的业务核心组件(中间件),以延续它的生命力,而不是依赖J2SE/J2EE版本。
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章