没有Hadoop,lucene基础 可以学习nutch吗?

woaini8104 2011-11-18 11:28:58
请高手指教 谢谢!
...全文
71 2 打赏 收藏 转发到动态 举报
写回复
用AI写文章
2 条回复
切换为时间正序
请发表友善的回复…
发表回复
woaini8104 2011-11-19
  • 打赏
  • 举报
回复
哦 Nutch 在网络上得教程很少可以推荐一个么
langke93 2011-11-19
  • 打赏
  • 举报
回复
完全可以,nutch可以单机,也可分布式
当然用到分布式了还得先学学Hadoop
Nutch新版手册推荐和solr结合,已经把Lucene封装了
当然最好实现原理都读懂
Transform to the power of data 大数据基础培训教程 datainsight@sina.com November 2015 @数据视野 主要内容 大数据的起源与目标 大数据与Hadoop Hadoop的应用模式 什么是大数据? 起源与目标 大数据与Hadoop 应用模式 大数据的产生背景:RDBMS时代回头看 索引 查询 交易 起源与目标 大数据与Hadoop 应用模式 大数据的产生背景:技术博弈 交易 分析 起源与目标 大数据与Hadoop 应用模式 大数据的产生背景:原动力 性能 价格 收益 成本 VS 起源与目标 大数据与Hadoop 应用模式 大数据的核心理念 Xoom不跨境汇款异常交易报警 网管异常日志分析 随机样本 全体数据 Google Rosetta VS. IBM Candide:美国标准局(NIST)机器翻译系统评测(2007) 摘自:Viktor Mayer-Schonberger"大数据时代",吴军"数学之美" 精确性 混杂性 沃尔玛的飓风不蛋挞:Teradata,20丐纪90年代 因果关系 相关关系 起源与目标 大数据与Hadoop 应用模式 大数据能做什么? 数据分析与报表 预测 数据挖掘与BI 机器学习与Google大 脑 起源与目标 大数据与Hadoop 应用模式 大数据技术IT人员的挑战——DevOps DevOps Development和Operations的 组合,是一组过程、方法与 系统的统称,用于促进开发 (应用程序/软件工程)、技 术运营和质量保障(QA)部 门之间的沟通、协作与整合。 它的出现是由于软件行业日 益清晰地认识到:为了按时 交付软件产品和服务,开发 和运营工作必须紧密合作。 摘自:http://zh.wikipedia.org/wiki/DevOps 起源与目标 大数据与Hadoop 应用模式 大数据运动的目标 Find something where you provide a scarce, complementary service to something that is getting ubiquitous and cheap. So what's getting ubiquitous and cheap? Data. And what is complementary to data? Analysis. By Hal Varian, Google's chief economist 起源与目标 大数据与Hadoop 应用模式 推荐读物 主要内容 大数据的起源与目标 大数据与Hadoop Hadoop的应用模式 Google的"三驾马车":起源 HDFS MapReduce HBase 业 务 驱 动 起源与目标 大数据与Hadoop 应用模式 Hadoop的前世今生 Hadoop最早作为Nutch的一个模块被引入,Nutch又是Lucene的一个子 项目 Lucene是Apache下的一个全文索引引擎 Nutch是一个完整的搜索引擎,它以Lucene为核心 Hadoop的用途在于分析Nutch爬虫抓取的WEB页面并为其建立索引 2003年Google发表论文介绍GFS文件系统,2004年HDFS(NDFS)项目建立 2004年Google发表论文介绍MapReduce算法,2005年Nutch中实现了 MapReduce算法 2006年2月Hadoop独立成Lucene的一个子项目,与此同时,Hadoop创 始人Doug Cutting加入YAHOO 2007年11月纽约时报利用亚马逊EC2和Hadoop将4TB的报纸扫描件转化 成PDF 2008年1月Hadoop成为Apache顶级项目(Top-Level Project) 2008年2月YAHOO宣布其生产网利用Hadoop集群为搜索引擎建立索引, 集群规模超过1万个CPU核心 起源与目标 大数据与Hadoop 应用模式 大数据与Hadoop STORM 大数 据 大数据的应用范畴: 海量数据的快速查询 海量数据的归档不保存 数据汇总不报表 数据挖掘 预测 Hadoop与大数据: 1、Hadoop 大数据库 2、Hadoop是目前发展的最为成熟的大数据库技术 3、Hadoop是一种较为通用的大数据技术 4、后起之秀:STORM、SPARK 起源与目标 大数据与Hadoop 应用模式 Hadoop的社区版与发行版 【Hadoop社区版】 由Apache社区主导, 是所有Hadoop发行 版的源头。Hadoop 社区以投票的形式决 定Hadoop版本的发 展方向 100%开放源代码,兼 容社区版,Hadoop市 场占有率全球第一, 社区的主导力量 100%开放源代码,完 全兼
Nutch的创始人是Doug Cutting,他同时也是LuceneHadoop和Avro开源项目的创始人。 Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,这两大分支最大的区别在于2.X对底层的数据存储进行了抽象以支持各种底层存储技术。 在Nutch的进化过程中,产生了Hadoop、Tika、Gora和Crawler Commons四个Java开源项目。如今这四个项目都发展迅速,极其火爆,尤其是Hadoop,其已成为大规模数据处理的事实上的标准。Tika使用多种现有的开源内容解析项目来实现从多种格式的文件中提取元数据和结构化文本,Gora支持把大数据持久化到多种存储实现,Crawler Commons是一个通用的网络爬虫组件。 大数据这个术语最早的引用可追溯到Nutch。当时,大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。现在,大数据的含义已经被极大地发展了,业界将大数据的特性归纳为4个“V”。Volume数据体量巨大,Variety数据类型繁多,Value价值密度低,商业价值高,Velocity处理速度快。 Hadoop是大数据的核心技术之一,而NutchHadoop之大成,是Hadoop的源头。学习Hadoop,没有数据怎么办?用Nutch抓!学了Hadoop的Map Reduce以及HDFS,没有实用案例怎么办?学习NutchNutch的很多代码是用Map Reduce和HDFS写的,哪里还能找到比Nutch更好的Hadoop应用案例呢?

20,810

社区成员

发帖
与我相关
我的任务
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
  • 分布式计算/Hadoop社区
  • 涤生大数据
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧