Spark 和 Hadoop 在技术结构上的共同点和区别？

尹桑 2016-06-24 09:52:13

Spark 和 Hadoop 在技术结构上有哪些共同点和区别呢？
本人刚接触这些，不太了解，有大神帮忙解答一下吗

...全文

821 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

SongDongmei 2016-07-11

打赏
举报

回复

引用 1 楼 link0007 的回复:

Hadoop最重要的模块是HDFS分布式文件系统，基本上所有分布式计算框架都架构于它之上。而Spark和Hadoop MR的共同点就是都是Map-Reduce计算框架，不同点是Spark的中间结果放在内存，而Hadoop MR放在HDFS上。所以Spark支持快速迭代运算与近线的流式处理。在编程风格上，Spark更加友好，RDD操作的代码风格非常接近Java8的stream操作，同时DataFrame支持SQL。另外Spark支持的语言有源生的Scala，以及Java，Python，R。

感觉楼上的说法略有不妥。spark的计算框架不是mapreduce。经常有人说Spark就是内存版的MapReduce，实际上不是的。Spark使用的DAG计算模型。

LinkSe7en 2016-06-27

打赏
举报

回复

Hadoop最重要的模块是HDFS分布式文件系统，基本上所有分布式计算框架都架构于它之上。而Spark和Hadoop MR的共同点就是都是Map-Reduce计算框架，不同点是Spark的中间结果放在内存，而Hadoop MR放在HDFS上。所以Spark支持快速迭代运算与近线的流式处理。在编程风格上，Spark更加友好，RDD操作的代码风格非常接近Java8的stream操作，同时DataFrame支持SQL。另外Spark支持的语言有源生的Scala，以及Java，Python，R。

大数据基础知识入门社会保障事业部张火磊主要内容大数据价值 03 大数据概念、特性、由来 01 大数据应用举例 04 02 Hadoop技术介绍大数据概念、特性、由来什么叫大数据？麦肯锡全球研究所给出的定义是：一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据的特性大量（Volume）多样（Variety）快速（Velocity）价值（Value）大数据技术的由来自 2002 年数字时代开启以来，数据呈现海量增长趋势(如图所示)。特别是在2004年社交媒体产生后，数据更是呈现爆炸性增长趋势. 随着数据的增长，尤其数据达到PB级以后，数据的存储和分析都会变得非常困难。 2003-2006年，Google提出了三大关键技术来解决大规模数据的存储和处理: GFS、MapReduce、BigTable并称Google大数据的三驾马车。虽然Google没有公布这三个产品的源码，但是他发布了这三个产品的详细设计论文，奠定了风靡全球的大数据的基础！ Hadoop之父Doug Cutting 受此启发的Doug Cutting等人用2 年的业余时间实现了GFS和MapReduce机制。 2005年，Hadoop作为Lucene的子项目Nutch 的一部分正式引入Apache基金会。2006年2 月被分离出来，成为一套完整独立的软件，起名为Hadoop。 Hadoop的起源总结起来，Hadoop起源于Google的三大论文 GFS—->HDFS Google MapReduce—->Hadoop MapReduce BigTable—->HBase Hadoop技术介绍 Hadoop的架构 Cloudera Manger Ambari 和 Cloudera Manger都是基于Web的工具，支持 Apache Hadoop集群的供应、管理和监控。支持大多数 Hadoop 组件，包括 HDFS 、 MapReduce 、 Spark 、 Hive 、 Pig 、 Hbase 、 Zookeper、Sqoop等大数据集群管理方式分为手工方式（ Apache hadoop）和工具方式（Ambari + hdp 和 Cloudera Manger + CDH） HDFS HDFS （ Hadoop Distributed File System ）是 Hadoop项目的核心组件之一，是分布式计算中数据存储管理的基础，是基于流数据模式访问和处理超大文件的需求而开发的，可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高吞吐率等特征为海量数据提供了不怕故障的存储，为超大数据集的应用处理带来了很多便利。主要包含NameNode(用来管理文件系统的命名空间)和DataNode(文件系统中真正存储数据的地方) MapReduce MapReduce是一个高性能的批处理分布式计算框架，用于对海量数据进行并行分析和处理。MapReduce采用"分而治之"的思想，把对大规模数据集的操作，分发给一个主节点管理下的各个分节点共同完成，然后通过整合各个节点的中间结果，得到最终结果。简单地说， MapReduce就是"任务的分解与结果的汇总"。举例：如果想统计下过去10年计算机论文出现最多的几个单词传统方法：首先写一个遍历论文的程序，部署到N台机器上去，然后把论文集分成N份，一台机器跑一个作业。这个方法从理论上可以实现，但是部署起来很麻烦，我们要人工把程序 copy到别的机器，要人工把论文集分开，最后还要把N个运行结果进行整合。 Spark Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。 Spark在借鉴Hadoop MapReduce优点的同时，很好地解决了MapReduce所面临的问题。 Spark的计算模式也属于MapReduce，但不局限于Map和Reduce操作，还提供了多种数据集操作类型，编程模型比Hadoop MapReduce更灵活。 Spark基于DAG的任务调度执行机制，要优于Hadoop MapReduce的迭代执行机制，因此 Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。 Spark 优点：运行速度快：使用DAG执行引擎以支持循环数据流与内存计算容易使用：支持使用Scala、Java、Python和R语言进行编程，可以通过Spark Shell 进行交互式编程通用性：Spark提供了完整而强大的技术

Spark和Hadoop的区别和比较

本课程系统介绍大数据技术家族中Hadoop与Spark的架构、编程与相关优化方法，相对于其它课程，本课程有如下特点：一是实战与架构介绍紧密结合，注意讲述实战技能同时，清晰讲解架构与原理，使学员知其然，知其所以然二是与应用实践结合紧密，各技术点都力求与实践场景结合，做到真正会用；同时内容全面，包括批量、实时、流计算、图计算及其结合等多种技术场景三讲解通俗易懂，形象贴切，同时又深入全面，透彻理解。通过本课程学习，学员可从初学者到能真正在工程实践中使用大数据技术解决问题

Spark和Hadoop的异同点分析一、两者实现原理的比较二、两者多方面的对比三、Spark和MR两者之间的详细对比分析（重点）3.1 速度3.2 容错性3.3 适用性3.4 框架和生态3.5 运行环境四、三大分布式计算框架系统（1）Spark：是分布式计算平台，是一个用scala语言编写的计算框架，基于内存的快速、通用、可扩展的大数据分析引擎。（2）Hadoop：是分布式管理、存储、计算的生态系统；其中包括三大部分：HDFS（存储）、MapReduce（计算）、Yarn（资源调度）一、两者实现

1、hadoop 1）hadoop简介 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 Hadoop实现了一个分布式文件系统HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的硬件上；而且它提供高吞吐量来访问应用程序的数据，适合那些有着超大数据集的应用程序。 Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，而MapRed...

742

社区成员

901

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章