Spark 和 Hadoop 在技术结构上的共同点和区别？

尹桑 2016-06-24 09:52:13

Spark 和 Hadoop 在技术结构上有哪些共同点和区别呢？
本人刚接触这些，不太了解，有大神帮忙解答一下吗

...全文

820 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

SongDongmei 2016-07-11

打赏
举报

回复

引用 1 楼 link0007 的回复:

Hadoop最重要的模块是HDFS分布式文件系统，基本上所有分布式计算框架都架构于它之上。而Spark和Hadoop MR的共同点就是都是Map-Reduce计算框架，不同点是Spark的中间结果放在内存，而Hadoop MR放在HDFS上。所以Spark支持快速迭代运算与近线的流式处理。在编程风格上，Spark更加友好，RDD操作的代码风格非常接近Java8的stream操作，同时DataFrame支持SQL。另外Spark支持的语言有源生的Scala，以及Java，Python，R。

感觉楼上的说法略有不妥。spark的计算框架不是mapreduce。经常有人说Spark就是内存版的MapReduce，实际上不是的。Spark使用的DAG计算模型。

LinkSe7en 2016-06-27

打赏
举报

回复

Hadoop最重要的模块是HDFS分布式文件系统，基本上所有分布式计算框架都架构于它之上。而Spark和Hadoop MR的共同点就是都是Map-Reduce计算框架，不同点是Spark的中间结果放在内存，而Hadoop MR放在HDFS上。所以Spark支持快速迭代运算与近线的流式处理。在编程风格上，Spark更加友好，RDD操作的代码风格非常接近Java8的stream操作，同时DataFrame支持SQL。另外Spark支持的语言有源生的Scala，以及Java，Python，R。

大数据基础知识入门社会保障事业部张火磊主要内容大数据价值 03 大数据概念、特性、由来 01 大数据应用举例 04 02 Hadoop技术介绍大数据概念、特性、由来什么叫大数据？麦肯锡全球研究所给出的定义是：一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据的特性大量（Volume）多样（Variety）快速（Velocity）价值（Value）大数据技术的由来自 2002 年数字时代开启以来，数据呈现海量增长趋势(如图所示)。特别是在2004年社交媒体产生后，数据更是呈现爆炸性增长趋势. 随着数据的增长，尤其数据达到PB级以后，数据的存储和分析都会变得非常困难。 2003-2006年，Google提出了三大关键技术来解决大规模数据的存储和处理: GFS、MapReduce、BigTable并称Google大数据的三驾马车。虽然Google没有公布这三个产品的源码，但是他发布了这三个产品的详细设计论文，奠定了风靡全球的大数据的基础！ Hadoop之父Doug Cutting 受此启发的Doug Cutting等人用2 年的业余时间实现了GFS和MapReduce机制。 2005年，Hadoop作为Lucene的子项目Nutch 的一部分正式引入Apache基金会。2006年2 月被分离出来，成为一套完整独立的软件，起名为Hadoop。 Hadoop的起源总结起来，Hadoop起源于Google的三大论文 GFS—->HDFS Google MapReduce—->Hadoop MapReduce BigTable—->HBase Hadoop技术介绍 Hadoop的架构 Cloudera Manger Ambari 和 Cloudera Manger都是基于Web的工具，支持 Apache Hadoop集群的供应、管理和监控。支持大多数 Hadoop 组件，包括 HDFS 、 MapReduce 、 Spark 、 Hive 、 Pig 、 Hbase 、 Zookeper、Sqoop等大数据集群管理方式分为手工方式（ Apache hadoop）和工具方式（Ambari + hdp 和 Cloudera Manger + CDH） HDFS HDFS （ Hadoop Distributed File System ）是 Hadoop项目的核心组件之一，是分布式计算中数据存储管理的基础，是基于流数据模式访问和处理超大文件的需求而开发的，可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高吞吐率等特征为海量数据提供了不怕故障的存储，为超大数据集的应用处理带来了很多便利。主要包含NameNode(用来管理文件系统的命名空间)和DataNode(文件系统中真正存储数据的地方) MapReduce MapReduce是一个高性能的批处理分布式计算框架，用于对海量数据进行并行分析和处理。MapReduce采用"分而治之"的思想，把对大规模数据集的操作，分发给一个主节点管理下的各个分节点共同完成，然后通过整合各个节点的中间结果，得到最终结果。简单地说， MapReduce就是"任务的分解与结果的汇总"。举例：如果想统计下过去10年计算机论文出现最多的几个单词传统方法：首先写一个遍历论文的程序，部署到N台机器上去，然后把论文集分成N份，一台机器跑一个作业。这个方法从理论上可以实现，但是部署起来很麻烦，我们要人工把程序 copy到别的机器，要人工把论文集分开，最后还要把N个运行结果进行整合。 Spark Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。 Spark在借鉴Hadoop MapReduce优点的同时，很好地解决了MapReduce所面临的问题。 Spark的计算模式也属于MapReduce，但不局限于Map和Reduce操作，还提供了多种数据集操作类型，编程模型比Hadoop MapReduce更灵活。 Spark基于DAG的任务调度执行机制，要优于Hadoop MapReduce的迭代执行机制，因此 Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。 Spark 优点：运行速度快：使用DAG执行引擎以支持循环数据流与内存计算容易使用：支持使用Scala、Java、Python和R语言进行编程，可以通过Spark Shell 进行交互式编程通用性：Spark提供了完整而强大的技术

Spark和Hadoop的区别和比较

Spark和Hadoop的异同点分析一、两者实现原理的比较二、两者多方面的对比三、Spark和MR两者之间的详细对比分析（重点）3.1 速度3.2 容错性3.3 适用性3.4 框架和生态3.5 运行环境四、三大分布式计算框架系统（1）Spark：是分布式计算平台，是一个用scala语言编写的计算框架，基于内存的快速、通用、可扩展的大数据分析引擎。（2）Hadoop：是分布式管理、存储、计算的生态系统；其中包括三大部分：HDFS（存储）、MapReduce（计算）、Yarn（资源调度）一、两者实现

1、hadoop 1）hadoop简介 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 Hadoop实现了一个分布式文件系统HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的硬件上；而且它提供高吞吐量来访问应用程序的数据，适合那些有着超大数据集的应用程序。 Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，而MapRed...

在学习hadoop的时候查询一些资料的时候经常会看到有比较hadoop和spark的，对于初学者来说难免会有点搞不清楚这二者到底有什么大的区别。就这个问题查阅了一些资料，观点分享给大家： 1. 目的首先需要明确一点，hadoop和spark 这二者都是大数据框架，即便如此二者各自存在的目的是不同的。 Hadoop是一个分布式的数据基础设施，它是将庞大的数据集分派到由若干台计算机组成的集群中的多个节点进行存储。 Spark是一个专门用来对那些分布式存储的大数据进行处理的工具，Spark本身并不会进行分布.

742

社区成员

901

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章