Hadoop最重要的模块是HDFS分布式文件系统,基本上所有分布式计算框架都架构于它之上。 而Spark和Hadoop MR的共同点就是都是Map-Reduce计算框架,不同点是Spark的中间结果放在内存,而Hadoop MR放在HDFS上。所以Spark支持快速迭代运算与近线的流式处理。在编程风格上,Spark更加友好,RDD操作的代码风格非常接近Java8的stream操作,同时DataFrame支持SQL。另外Spark支持的语言有源生的Scala,以及Java,Python,R。
742
社区成员
901
社区内容
加载中
试试用AI创作助手写篇文章吧