MapReduce+SSD vs Spark

allspace123 2016-08-12 10:05:33

Spark主要宣传其性能是MapReduce的100倍。原因是它会尽量把数据放在内存里。
那如果我可以在每个Data Node节点上配一小块SSD，专门给MapReduce的shuffle阶段使用，是不是就无需考虑Spark的性能优势了？

...全文

377 3 打赏收藏转发到动态举报

写回复

用AI写文章

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

allspace123 2016-08-29

打赏
举报

经过一段时间的了解，发现spark“速度快”被过分突出了，以至于忽略了其他方面使用内存保存数据这件事情只是在设计时的考虑，所以：（1）如果数据量足够大时，spark还是需要将数据存储在硬盘上；（2）mapreduce虽然没考虑这些，但也没人能阻止你将它的数据放在ram disk上。另外，网上那个著名的速度对比其实是并非使用同样的设备进行测试。可以说50%在于spark的设计，50%在于硬件技术的发展。可以说haddop/mapreduce是big data，而spark是big computing 除了速度，spark还特别适合迭代计算等, RDD模型也比MR 更加灵活。

我也很绝望呐 2016-08-20

打赏
举报

还是没有spark快，再快也快不过内存计算啊。而且企业应该很少用SSD做存储的，一来成本高，二来没有普通机械硬盘可靠，一旦有故障，机械硬盘能恢复的。

LinkSe7en 2016-08-12

打赏
举报

第一，SSD再叼也不够内存快。然而Spark也可以上SSD做缓存啊。。。如果Shuffle阶段涉及到节点之间交换数据，那你上光纤内网或许会更好第二，Spark主要是内存迭代运算，以及内置多种大数据计算的库，包括SQL支持，流计算，图计算，机器学习等。Spark API基本是面向函数编程的风格，在代码上比MR要简洁。第三，Spark 2.0引入了整段代码生成技术，目的是解决各种虚函数调用，以及优化循环展开等，性能号称是之前版本的10倍。。。

随着业务的飞速增长, 很多业务场景已经⽆法接受基于磁盘批处理的 MapReduce计算服务, 更倾向使⽤基于内存与 SSD 作为存储进⾏迭代计算, 希望整体提升数据结果的时效性。 Presto计算引擎服务基于内存的并⾏计算，...

2、兼容Hadoop HDFS的文件系统接口:基于这套接口Hadoop MapReduce和Spark可以使用Alluxio代替HDFS。 3、可插拔的底层存储：Alluxio支持将内存数据持久化到底层存储系统。Alluxio提供了通用接口以简化对接不同的底层...

Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而...