MapReduce+SSD vs Spark

allspace123 2016-08-12 10:05:33
Spark主要宣传其性能是MapReduce的100倍。原因是它会尽量把数据放在内存里。
那如果我可以在每个Data Node节点上配一小块SSD,专门给MapReduce的shuffle阶段使用,是不是就无需考虑Spark的性能优势了?
...全文
377 3 打赏 收藏 转发到动态 举报
写回复
用AI写文章
3 条回复
切换为时间正序
请发表友善的回复…
发表回复
allspace123 2016-08-29
  • 打赏
  • 举报
回复
经过一段时间的了解,发现spark“速度快”被过分突出了,以至于忽略了其他方面 使用内存保存数据这件事情只是在设计时的考虑,所以:(1)如果数据量足够大时,spark还是需要将数据存储在硬盘上;(2)mapreduce虽然没考虑这些,但也没人能阻止你将它的数据放在ram disk上。 另外,网上那个著名的速度对比其实是并非使用同样的设备进行测试。可以说50%在于spark的设计,50%在于硬件技术的发展。 可以说haddop/mapreduce是big data,而spark是big computing 除了速度,spark还特别适合迭代计算等, RDD模型也比MR 更加灵活。
我也很绝望呐 2016-08-20
  • 打赏
  • 举报
回复
还是没有spark快,再快也快不过内存计算啊。而且企业应该很少用SSD做存储的,一来成本高,二来没有普通机械硬盘可靠,一旦有故障,机械硬盘能恢复的。
LinkSe7en 2016-08-12
  • 打赏
  • 举报
回复
第一,SSD再叼也不够内存快。然而Spark也可以上SSD做缓存啊。。。如果Shuffle阶段涉及到节点之间交换数据,那你上光纤内网或许会更好 第二,Spark主要是内存迭代运算,以及内置多种大数据计算的库,包括SQL支持,流计算,图计算,机器学习等。Spark API基本是面向函数编程的风格,在代码上比MR要简洁。 第三,Spark 2.0引入了整段代码生成技术,目的是解决各种虚函数调用,以及优化循环展开等,性能号称是之前版本的10倍。。。

20,808

社区成员

发帖
与我相关
我的任务
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
  • 分布式计算/Hadoop社区
  • 涤生大数据
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧