社区
Hadoop生态社区
帖子详情
MapReduce+SSD vs Spark
allspace123
2016-08-12 10:05:33
Spark主要宣传其性能是MapReduce的100倍。原因是它会尽量把数据放在内存里。
那如果我可以在每个Data Node节点上配一小块SSD,专门给MapReduce的shuffle阶段使用,是不是就无需考虑Spark的性能优势了?
...全文
378
3
打赏
收藏
MapReduce+SSD vs Spark
Spark主要宣传其性能是MapReduce的100倍。原因是它会尽量把数据放在内存里。 那如果我可以在每个Data Node节点上配一小块SSD,专门给MapReduce的shuffle阶段使用,是不是就无需考虑Spark的性能优势了?
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
3 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
allspace123
2016-08-29
打赏
举报
回复
经过一段时间的了解,发现spark“速度快”被过分突出了,以至于忽略了其他方面 使用内存保存数据这件事情只是在设计时的考虑,所以:(1)如果数据量足够大时,spark还是需要将数据存储在硬盘上;(2)mapreduce虽然没考虑这些,但也没人能阻止你将它的数据放在ram disk上。 另外,网上那个著名的速度对比其实是并非使用同样的设备进行测试。可以说50%在于spark的设计,50%在于硬件技术的发展。 可以说haddop/mapreduce是big data,而spark是big computing 除了速度,spark还特别适合迭代计算等, RDD模型也比MR 更加灵活。
我也很绝望呐
2016-08-20
打赏
举报
回复
还是没有spark快,再快也快不过内存计算啊。而且企业应该很少用SSD做存储的,一来成本高,二来没有普通机械硬盘可靠,一旦有故障,机械硬盘能恢复的。
LinkSe7en
2016-08-12
打赏
举报
回复
第一,SSD再叼也不够内存快。然而Spark也可以上SSD做缓存啊。。。如果Shuffle阶段涉及到节点之间交换数据,那你上光纤内网或许会更好 第二,Spark主要是内存迭代运算,以及内置多种大数据计算的库,包括SQL支持,流计算,图计算,机器学习等。Spark API基本是面向函数编程的风格,在代码上比MR要简洁。 第三,Spark 2.0引入了整段代码生成技术,目的是解决各种虚函数调用,以及优化循环展开等,性能号称是之前版本的10倍。。。
大数据离线计算.pdf
随着业务的飞速增长, 很多业务场景已经⽆法接受基于磁盘批处理的
MapReduce
计算服务, 更倾向使⽤基于内存与
SSD
作为存储进⾏迭代计算, 希望整体提升数据结果的时效性。 Presto计算引擎服务 基于内存的并⾏计算,...
Alluxio分布式存储系统 v2.9.4
2、兼容Hadoop HDFS的文件系统接口:基于这套接口Hadoop
MapReduce
和
Spark
可以使用Alluxio代替HDFS。 3、可插拔的底层存储:Alluxio支持将内存数据持久化到底层存储系统。Alluxio提供了通用接口以简化对接不同的底层...
【Alluxio分布式存储系统 v2.4.1】以前称为Tachyon+通过公共接口连接众多存储系统
2、兼容Hadoop HDFS的文件系统接口:基于这套接口Hadoop
MapReduce
和
Spark
可以使用Alluxio代替HDFS。 3、可插拔的底层存储:Alluxio支持将内存数据持久化到底层存储系统。Alluxio提供了通用接口以简化对接不同的底层...
【Alluxio分布式存储系统 v2.4.1】以前称为Tachyon+通过公共接口连接众多存储系统.zip
2、兼容Hadoop HDFS的文件系统接口:基于这套接口Hadoop
MapReduce
和
Spark
可以使用Alluxio代替HDFS。 3、可插拔的底层存储:Alluxio支持将内存数据持久化到底层存储系统。Alluxio提供了通用接口以简化对接不同的底层...
大数据与人工智能.pptx
P2P分布式架构 网格计算 2000s,社交网络的盛行,海量数据和日志 分布式编程模型
MapReduce
(2004年) 分布式系统,如Hadoop (2006),
Spark
(2012) , Hive (2013) NoSQL数据库流行,如Cassandra (2008) 2010s,随大数据...
Hadoop生态社区
20,809
社区成员
4,691
社区内容
发帖
与我相关
我的任务
Hadoop生态社区
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
复制链接
扫一扫
分享
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章