Spark要求的内存是多少？

bl2201 2016-05-17 10:12:28

请教大家一个简单的问题，wentSpark要求的内存是多少？

...全文

725 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

chyanch 2016-05-18

打赏
举报

回复

Spark对硬件配置的需求没有统一规定，结合应用来分析。一般将内存配置比较大，256GB每机。

本课程采用项目驱动的方式，以Spark3和Clickhouse技术为突破口，带领学员快速入门Spark3+Clickhouse数据分析，促使学员成为一名高效且优秀的大数据分析人才。学员通过本课程的学习，不仅可以掌握使用Python3进行...

spark是什么？ spark是针对于大规模数据处理的统一分析引擎，通俗点说就是基于内存计算的框架 spark和hive的区别？ 1.spark的job输出结果可保存在内存中，而MapReduce的job输出结果只能保存在磁盘中，io读取速度要比内存中慢； 2.spark以线程方式运行，MapReduce以进程的方式运行，进程要比线程耗费时间和资源； 3.spark提供了更为丰富的算子操...

1 spark的task是线程，启动更快；mr的task是进程 2 spark的很多操作是在内存进行，只有shuffle操作才会把数据落盘；mr的很多操作，包括shuffle，会把数据落盘 3 spark的shuffle阶段对中间结果文件建立有索引文件，读取更快；mr对中间文件没有建立索引文件； 4spark的shuffle阶段启用bypass时不会对中间结果文件进行排序；mr的shuffle阶段包含3次排序； 5 spark可以对反复用到的数据进行缓存，避免多次加载花费时间；mr不能把多次用到..

Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache顶级项目。目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含SparkSQL、SparkStreaming、GraphX、MLlib等子项目，Spark是基于内存计算的大数据并行计算框架。

spark为什么速度快？ spark是将数据缓存到内存中，Spark计算的时候可以从内存中获取数据缓存方式：persist、cache cache调用的是persist的默认方法，默认存储级别是内存 persist默认内存中存放

742

社区成员

901

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章