yarn模式下提交的spark应用,其container资源是如何分配的?

raxanne 2018-01-10 03:48:55
基于pyspark编写的spark程序,在standone模式下提交可正常跑完,但在yarn模式下提交老是报内存超过container物理内存上限的错误,导致container自动被kill掉了(两种模式下的资源配置是一样的)。分析发现pyspark程序运行时,在executor端的java进程默认占用了executor-memory的内存大小,导致额外的python进程运行时会出现container内存不足的错误(实际上python进程运行的时候,java进程处于等待状态,所以standone模式下不会报内存不足的错误)。
请问各位大神,spark yarn 模式下,设置的executor-memory值与container内存大小值是否是一一对应关系?如何有效解决上述问题呢?(已尝试调整executor-memory的大小,仍然出现上述问题,是否需要集群哪块进行设置?)
...全文
422 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

1,258

社区成员

发帖
与我相关
我的任务
社区描述
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
社区管理员
  • Spark
  • shiter
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧