为什么spark所有的计算都集中到了一台机器上，所有的executor都用了一台机器上的？

会飞的犬良 2018-10-11 06:53:12

spark计算的时候，机器不是一台，但是所有的计算都只用了一台机器上的资源，但是。但是数据源是多台的机器上的。!

这是什么问题，肯定是影响计算的，并且 Locality Level 都是any的，说明数据都转移到了这台机器上来计算了。哪位朋友走过路过，帮忙看下什么问题。

...全文

644 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

会飞的犬良 2018-10-16

打赏
举报

回复

问题已经解决了，通过查看work的错误日志发现，slave节点与主节点netty通信出现了异常，然后查看SPARK_CLASSPATH路径下的netty相关的jar包冲突了。去掉一个就好了。

用户应用new SparkContext后，集群就会为在Worker上分配executor,但是增加executor的时候需要考虑好内存消耗，因为一台机器的内存分配给越多的executor，每个executor的内存就越小，以致出现过多的数据spill over...

使用jps查看进程，发现每一个节点机器上都有Workers，但是在使用standalone模式提交一个spark任务时，通过命令行中的logging information发现生成的executor仅仅在一个节点机器的ip上。上网搜索以后发现遇到类似...

本课程讲解Spark 3.0.0 ...SchedulerBackend 解析：SchedulerBackend 原理剖析、SchedulerBackend 源码解析、Spark 程序的注册机制、Spark 程序对计算资源Executor 的管理；打通Spark 系统运行内幕机制循环流程。

Driver：Driver是Spark中Application也即代码的发布程序，可以理解为我们编写spark代码的主程序，因此只有一个，负责对spark中SparkContext对象进行创建，其中SparkContext对象负责创建Spark中的RDD（Spark中的基本...

在Spark2.3中，您可以在启动时通过设置 spark.executor.instances 和 spark.executor.hostname 属性来指定执行器在固定的主机上运行。具体来说，您可以使用以下命令启动Spark2.3应用程序： $ spark-submit \ --...

Hadoop生态社区

20,808

社区成员

4,690

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章