rdd map操作为啥集中在一个executor上实施

qq_33801096 2019-09-10 08:46:14

python写了一个很简单的程序:
conf=Sparkconf().setMaster("spark://123.43.54.12:7077").setAppname("test")
sc=SparkContext(conf=conf)
def ct(p):
temp=0
for i in range(10000):
tempi=math.sin(i)+math.cos(i)
temp=temp+tempi
return temp

p_list=list(range(100000))
p_rdd=sc.parallelize(p_list,4)
gt_value=p_rdd.map(lambda p:ct(p)).coalesce(144)

sc.stop()

每次执行都发现，仅仅在一个executor上运行，每次执行，且worker的地址可能会变化。根本不能使用所有的执行器。
提交语法：
submit --master spark://123.43.54.12:7077 --deploy-mode client --num-executors 2 --executor-cores 1

很是奇怪。操作系统的逻辑cpu3个。。

...全文

77 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

本课重点讲解Spark 的灵魂RDD 和DataSet。讲解RDD 的定义、五大特性剖析及DataSet的定义和内部机制...通过一个WordCount 实例，解析Spark RDD内部机制；基于DataSet的代码，深入分析DataSet一步步转化成为RDD 的过程。

1.14 sortBy(func,[ascending...（2）使每个元素跟所在分区形成一个元组组成一个新的RDD。1.4 map()和mapPartition()的区别。1.5 flatMap(func) 案例。（2）使每个元素*2组成新的RDD。（2）创建一个只有一个分区的RDD。

梳理一下Spark中关于并发度涉及的几个概念File，Block，Split，Task，Partition，RDD以及节点数、Executor数、core数目的关系。输入可能以多个文件的形式存储在HDFS上，每个File都包含了很多块，称为Block。当...

任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。举例： //设置spark的配置文件信息 val sparkConf: SparkConf = new SparkConf().setAppName(“WordCount”).setMaster(“local”) /...

第一个调用iterator的地方现在知道compute方法的入口方法时iterator方法，即整个调用链是从iterator方法开始的，既然rdd的处理调用是一个向上迭代的过程，那么第一个调用iterator的地方在哪里呢？RDD算子最终会被...

1,261

社区成员

1,169

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章