spark rdd不能嵌套问题,求大佬解答一下

weixin_39345405 2018-12-12 05:31:52
1.spark里面因为闭包问题,rdd在 trasaction 操作过程中不能引用别的rdd,网上看了很多文章感觉都解释的不大好,理解的不好。
2.rdd在 trasaction 过程中,不能调用sparkContext 对象,是因为sparkContext 只能在driver端执行?而trasaction 操作已经是个闭包在executor端了?
...全文
186 2 打赏 收藏 转发到动态 举报
写回复
用AI写文章
2 条回复
切换为时间正序
请发表友善的回复…
发表回复
weixin_39345405 2018-12-12
  • 打赏
  • 举报
回复
rdd在 trasaction 操作过程中不能引用别的rdd ,有什么好的解释吗?
LinkSe7en 2018-12-12
  • 打赏
  • 举报
回复
你的理解是对的。嵌套的需求要用join来做。如果真非嵌套不可,只能将小的RDD collect并广播。在transform算子内访问广播变量的方式嵌套

1,258

社区成员

发帖
与我相关
我的任务
社区描述
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
社区管理员
  • Spark
  • shiter
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧