社区
Spark
帖子详情
spark rdd不能嵌套问题,求大佬解答一下
weixin_39345405
2018-12-12 05:31:52
1.spark里面因为闭包问题,rdd在 trasaction 操作过程中不能引用别的rdd,网上看了很多文章感觉都解释的不大好,理解的不好。
2.rdd在 trasaction 过程中,不能调用sparkContext 对象,是因为sparkContext 只能在driver端执行?而trasaction 操作已经是个闭包在executor端了?
...全文
186
2
打赏
收藏
spark rdd不能嵌套问题,求大佬解答一下
1.spark里面因为闭包问题,rdd在 trasaction 操作过程中不能引用别的rdd,网上看了很多文章感觉都解释的不大好,理解的不好。 2.rdd在 trasaction 过程中,不能调用sparkContext 对象,是因为sparkContext 只能在driver端执行?而trasaction 操作已经是个闭包在executor端了?
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
2 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
weixin_39345405
2018-12-12
打赏
举报
回复
rdd在 trasaction 操作过程中不能引用别的rdd ,有什么好的解释吗?
LinkSe7en
2018-12-12
打赏
举报
回复
你的理解是对的。嵌套的需求要用join来做。如果真非嵌套不可,只能将小的RDD collect并广播。在transform算子内访问广播变量的方式嵌套
Spark
的灵魂:
RDD
和DataSet
本课重点讲解
Spark
的灵魂
RDD
和DataSet。讲解
RDD
的定义、五大特性剖析及DataSet的定义和内部机制剖析;对
RDD
弹性特性七个方面进行解析;讲解
RDD
依赖关系,包括窄依赖、宽依赖; 解析
Spark
中DAG 逻辑视图;对
RDD
...
【
RDD
】创建
RDD
及读取文件
Spark
shell提供了
Spark
Context变量,使用创建
RDD
。 使用scala时,从中获取对象,并使用来创建
rdd
,这个函数还有另一个signature,它附加了一个整数参数来指定分区的数量。分区是Apache
Spark
中并行性的基本单位。...
Spark
官网调优解析
建议:大家在读文章的时候尽量先看看文字描述,这样的话可能对
大佬
们来说更容易理解一些,么么么哒么么么么么大!~ 由于大多数
Spark
计算都是基于内存的,
Spark
程序可能会受到集群中任何资源(Cpu、网络带宽、内存)的...
Spark
面试
是我自己作为面试者和作为面试官都会被问到或者问到别人的
问题
,这个总结里面有大量参考了网上和书上各位老师、
大佬
的一些原文答案,只是希望可以给出更好的回答,一般上我都会把原文链接贴上,如有侵权请联系删除!...
Spark
基础
spark
基础,出自某位
大佬
心得
Spark
1,258
社区成员
1,168
社区内容
发帖
与我相关
我的任务
Spark
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
复制链接
扫一扫
分享
社区描述
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章