关于Spark分区的疑问

liulangcheshou 2019-04-21 10:47:57
Spark分区可以被移除吗?

是RDD转化之后,上一个RDD的分区会自动被系统移除吗?还是有主动移除RDD的算子?

希望各位大佬解疑一下。
...全文
191 3 打赏 收藏 转发到动态 举报
写回复
用AI写文章
3 条回复
切换为时间正序
请发表友善的回复…
发表回复
Light Gao 2019-04-25
  • 打赏
  • 举报
回复
不是继承dependency而是每个一RDD都拥有dependency,一下是RDD源码:
abstract class RDD[T: ClassTag](
@transient private var _sc: SparkContext,
@transient private var deps: Seq[Dependency[_]]
)
Light Gao 2019-04-25
  • 打赏
  • 举报
回复
我来说两句把,是这样的,在源码中,每一个rdd都继承一个dependency类,这个Dependency就是此RDD的以来
比如现在有个RDDA是祖先RDD,那么此RDD的Dependency为NIL 空
现在有一个RDDB是RDDA的子RDD,那么此RDDB的Dependency就不再是空,而是具备值,这个值就是RDDA的引用
所以不存在自动移除问题,因为除了祖先RDD的Dependency为空外,所以RDD在源码层面上都是多了一个Dependency类罢了!
个人理解,望广大网农门批评指正
xxbb339 2019-04-24
  • 打赏
  • 举报
回复
分区是自动继承的,除非你colase或者repartion重新分区。

1,258

社区成员

发帖
与我相关
我的任务
社区描述
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
社区管理员
  • Spark
  • shiter
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧