RDD的分区操作算子-coalesce算子

wux_labs 2023-01-28 18:17:27

coalesce算子用来对RDD的分区执行重新分区,根据指定的分区数,重新对RDD的数据进行分区,生成一个新的RDD。coalesce算子的定义如下:

def coalesce(self: "RDD[T]", numPartitions: int, shuffle: bool = False) -> "RDD[T]"

案例:

rdd1 = sc.parallelize(["Hello Python", "Hello Spark You", "Hello Python Spark", "You know PySpark"])
rdd2 = rdd1.coalesce(4)
rdd3 = rdd1.coalesce(4, shuffle=True)
rdd4 = rdd1.coalesce(1)

print("RDD1的分区数是:", rdd1.getNumPartitions())
print("RDD2的分区数是:", rdd2.getNumPartitions())
print("RDD3的分区数是:", rdd3.getNumPartitions())
print("RDD4的分区数是:", rdd4.getNumPartitions())
...全文
134 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

4,657

社区成员

发帖
与我相关
我的任务
社区描述
姓什么?我姓大。 大什么?大数据。 有多大?lambda。 家族成员有哪些?Hadoop、Hive、Spark。 开发语言有什么?Java、Python、Scala。
大数据 个人社区
社区管理员
  • wux_labs
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧