RDD的分区操作算子-repartition算子

wux_labs 2023-01-28 18:16:37

repartition算子用来对RDD的分区执行重新分区，根据指定的分区数，重新对RDD的数据进行Shuffle，生成一个新的RDD。repartition算子的定义如下：

def repartition(self: "RDD[T]", numPartitions: int) -> "RDD[T]"

案例：

rdd1 = sc.parallelize(["Hello Python", "Hello Spark You", "Hello Python Spark", "You know PySpark"])
rdd2 = rdd1.repartition(4)
rdd3 = rdd1.repartition(1)

print("RDD1的分区数是：", rdd1.getNumPartitions())
print("RDD2的分区数是：", rdd2.getNumPartitions())
print("RDD3的分区数是：", rdd3.getNumPartitions())

...全文

632 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

RDD转换操作算子 — 分区类 repartition — 表示重新分区，可大可小 ==> shuffle默认为true coalesce — 表示重分区时，不可增大 ==> shuffle默认为false，修改为true即可增大 @Test def repartitionTest: Unit ={ // 创建RDD,赋予初始2个分区 val rdd = sc.parallelize(Seq(1,2,3,4,5,6,7,8),2) println(rdd.

一、Rdd转化算子 1、【mapPartitions】遍历出集合（rdd）中的每一个元素，并对元素可以进一步操作；是对每个分区中的数据进行迭代； 2、【mapPartitionswithIndex】是对rdd中每个分区的遍历操作； 3、【repartition】可以对rdd进行重新分区，可以是超过原有分区个数，也可以小于原有分区个数。默认会执行shuffle 即对分区中的数据重新计算； 4、【coalesce】算子也可以对rdd进行重新分区，这个分区只能是小于原有分区的值。coalesce是不会进

发送到发送到发

1、 map和foreach算子都有对应的分区算子，分别是mapPartitions和foreachPartition2、分区算子适用于有反复消耗资源的操作，例如：文件的打开和关闭、数据库的连接和关闭等，能够减少操作的次数。3、如果没有反复消耗资源的操作，调用两类算子，效果一样。1、这两个算子都是用来改变RDD的分区数。2、 repartition 既能够增大RDD分区数，也能够减小RDD分区数。但是都会导致发生Shuffle过程。

上一节中我们介绍了如何使用 `coalesce` 这个算子来讲数据重新分区，不过该函数一般是用于缩减分区，不过也可以扩增分区，不过一般我们更习惯使用 `repartition` 这个算子来扩大分区，不过没有硬性要求，只不过个人喜好，不过 `repartition` 这个算子会默认执行 `shuffle` 操作。

数据科学社区

5,934

社区成员

64

社区内容

发帖

与我相关

我的任务

大数据个人社区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章