K-V型RDD的算子-reduceByKey算子

wux_labs 2023-01-27 00:38:42

reduceByKey算子是对K-V型RDD中的元素按K进行分组，调用函数对同一分组中的V进行聚合处理，生成一个新的K-V型RDD，新RDD中的元素个数是源RDD的分组数。reduceByKey算子的定义如下：

def reduceByKey(
    self: "RDD[Tuple[K, V]]",
    func: Callable[[V, V], V],
    numPartitions: Optional[int] = None,
    partitionFunc: Callable[[K], int] = portable_hash,
) -> "RDD[Tuple[K, V]]"

案例：

rdd1 = sc.parallelize(["Hello Python", "Hello Spark You", "Hello Python Spark", "You know PySpark"])
# 构造一个K-V型RDD
rdd2 = rdd1.flatMap(lambda x: x.split(" ")).map(lambda x: (x, 1))
rdd3 = rdd2.reduceByKey(lambda a, b: a + b)

print("源K-V型RDD是：", rdd2.collect())
print("新K-V型RDD是：", rdd3.collect())

...全文

281 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

由基础到深入理解spark技术，分析架构原理及源码分析，sparksql sparkstreaming等等

从shuffle的角度来看：为了避免占用过多的内存空间，reduceByKey和groupByKey在执行的过程中，都会执行shuffle操作，将数据打散写入到磁盘的临时文件中，而reduceByKey在进行shuffle前会对数据进行预聚合的操作，致使shuffle的效率得到的提升，因为减少了落盘的数据量。如reduceByKey在shuffle操作后将不同分区的数据传输在同一个分区中进行聚合。mergeCombiners: (C, C) => C): RDD[(K, C)] //分区间合并。

Transformation处理的数据为Key-Value形式的算子大致可以分为：输入分区与输出分区一对一、聚集、连接操作。输入分区与输出分区一对一 mapValues mapValues：针对（Key，Value）型数据中的Value进行Map操作，而不对Key进行处理。方框代表RDD分区。a=>a+2代表只对（ V1， 1）数据中的1进行加2操作，返回结果为3。源码： ...

key-Value类型RDD，也叫pairRDD，RDD中元素不再为单一的value类型，每一行是（key, value）的格式。 eg：Value类型RDD：sc.makeRDD(Array(1 to 10)) key-Value类型RDD：sc.makeRDD(Array((1,"a"),(2,"b"),(3,"c"))) 1. partitionBy 2. group...

Spark-RDD-常用算子大全

数据科学社区

5,772

社区成员

64

社区内容

发帖

与我相关

我的任务

大数据个人社区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章