RDD的Action算子-reduce算子

wux_labs 2023-01-28 18:21:22

reduce算子是对RDD中的元素调用一个函数进行聚合，返回聚合后的结果。聚合过程是先由第一个元素和第二个元素运算得到一个返回值，再用返回值与第三个元素运算得到一个返回值，依次类推，直到所有元素都参与了运算，得到最终的返回值即为聚合结果。reduce算子的定义如下：

def reduce(self: "RDD[T]", f: Callable[[T, T], T]) -> T

案例：

rdd1 = sc.parallelize(["Hello Python", "Hello Spark You", "Hello Python Spark", "You know PySpark"])

print("RDD1中元素的总长度是：", rdd1.map(lambda x: len(x)).reduce(lambda a, b: a + b))

...全文

654 回复打赏收藏转发到动态举报

写回复

用AI写文章

切换为时间正序

请发表友善的回复…

发表回复

一、RDD算子简介提供一优秀RDD讲解链接：https://blog.csdn.net/fortuna_i/article/details/81170565 spark在运行过程中通过算子对RDD进行计算，算子是RDD中定义的函数，可以对RDD中数据进行转换和操作，如下图输入：spark程序中数据从外部数据空间输入到spark中的数据块，通过BlockManager进行管理运行：...

Spark RDD算子（九）基本的Action（行动）算子first、take、collect、count、countByValue、reduce、aggregate、fold、topfirstScala版本Java版本takeScala版本Java版本collectScala版本 first 返回第一个元素 Scala版本 package nj.zb.sparkstu import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf

关键字：Spark算子、Spark RDD行动Action、first、count、reduce、collect first def first(): T first返回RDD中的第一个元素，不排序。 scala> var rdd1 = sc.makeRDD(Array(("A","1"),("B","2"),("C","3")),2)rdd1: org.apache.spar

【代码】RDD算子——Action 操作。

数据科学社区

5,934

社区成员

社区内容

发帖

与我相关

我的任务

大数据个人社区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章