RDD的Action算子-fold算子

wux_labs 2023-01-28 18:22:11

fold算子是基于一个初始值对RDD中的元素调用一个函数进行聚合，返回聚合后的结果，与reduce算子类似。与reduce算子不同的是，reduce算子无初始值，而fold算子需要一个初始值。fold算子首先基于初始值在RDD的各个分区内部完成分区内聚合，再基于初始值在各个分区之间完成分区间聚合。fold算子的定义如下：

def fold(self: "RDD[T]", zeroValue: T, op: Callable[[T, T], T]) -> T

案例：

rdd1 = sc.parallelize(["Hello Python", "Hello Spark You", "Hello Python Spark", "You know PySpark"])

print("RDD1中元素的总长度是：", rdd1.map(lambda x: len(x)).fold(5, lambda a, b: a + b))

...全文

664 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

Spark算子：RDD行动Action操作(3)–aggregate、fold、lookup 关键字：Spark算子、Spark函数、Spark RDD行动Action、aggregate、fold、lookup aggregate def aggregate[U](zeroValue: U)(seqOp: (U, T) ⇒ U, combOp: (U, U) ⇒ U)(implicit...

关键字：Spark算子、Spark函数、Spark RDD行动Action、aggregate、fold、lookup aggregate def aggregate[U](zeroValue: U)(seqOp: (U, T) ⇒ U, combOp: (U, U) ⇒ U)(implicit arg0: ClassTag[U]): U aggregate用户聚合RDD中的元素，先使用seqOp将RDD中每个分区中的T类型元素聚合成U类型，再使用combOp将之前每个分区聚合后的U类型聚合成U类型，

Spark RDD算子（九）基本的Action（行动）算子first、take、collect、count、countByValue、reduce、aggregate、fold、topfirstScala版本Java版本takeScala版本Java版本collectScala版本 first 返回第一个元素 Scala版本 package nj.zb.sparkstu import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf

章节目录一、firstScala版本Java版本二、takeScala版本Java版本三、collectScala版本Java版本四、countScala版本Java版本五、countByValueScala版本Java版本六、reduceScala版本Java版本七、aggregateScala版本八、foldScala版本Java版本九、topScala版本Java版本十、takeOrderedScala版本Java版本十一、foreachScala版本Java版本一、first 返回第一个元素 Sc

collect算子：将RDD各个分区内的数据，统一收集到Driver中，形成一个List对象。RDD是分布式对象，数据量可以很大，所以用这个算子之前需要知道如果数据集结果很大，就会把driver内存撑爆，出现oom。结果如下图所示在HDFS WebUI上查看。

数据科学社区

5,934

社区成员

64

社区内容

发帖

与我相关

我的任务

大数据个人社区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章