4,657
社区成员
发帖
与我相关
我的任务
分享
fold算子是基于一个初始值对RDD中的元素调用一个函数进行聚合,返回聚合后的结果,与reduce算子类似。与reduce算子不同的是,reduce算子无初始值,而fold算子需要一个初始值。fold算子首先基于初始值在RDD的各个分区内部完成分区内聚合,再基于初始值在各个分区之间完成分区间聚合。fold算子的定义如下:
def fold(self: "RDD[T]", zeroValue: T, op: Callable[[T, T], T]) -> T
案例:
rdd1 = sc.parallelize(["Hello Python", "Hello Spark You", "Hello Python Spark", "You know PySpark"])
print("RDD1中元素的总长度是:", rdd1.map(lambda x: len(x)).fold(5, lambda a, b: a + b))