5,710
社区成员




reduce算子是对RDD中的元素调用一个函数进行聚合,返回聚合后的结果。聚合过程是先由第一个元素和第二个元素运算得到一个返回值,再用返回值与第三个元素运算得到一个返回值,依次类推,直到所有元素都参与了运算,得到最终的返回值即为聚合结果。reduce算子的定义如下:
def reduce(self: "RDD[T]", f: Callable[[T, T], T]) -> T
案例:
rdd1 = sc.parallelize(["Hello Python", "Hello Spark You", "Hello Python Spark", "You know PySpark"])
print("RDD1中元素的总长度是:", rdd1.map(lambda x: len(x)).reduce(lambda a, b: a + b))