RDD的Action算子-reduce算子

wux_labs 2023-01-28 18:21:22

reduce算子是对RDD中的元素调用一个函数进行聚合,返回聚合后的结果。聚合过程是先由第一个元素和第二个元素运算得到一个返回值,再用返回值与第三个元素运算得到一个返回值,依次类推,直到所有元素都参与了运算,得到最终的返回值即为聚合结果。reduce算子的定义如下:

def reduce(self: "RDD[T]", f: Callable[[T, T], T]) -> T

案例:

rdd1 = sc.parallelize(["Hello Python", "Hello Spark You", "Hello Python Spark", "You know PySpark"])

print("RDD1中元素的总长度是:", rdd1.map(lambda x: len(x)).reduce(lambda a, b: a + b))
...全文
265 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

5,710

社区成员

发帖
与我相关
我的任务
社区描述
姓什么?我姓大。 大什么?大数据。 有多大?lambda。 家族成员有哪些?Hadoop、Hive、Spark。 开发语言有什么?Java、Python、Scala。
大数据 个人社区
社区管理员
  • wux_labs
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧