RDD的五个特性之3

wux_labs 2023-01-25 01:07:25

A list of dependencies on other RDDs,RDD之间的依赖关系。RDD的每次转换都会生成一个新的RDD,所以RDD之间就会形成类似于流水线一样的前后依赖关系。

rdd1 = sc.textFile("hdfs://node1:8020/words.txt")
rdd2 = rdd1.flatMap(lambda x: x.split(" "))
rdd3 = rdd2.map(lambda x: (x, 1))
rdd4 = rdd3.reduceByKey(lambda a, b: a + b)
rdd4.collect()
print(rdd4.toDebugString())

执行代码,输出内容为:

(2) PythonRDD[15] at collect at /tmp/ipykernel_43451/2680249566.py:5 []
 |  MapPartitionsRDD[14] at mapPartitions at PythonRDD.scala:145 []
 |  ShuffledRDD[13] at partitionBy at NativeMethodAccessorImpl.java:0 []
 +-(2) PairwiseRDD[12] at reduceByKey at /tmp/ipykernel_43451/2680249566.py:4 []
    |  PythonRDD[11] at reduceByKey at /tmp/ipykernel_43451/2680249566.py:4 []
    |  hdfs://node1:8020/words.txt MapPartitionsRDD[10] at textFile at NativeMethodAccessorImpl.java:0 []
    |  hdfs://node1:8020/words.txt HadoopRDD[9] at textFile at NativeMethodAccessorImpl.java:0 []
...全文
13 回复 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

5,754

社区成员

发帖
与我相关
我的任务
社区描述
姓什么?我姓大。 大什么?大数据。 有多大?lambda。 家族成员有哪些?Hadoop、Hive、Spark。 开发语言有什么?Java、Python、Scala。
大数据 个人社区
社区管理员
  • wux_labs
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧