4,794
社区成员
发帖
与我相关
我的任务
分享
join算子是对两个K-V型RDD按照K值做连接操作,生成一个新的K-V型RDD。新RDD中仅包含两个源RDD中同时存在的K,新RDD中的V是由两个源RDD的V组成的二元组。join算子的定义如下:
def join(
self: "RDD[Tuple[K, V]]",
other: "RDD[Tuple[K, U]]",
numPartitions: Optional[int] = None,
) -> "RDD[Tuple[K, Tuple[V, U]]]"
案例:
rdd1 = sc.parallelize(["Hello Python", "Hello Spark You", "Hello Python Spark", "You know PySpark"])
# 从RDD1中筛选包含单词Spark的元素构造一个K-V型RDD:(单词, 词频)
rdd2 = rdd1.filter(lambda x: "Spark" in x.split(" ")).flatMap(lambda x: x.split(" ")).map(lambda x: (x, 1)).reduceByKey(lambda a, b: a + b)
# 从RDD1中筛选不含单词Spark的元素构造一个K-V型RDD:(单词, 单词长度)
rdd3 = rdd1.filter(lambda x: "Spark" not in x.split(" ")).flatMap(lambda x: x.split(" ")).map(lambda x: (x, len(x))).reduceByKey(lambda a, b: a)
rdd4 = rdd2.join(rdd3)
print("RDD2的数据是:", rdd2.collect())
print("RDD3的数据是:", rdd3.collect())
print("RDD4的数据是:", rdd4.collect())