spark关联问题

部落酋长 2016-03-17 08:32:57
如何使用RDD a关联另一个RDD b,如果a、b中有相同的key,则在value中标记1

RDD A里有 list((a, 1), (b, 1), (c,1)),RDD B里有list((b, 1), (c, 1))
可以看做B是一个字典,A查看字典中有没有元素
想要的结果是RDD A中list((a, 1, 0), (b, 1, 1), (c, 1, 1))
...全文
200 1 打赏 收藏 转发到动态 举报
写回复
用AI写文章
1 条回复
切换为时间正序
请发表友善的回复…
发表回复
鹏89 2016-05-12
  • 打赏
  • 举报
回复
引用 楼主 u013566491 的回复:
如何使用RDD a关联另一个RDD b,如果a、b中有相同的key,则在value中标记1 RDD A里有 list((a, 1), (b, 1), (c,1)),RDD B里有list((b, 1), (c, 1)) 可以看做B是一个字典,A查看字典中有没有元素 想要的结果是RDD A中list((a, 1, 0), (b, 1, 1), (c, 1, 1))
a.leftOuterJoin(b).map(c=>(c._1,c._2._1,c._2._2.getOrElse(0)))

1,261

社区成员

发帖
与我相关
我的任务
社区描述
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
社区管理员
  • Spark
  • shiter
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧