我想把一个spark dataframe内的数据与另一个dataframe比较大小,然后筛选出结果,请问我应该使用什么函数?求大神解答,感觉很简单

ouaimu 2018-10-26 03:11:57
我想把一个spark dataframe内的数据与另一个dataframe比较大小,然后筛选出结果,请问我应该使用什么函数?求大神解答,感觉很简单
...全文
743 2 打赏 收藏 转发到动态 举报
写回复
用AI写文章
2 条回复
切换为时间正序
请发表友善的回复…
发表回复
蹩脚法师 2018-11-05
  • 打赏
  • 举报
回复
如果我理解的没错的话,这样可以做,但需要保证两个df内的分片数和每个分片内的数据个数一样。
f1.rdd.zip(df2.rdd).map{case Tuple2(row1, row2) =>
        val data1 = row1.getInt(0)
        val data2 = row1.getInt(0)
        data1 > data2
    }
      .filter(_)
蹩脚法师 2018-11-05
  • 打赏
  • 举报
回复
是df1第n条和df2中第n条比较吗?,df1和df2数据量相同吗

1,275

社区成员

发帖
与我相关
我的任务
社区描述
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
社区管理员
  • Spark
  • shiter
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧