rdd /dataset 多列分组聚合排序

一直有梦想的咸鱼 2019-09-07 03:09:06
按第一列分组,分组后: 再按第三列值降序排列,如果第二列相同的需要累加第三列的值,比如数据如下:

A,a,3
B,c,4
A,b,5
D,a,6
A,a,6
D,b,5
B,d,2
统计完后变成:

A,a,9
A,b,5
B,c,4
B,d,2
D,a,6
D,b,5
请问大侠们,这个如何实现啊?跪谢!spark core或者 spark sql实现都可以
...全文
78 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

1,261

社区成员

发帖
与我相关
我的任务
社区描述
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
社区管理员
  • Spark
  • shiter
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧