Spark聚合数据算法题,求救

不住在隔壁的老王 2018-12-06 01:24:50
有如下数据文件,格式csv,大小100G, 现存于HDFS上, 字段如下 用户,位置,起始时间,停留时长 样例数据如下 用户A,位置A,2018-12-05 00:00:00,60 用户A,位置A,2018-12-05 01:00:00,60 用户A,位置B,2018-12-05 03:00:00,60 用户A,位置A,2018-12-05 04:00:00,60 含义是用户A在位置A从0点开始停留了60分钟,那么要求如下 对同一个用户在同一个位置的连续的多条记录进行合并,保留最早起始时间和停留时间的和 期望输出如下 用户A,位置A,2018-12-05 00:00:00,120 用户A,位置B,2018-12-05 03:00:00,60 用户A,位置A,2018-12-05 04:00:00,60 请使用Spark进行处理 ============================================== 原本感觉不算难,结果尝试实现一下竟然写不出来,现在脑子已经蒙了,求大神指点
...全文
198 3 打赏 收藏 转发到动态 举报
写回复
用AI写文章
3 条回复
切换为时间正序
请发表友善的回复…
发表回复
  • 打赏
  • 举报
回复
引用 2 楼 提笔墨砚 的回复:
是这个意思吗 select 用户,位置,min(开始时间),sum(停留时间) from 表名 group by 用户,位置
不是, 我自己实现出来了, 比较复杂
提笔墨砚 2018-12-14
  • 打赏
  • 举报
回复
是这个意思吗
select 用户,位置,min(开始时间),sum(停留时间) from 表名 group by 用户,位置
  • 打赏
  • 举报
回复
捞一捞,有没有人给个思路

1,258

社区成员

发帖
与我相关
我的任务
社区描述
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
社区管理员
  • Spark
  • shiter
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧