Spark聚合数据算法题,求救
有如下数据文件,格式csv,大小100G, 现存于HDFS上,
字段如下
用户,位置,起始时间,停留时长
样例数据如下
用户A,位置A,2018-12-05 00:00:00,60
用户A,位置A,2018-12-05 01:00:00,60
用户A,位置B,2018-12-05 03:00:00,60
用户A,位置A,2018-12-05 04:00:00,60
含义是用户A在位置A从0点开始停留了60分钟,那么要求如下
对同一个用户在同一个位置的连续的多条记录进行合并,保留最早起始时间和停留时间的和
期望输出如下
用户A,位置A,2018-12-05 00:00:00,120
用户A,位置B,2018-12-05 03:00:00,60
用户A,位置A,2018-12-05 04:00:00,60
请使用Spark进行处理
==============================================
原本感觉不算难,结果尝试实现一下竟然写不出来,现在脑子已经蒙了,求大神指点