spark 处理表中的数据,每行与剩下的所有行比较,有没有好的好的解决方案
俩只猴 2019-03-23 06:09:22 eg:
id start_time end_time
1 2018-08-29 02:02 2018-08-29 02:10
2 2018-08-29 02:10 2018-08-29 02:21
3 2018-08-29 02:21 2018-08-29 02:25
4 2018-08-29 02:25 2018-08-29 04:57
5 2018-08-29 04:57 2018-08-29 05:49
6 2018-08-29 05:49 2018-08-29 06:17
7 2018-08-29 06:18 2018-08-29 06:27
8 2018-08-29 06:27 2018-08-29 06:35
9 2018-08-29 06:35 2018-08-29 06:54
第一次是1与剩下的2~12依次比较 如果1的end_time 与 2的start_time 相差小于20分钟就合并.
第一次比较结果为:
1 2018-08-29 02:02 2018-08-29 02:21
然后用合并得到的结果与 3~12继续比较做同样的操作,
一直到不能合并,将结果保留到result,然后以剩下集合中的第一条做同样的操作,一直到不能合并将这个结果也放入result,一直这样做同样的操作,最后返回result
大家有没有什么好的方案?