spark 处理表中的数据，每行与剩下的所有行比较，有没有好的好的解决方案

俩只猴 2019-03-23 06:09:22

eg：
id start_time end_time
1 2018-08-29 02:02 2018-08-29 02:10
2 2018-08-29 02:10 2018-08-29 02:21
3 2018-08-29 02:21 2018-08-29 02:25
4 2018-08-29 02:25 2018-08-29 04:57
5 2018-08-29 04:57 2018-08-29 05:49
6 2018-08-29 05:49 2018-08-29 06:17
7 2018-08-29 06:18 2018-08-29 06:27
8 2018-08-29 06:27 2018-08-29 06:35
9 2018-08-29 06:35 2018-08-29 06:54

第一次是1与剩下的2~12依次比较如果1的end_time 与 2的start_time 相差小于20分钟就合并.
第一次比较结果为：
1 2018-08-29 02:02 2018-08-29 02:21
然后用合并得到的结果与 3~12继续比较做同样的操作,
一直到不能合并，将结果保留到result，然后以剩下集合中的第一条做同样的操作,一直到不能合并将这个结果也放入result，一直这样做同样的操作，最后返回result
大家有没有什么好的方案？

...全文

268 3 打赏收藏转发到动态举报

写回复

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

张伯毅 2019-04-24

打赏
举报

回复

你把相同类型的数据抽象出来, 针对相对类型的数据进行处理. 思路: 拆分-并行计算如果不能并行,spark 就没意义了

俩只猴 2019-03-28

打赏
举报

回复

引用 1 楼 jdjwxj 的回复:

spark 有个笛卡尔积的算子，但是效率比较差

您好，这个和笛卡尔还不太像，我现在的做法是行转列，将一个用户的数据转成一列，然后写了一个函数去处理，但是效率贼慢，8000W条还好，生产上30亿条呢。。。跑都跑不动

jdjwxj 2019-03-26

打赏
举报

回复

spark 有个笛卡尔积的算子，但是效率比较差

课程的主要内容包括： 1.ZooKeeper-分布式过程协同组件 2.Hadoop3-大数据基础组件 3.Tez-Yarn底层计算引擎 4.Hive3-大数据仓库 5.Spark2实时大数据处理 6.Oozie5-大数据流程引擎课程特点： 1.最新API: Hadoop3/...

spark数据倾斜解决方案汇总 1、什么是数据倾斜在执行shuffle操作的时候，数据是按照key对每行数据进行拉取、聚合等操作的。同一个key的数据Row，一定是分配到一个task中进行处理的。当大量相同key的数据被...

相当于将数据倾斜提前到Hive中，Hive的底层是MapReduce，运行稳定，不容易失败，而Spark如果出现数据倾斜，很容易崩溃报错。 2、过滤导致少数倾斜的key 比如数据中有很多null的数据，对业务无影响的前提下，可以在...

前面给大家讲过MapReduce的数据倾斜解决方案以及优化，今天就给大家说下Spark的数据倾斜解决方案。简单来说数据倾斜就是数据的 key 的分化严重不均，造成一部分数据很多，一部分数据很少的局面，即数据分布不均。如...

六大代码优化:避免创建重复的...1默认情况下，性能最高的当然是MEMORY_ONLY，但前提是你的内存必须足够足够大，可以绰绰有余地存放下整个RDD的所有数据。因为不进行序列化与反序列化操作，就避免了这部分的性能开销;

Hadoop生态社区

20,808

社区成员

4,690

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章