Spark聚合数据算法题，求救

不住在隔壁的老王 2018-12-06 01:24:50

有如下数据文件，格式csv，大小100G, 现存于HDFS上，字段如下用户，位置，起始时间，停留时长样例数据如下用户A,位置A,2018-12-05 00:00:00,60 用户A,位置A,2018-12-05 01:00:00,60 用户A,位置B,2018-12-05 03:00:00,60 用户A,位置A,2018-12-05 04:00:00,60 含义是用户A在位置A从0点开始停留了60分钟，那么要求如下对同一个用户在同一个位置的连续的多条记录进行合并，保留最早起始时间和停留时间的和期望输出如下用户A,位置A,2018-12-05 00:00:00,120 用户A,位置B,2018-12-05 03:00:00,60 用户A,位置A,2018-12-05 04:00:00,60 请使用Spark进行处理 ============================================== 原本感觉不算难，结果尝试实现一下竟然写不出来，现在脑子已经蒙了，求大神指点

...全文

198 3 打赏收藏转发到动态举报

写回复

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

不住在隔壁的老王 2018-12-24

打赏
举报

回复

引用 2 楼提笔墨砚的回复:

是这个意思吗 select 用户，位置，min(开始时间),sum(停留时间) from 表名 group by 用户，位置

不是, 我自己实现出来了, 比较复杂

提笔墨砚 2018-12-14

打赏
举报

回复

是这个意思吗
select 用户，位置，min(开始时间),sum(停留时间) from 表名 group by 用户，位置

不住在隔壁的老王 2018-12-06

打赏
举报

回复

捞一捞，有没有人给个思路

【spark论文翻译】An Architecture for Fast and General Data Processing on Large Cluster 大型集群上的快速和通用数据处理架构。CSDN CODE翻译社区出品。之前上传的版本图表有问题，这版已经修复。请更新谢谢。

目录1 相似度算法1.1 欧几里德距离算法1.2 基于夹角余弦相似度算法2 最近邻域3 交替最小二乘法3.1 最小二乘法3.2 交替最小二乘法3.3 ALS算法流程3.4 ALS算法实战3.4.1 数据说明3.4.2 数据建模3.4.3 实战3.4.4 优化...

spark进阶内容，手把手教你实现UDAF，实现自己的average聚合函数

1、Hadoop MapReduce要求每个步骤间的数据序列化到磁盘，所以I/O成本很高，导致交互分析和迭代算法开销很大；Spark 提供了内存计算，把中间结果放到内存中，带来了更高的迭代运算效率。通过支持有向无环图（DAG）的...

三者的经典解决办法分别为：爬虫技术（Spider）、倒排索引（Inversed-Index）数据结构、排序算法（TF-IDF、PageRank等）解决。当然此处未考虑技术细节如如何应对反爬虫、如何分词等，现代搜索引擎也绝不是简单的几个...

1,258

社区成员

1,168

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章