求教spark如何使用窗口遍历整个RDD？

baidu_32921145 2017-05-09 03:36:51

在把一个东西从Hadoop上移植到Spark上的时候遇到了一些问题，Hadoop这个东西叫Dedoop，适用于数据去重或者链接。其原理是排序后的数据集使用一个大小为k的窗口遍历整个数据集，遍历的同时计算窗口内部的数据的互相之间的相似度。Hadoop上实现这个非常方便，只需要分组之后每个reduce做一次遍历，然后再把每个reduce的头尾拿出来再做一次reduce就好，但是在spark上遇到了这个窗口遍历的难题。

因为spark是把RDD当做整体来操作，所以我觉得这种窗口算法应该是很容易实现的才对，但是刚刚接触spark，查了很多资料，没有发现适用的办法。时间又很紧迫，所以只能来求教大家了！

目前想的是把数据当做key，排序后foreach直接使用一个窗口遍历，这样在每台机器上至少可以保证机器上面的数据已经经过计算，但是每台机器上的数据集的头尾就很难办了，第i台机器的数据尾需要与第i+1台机器的数据头进行一次计算，在spark上没有发现较好的办法。

希望大家赐教！！！非常感谢！

...全文

329 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

1.RDD转换RDD的所有转换操作都不会进行真正的计算1.1单个RDD转换操作# 创建测试RDDval rdd = sc.parallelize(Array("hello world","java","scala easy"))# 1.map():遍历RDD中的每个元素，将返回值构成新的RDD，...

通常我们Spark程序处理数据时，会遇到将rdd的数据进行观察的情况，但是 RDD[String]类型又不能直接打印出来结果，或者说有遇到需要将rdd中的结果数据取出作为变量继续计算的情况。 1）使用 collect 函数从collect...

Map操作主要是遍历rdd中的每个元素，对每个元素进行操作并返回，代码如下：public static void myMap(){List numbers=Arrays.asList(1,2,3,4,5);SparkConf conf=new SparkConf().setMaster("local").setAppName(...

即便是对于一些有Spark使用经验的人，要想说清楚什么是RDD，以及为什么需要RDD还是一件比较困难的事情。本文首先解释第二个问题。为什么需要RDD？以下从数据处理模型、依赖划分原则、数据处理效率及容错处理4个...

...但其中，我们曾提到过Spark程序的核心，也就是弹性分布式数据集(RDD)。但到底什么是RDD,它是做什么用的呢？本篇博客，我们就来详细讨论它们的使用情况。文章目录RDD概述1.什么是RDD2.R...

1,258

社区成员

1,168

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章