关于spark map(fun1).collect.foreach(println) 与spark.map(func1).foreach(println)的疑问

ryanlunar 2017-04-26 09:14:19

我从分布式表格系统中读取数据放入rdd1中[T,U]，然后调用map只获取U，然后一个调用collect一个不调用collect，分别打印U中的某个成员变量row，打出的结果竟然不一样。
case1 输出数据完全与分布式表格系统中数据一致，
case2 虽然数据量是一样的，但是输出的时候出现了较多的重复的数据。

具体场景如下：
case 1
var rddTmp = rdd1.map(r => (r._2))

println("=====================>" + rddTmp.count() + "<========================")
rddTmp.foreach(
(result: Result) => {
var rStr = new String(result.getRow())
println(rStr)
}
)
执行结果片段
row148
row166
row169
row180
row183
row211
row212
row231
row244
row247
row248
row252
row258
case 2
var rddTmp = rdd1.map(r => (r._2)).collect()

println("=====================>" + rddTmp.length + "<========================")
rddTmp.foreach(
(result: Result) => {
var rStr = new String(result.getRow())
println(rStr)
}
)

执行结果片段
row258
row258
row258
row258
row258
row258
row258
row258
row258
row258
row258
row258
row258

...全文

266 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

mmmc_a 2017-05-05

打赏
举报

回复

你确定你的数据源一样吗？

spark算子总体上分为两类，transformations（转换算子）和actions(行动算子） 1、transformations（转换算子） 1.1Value类型 1.1.1map(func):返回一个新的RDD，该RDD由每一个输入元素经过func函数转换后组成 scala> var source=sc.parallelize(1 to 10) source: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[9] at pa

Spark SQL 中org.apache.spark.sql.functions归纳注意，这里使用的是scala 2.12.12，spark版本是最新的3.0.1版本 1. Sort functions /** * Returns a sort expression based on ascending order of the column. * {{{ * df.sort(asc("dept"), desc("age")) * }}} * * @group s

1.keys功能：返回所有键值对的key示例val list = List("hadoop","spark","hive","spark")val rdd = sc.parallelize(list)val pairRdd = rdd.map(x => (x,1))pairRdd.keys.collect.foreach(println)结果hadoopsparkhivesparklist:...

目录一、Lambda表达式 java内置的四大核心函数式接口构造器引用数组引用Function中的Rapply(T t) 方法引用的使用：二、StreamAPI 创建Stream方式一：通过集合创建Stream方式二：通过数组一些常用方法：筛选与切片映射排序 Stream的终止操作匹配与查找归约收集 Optional类（没写啥）一、Lambda表达式 1.举例：(o1，o2) -> Integer.compare(o1,.

1.keys 功能：　　返回所有键值对的key 示例 1 2 3 4 val list = List("hadoop","spark","hive","spark") val rdd = sc.parallelize(list) val pairRdd = rdd.map(x => (x,1)) pairRdd.keys.collect.foreach(println) 结果 1 ...

1,261

社区成员

1,169

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章