如何使用spark统计某个value的出现次数，并且统计出出现次数最多的value

qq_16046321 2018-01-03 06:39:59

例如原数据为：
("aaa","aa")
("aaa","aa")
("aaa","cc")
("bbb","dd")
("bbb","dd")
("bbb","dd")

计算后结果：
("aaa",(("aa",2),("cc",1)))
("bbb",(("dd",3)))

可知：
在key为aaa的数据中，aa出现次数最多，出现2次
在key为bbb的数据中，dd出现次数最多，出现3次

PS：如使用MapReduce则只需要在reduce阶段做一个map来统计即可，但是本人初学spark，不太清楚该如何用spark统计

...全文

4058 5 打赏收藏转发到动态举报

写回复

用AI写文章

5 条回复

切换为时间正序

请发表友善的回复…

发表回复

qq_16046321 2018-01-18

打赏
举报

额，明白您的意思了，我开始没用sc.parallelize加载list，非常感谢

张某码 2018-01-17

打赏
举报


val  windowWordCounts = sc.parallelize(List("aaa"->"aa","aaa"->"aa","aaa"->"cc","bbb"->"dd","bbb"->"dd","bbb"->"dd"))
val mapedRdd = windowWordCounts.map(rdd=>{
      val key = rdd._1+"_"+rdd._2
      (key,1L)
    })
  val reduceRDD = mapedRdd.reduceByKey(_+_)
 val res =  reduceRDD.collect

结果为 Array((bbb_dd,3), (aaa_aa,2), (aaa_cc,1))

张某码 2018-01-17

打赏
举报

引用 2 楼 qq_16046321 的回复:

[quote=引用 1 楼 zhang5059 的回复:] 你如果只是想知道在 “key为aaa的数据中，aa出现次数最多，出现2次” 可以这样
 
val mapedRdd = windowWordCounts.map(rdd=>{
      val key = rdd._1+"_"+rdd._2
      (key,1L)
    })
  val reduceRDD = mapedRdd.reduceByKey(_+_)
reduceRDD 这个RDD中的数据就是 (aaa_aa 2)(aaa_cc 1)(bbb_bb 3)

mapedRdd无法用reduceByKey这个方法啊，只能用reduce这个方法，我试了scala2.10和2.13都不行[/quote] 如果你的RDD不是键值对那么是不能用 reduceByKey算子的

qq_16046321 2018-01-17

打赏
举报

引用 1 楼 zhang5059 的回复:

你如果只是想知道在 “key为aaa的数据中，aa出现次数最多，出现2次” 可以这样
 
val mapedRdd = windowWordCounts.map(rdd=>{
      val key = rdd._1+"_"+rdd._2
      (key,1L)
    })
  val reduceRDD = mapedRdd.reduceByKey(_+_)
reduceRDD 这个RDD中的数据就是 (aaa_aa 2)(aaa_cc 1)(bbb_bb 3)

mapedRdd无法用reduceByKey这个方法啊，只能用reduce这个方法，我试了scala2.10和2.13都不行

张某码 2018-01-16

打赏
举报

你如果只是想知道在 “key为aaa的数据中，aa出现次数最多，出现2次” 可以这样

 
val mapedRdd = windowWordCounts.map(rdd=>{
      val key = rdd._1+"_"+rdd._2
      (key,1L)
    })
  val reduceRDD = mapedRdd.reduceByKey(_+_)

reduceRDD 这个RDD中的数据就是 (aaa_aa 2)(aaa_cc 1)(bbb_bb 3)

上一节我们简单介绍了RDD中转化和执行操作的用法，本节将通过一个具体的示例来加深对RDD的认识。一.需求统计本地文件中单词出现次数二.操作流程 1.读取外部文件创建JavaRDD; 2.通过flatMap转化操作切分字符串，获取单词新JavaRDD; 3.通过mapToPair，以key为单词，value统一为1的键值JavaPairRDD; 4.通过reduceByKey，累计叠加每个key，统计单词出现次数；三.代码实现四.下载代码代码地址：http://downlo

Spark RDD案例：词频统计

 数据源：小米，华为，小米，三星，苹果，华为，华为，酷派　　 Java代码： public class WorkCount { public static void main(String[] a) { SparkConf conf = new SparkConf(); //指定运行模式 /** ...

使用Spark进行简单的数据统计给定数据集为各年龄段不同性别的用户对电影观看情况的一个统计主要用了Spark中算子的一些操作相关的数据文件 1. 年龄段在“18-24”的男性年轻人，最喜欢看哪10部首先读取文件，在用户文件中读取符合条件的年轻人 val conf =new SparkConf().setAppName("read_gz_file...

Spark SQL 词频案例分析

Spark

1,258

社区成员

1,168

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章