spark rdd 分组统计多列聚合

我的天空永远蔚蓝 2018-06-10 09:57:03

数据如下
a,1,3
a,2,4
b,1,1
我想根据第一列统计出
a,3,7
b,1,1
用 rdd实现

...全文

3962 7 打赏收藏转发到动态举报

写回复

7 条回复

切换为时间正序

请发表友善的回复…

发表回复

忧云 2019-06-06

打赏
举报

回复

上面三行生成三个RDD，然后map(a->{a.split(",")[0],a.split(",")[1]+a.split(",")[2]})映射成以第0个为主的元组,出来三个元组的RDD，再进行join，在里面进行累加后map输入格式，进行合并相加就出现外面的数据了。

zsup 2018-12-11

打赏
举报

回复

我把测试数据放在/home下名为text.txt，步骤如下你可以参考
val rdd = sc.textFile("file:///home/text.txt")
case class Aoo(name:String,num1:Int,num2:Int)
val df = rdd.map(_.split(" ")).map(aoo => Aoo(aoo(0),aoo(1).trim.toInt,aoo(2).trim.toInt)).toDF()
df.show
df.createOrReplaceTempView(aoo)
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
sqlContext.sql("from(select name,sum(num1) as sum from aoo group by name)num1 join (select name,sum(num2) as sum from aoo group by name)num2 on num1.name=num2.name select num1.name,num1.sum,num2.sum order by name").show
测试结果如下

我再做测试数据的时候写成了b,1,3,见谅见谅

_路人_ 2018-06-12

打赏
举报

回复


import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object RDDTest {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("RDDTest").setMaster("local"
)
    val sc = new SparkContext(conf);

    val input = sc.parallelize(List(
      List("a", 1, 3),
      List("a", 2, 4),
      List("b", 1, 1)), 3)

    // 根据数据数据类型,转化为(key, (value1, value2))形式的键值对
    val maped: RDD[(String, (Int, Int))] = input.map {
      x => {
        val key = x(0).toString;
        val v1 = x(1).toString.toInt;
        val v2 = x(2).toString.toInt;
        (key, (v1, v2))
      }
    }

    // 根据key进行合并, value1与value1合并, value2与value2合并
    val reduced: RDD[(String, (Int, Int))] = maped.reduceByKey(
      (lastValue, thisValue) => {
        (lastValue._1 + thisValue._1, lastValue._2 + thisValue._2)
      }
    )

    // 转换成原来的形式
    val result: RDD[List[Any]] = reduced.map(x => List(x._1, x._2._1, x._2._2))

    // 收集打印
    result.collect().foreach(println)
    /**
      * List(a, 3, 7)
      * List(b, 1, 1)
      */
  }
}

过程很详细,你可以把List形式的装换成别的. 希望可以帮到你.

shiter 熟练 2018-06-11

打赏
举报

回复

data.flatMap(_.split("\t").map((_,1))).reduceByKey(_+_).collect().foreach(println) 类似这种

我的天空永远蔚蓝 2018-06-10

打赏
举报

回复

asdasdasd

我的天空永远蔚蓝 2018-06-10

打赏
举报

回复

mark!!!

我的天空永远蔚蓝 2018-06-10

打赏
举报

回复

mark!!!

【事件触发一致性】研究多智能体网络如何通过分布式事件驱动控制实现有限时间内的共识（Matlab代码实现）内容概要：本文围绕多智能体网络中的事件触发一致性问题，研究如何通过分布式事件驱动控制实现有限时间内的共识，并提供了相应的Matlab代码实现方案。文中探讨了事件触发机制在降低通信负担、提升系统效率方面的优势，重点分析了多智能体系统在有限时间收敛的一致性控制策略，涉及系统模型构建、触发条件设计、稳定性与收敛性分析等核心技术环节。此外，文档还展示了该技术在航空航天、电力系统、机器人协同、无人机编队等多个前沿领域的潜在应用，体现了其跨学科的研究价值和工程实用性。; 适合人群：具备一定控制理论基础和Matlab编程能力的研究生、科研人员及从事自动化、智能系统、多智能体协同控制等相关领域的工程技术人员。; 使用场景及目标：①用于理解和实现多智能体系统在有限时间内达成一致的分布式控制方法；②为事件触发控制、分布式优化、协同控制等课题提供算法设计与仿真验证的技术参考；③支撑科研项目开发、学术论文复现及工程原型系统搭建；阅读建议：建议结合文中提供的Matlab代码进行实践操作，重点关注事件触发条件的设计逻辑与系统收敛性证明之间的关系，同时可延伸至其他应用场景进行二次开发与性能优化。

【无人机】无人机FMCW毫米波高度计雷达仿真（Matlab代码实现）内容概要：本文档围绕无人机FMCW毫米波高度计雷达的仿真展开，利用Matlab代码实现对毫米波雷达测高原理的建模与仿真分析。重点涵盖FMCW（调频连续波）雷达信号的发射、接收、混频、傅里叶变换及高度信息提取等关键环节，通过构建无人机飞行场景下的回波信号模型，完成距离测量与精度评估。文档还结合雷达信号处理技术，展示如何通过仿真手段验证高度计性能，帮助理解毫米波雷达在无人机低空飞行中的测距测高机制。; 适合人群：具备一定Matlab编程基础和信号处理知识，从事无人机导航、雷达系统设计、自动驾驶或相关领域研究的研究生、科研人员及工程技术人员。; 使用场景及目标：①学习FMCW雷达的基本工作原理及其在无人机高度测量中的应用；②掌握雷达回波信号建模与处理的仿真方法；③为无人机避障、定高飞行、地形跟随等功能开发提供技术参考与代码基础。; 阅读建议：建议结合Matlab代码逐模块运行调试，深入理解信号生成、混频、FFT处理及峰值检测等步骤的实现逻辑，可进一步扩展至多目标测距或动态场景仿真，提升实际应用能力。

各种标注用途图标，，分类标注，分类管理

基于SSD深度学习架构构建了一套视觉目标辨识系统，该方案运用卷积神经网络技术对图像中的多类别物体进行定位与分类。系统采用Python编程语言结合TensorFlow框架完成算法实现，通过特征金字塔结构处理不同尺度的目标检测任务，并采用预训练模型权重进行迁移学习以提升识别准确率。在模型训练阶段采用了数据增强策略与困难样本挖掘技术，确保系统对复杂场景的适应能力。最终输出的检测结果包含边界框坐标与类别置信度，可满足工业级应用需求。资源来源于网络分享，仅用于学习交流使用，请勿用于商业，如有侵权请联系我删除！

CRMEB商城系统是基于ThinkPhp6.0+Vue开发的一套新零售移动电商系统 CRMEB系统就是集客户关系管理+营销电商系统，能够快速积累客户、会员数据分析、智能转化客户、有效提高销售、会员维护、网络营销的一款企业应用包含商城、拼团、砍价、秒杀、优惠券、积分、分销等功能，更适合企业二次开发小程序

1,274

社区成员

1,171

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章