spark sql select count(1) from tableName 执行原理

Container123 2021-05-07 05:41:32

spark sql中select count(1) from tableName 每个map任务会把分区内数据都加载进来执行count，还是一条条遍历执行count?

除了shuffle，该sql还在哪个阶段会造成内存溢出呢？

大神留步指导一下。

...全文

1642 5 打赏收藏转发到动态举报

写回复

5 条回复

切换为时间正序

请发表友善的回复…

发表回复

飞向海洋的猪 2021-05-10

打赏
举报

回复

sparksql底层还是依据RDD来进行操作的，可以理解为最终sql中count 会演变为 RDD.count()，而RDD.count()中实现将每个分区中的元素进行统计，再进行sum

def count(): Long = sc.runJob(this, Utils.getIteratorSize _).sum

，而RDD每个分区的计算就是将元素直接纳入内存进行统计。

Container123 2021-05-10

打赏
举报

回复

，仔细想了一下，如果一条条读取，io浪费很严重，多谢指导

飞向海洋的猪 2021-05-08

打赏
举报

回复

应该是将所有得数据都加载到内存中进行count计算得。

fish810423 2021-06-21

举报

回复 1

@飞向海洋的猪水电费水电费

飞向海洋的猪 2021-06-22

举报

回复

@fish810423 ？机器人吗？

Spark SQL一、Spark SQL基础1、Spark SQL简介Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL为什么要学习Spark SQL？我们已经学习了Hive，它是将Hive SQL转换...

Spark SQL精华及与Hive的集成一.Spark SQL原理1.SQL on Hadoop2.spark的前身：shark3.Spark SQL架构4.Spark SQL运行原理5.Catalyst优化器（1）逻辑计划（2）优化（3）物理计划二.Spark SQL API1.Dataset（1）基本...

1、spark 前世今生 Spark SQL SQL: MySQL、Oracle、DB2、SQLServer 很多小伙伴熟悉SQL语言数据量越来越大 ==> 大数据(Hive、Spark Core) 直接使用SQL语句来对大数据进行分析：这是大家所追逐的梦想 person.txt =...

文章目录Spark SQL/Hive SQL与SQL的关系HSQL与普通SQL的区别数据类型 Spark SQL/Hive SQL与SQL的关系 SQL：Structured Query Language，用于对关系型数据库进行操作的标准化语言。不同数据库对应不同类型的SQL。 ...

1、什么是Spark SQL Spark SQL是Spark用于结构化数据(structured data)处理的Spark模块。与基本的Spark RDD API不同，Spark SQL的抽象数据类型为Spark提供了关于数据结构和正在执行的计算的更多信息。在内部，...

Hadoop生态社区

20,808

社区成员

4,690

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章