SPARK sql 执行效率不高？

caosw2005 2016-03-17 10:02:18

# test.py
df = sqlContext \
.read \
.format("jdbc") \
.option("url", url) \
.option("dbtable", "stock_detail_collect_20151105_1130") \
.load()

df.registerTempTable("people")

countsByAge = sqlContext.sql("select stock_id, count(*) as ct from people group by stock_id order by stock_id desc")

=====================

./spark-submit --driver-class-path ../mariadb-java-client-1.3.6.jar ../test.py

以上代码执行起来没有直接在数据库（MariaDB）里执行sql语句快，然后在linux 下top命令看执行过程的时候资源使用情况，多核cpu没有全部使用，只用1个核心，100%。
问题：1.在单机环境下，就是没有直接在数据库里快？
2.要使用多核怎么处理？加--executor-cores 2 也没有用，top查看还是一样。

...全文

283 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

2. Spark上的SQL处理：重点研究了Spark对SQL的支持，例如如何在Spark上执行SQL查询，以及如何通过Hive on Spark等技术利用Spark的强大计算能力进行数据仓库操作。 3. Spark Stream-SQL：作为Spark上的流式SQL处理，...

而SparkSQL会对写完的代码，执行“自动优化”，以提升代码运行效率，避免开发者水平影响到代码执行效率。RDD的运行会完全按照开发者的代码执行，如果开发者水平有限，RDD的执行效率也会受到影响。SQL提交后，底层...

三、Spark SQL底层执行原理四、Catalyst 的两大优化完整版传送门：Spark知识体系保姆级总结，五万字好文！一、Apache Spark Apache Spark是用于大规模数据处理的统一分析引擎，基于内存计算，提高了在大数据...

Spark SQL解析过程学习，整理如下，如有错误欢迎评论区指出。

若需处理的数据集是典型结构化数据源，可在 Spark 程序中引入 Spark SQL 模块，首先读取待处理数据并将其转化为 Spark SQL 的核心数据抽象 - DataFrame ，进而调用 Dataframe API 来对数据进行分析处理，也可以将 ...

1,271

社区成员

1,170

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章