SPARK sql 执行效率不高?

caosw2005 2016-03-17 10:02:18
# test.py
df = sqlContext \
.read \
.format("jdbc") \
.option("url", url) \
.option("dbtable", "stock_detail_collect_20151105_1130") \
.load()


df.registerTempTable("people")

countsByAge = sqlContext.sql("select stock_id, count(*) as ct from people group by stock_id order by stock_id desc")

=====================

./spark-submit --driver-class-path ../mariadb-java-client-1.3.6.jar ../test.py

以上代码执行起来没有直接在数据库(MariaDB)里执行sql语句快,然后在linux 下top命令看执行过程的时候资源使用情况,多核cpu没有全部使用,只用1个核心,100%。
问题:1.在单机环境下,就是没有直接在数据库里快?
2.要使用多核怎么处理?加--executor-cores 2 也没有用,top查看还是一样。
...全文
240 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

1,258

社区成员

发帖
与我相关
我的任务
社区描述
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
社区管理员
  • Spark
  • shiter
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧