为什么spark sql有些任务特别慢?基本同样的input和shuffle数据量,大多数任务不到10几分钟就结束了,但有几个任务要30分钟以上?

flyaga 2017-10-08 11:40:03
为什么spark sql有些任务特别慢?基本同样的input和shuffle数据量,大多数任务不到10几分钟就结束了,但有几个任务要30分钟以上,有个还要快1小时,GC时间都差不多。应该不是数据倾斜,因为任务的数据量都差不多。
我用的是spark 1.6,yarn-client模式,通过spark thrift server运行sql跑批。
请各位大神分析分析,在此谢过!
...全文
1207 4 打赏 收藏 转发到动态 举报
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
flyaga 2017-10-10
  • 打赏
  • 举报
回复
到最慢机器上查cpu很空闲,很奇怪
flyaga 2017-10-09
  • 打赏
  • 举报
回复
谢谢,现在是一个executor4个核,自动分配executor,分区没有设置。接下来,会试试一个executor一个核,看是否有改
flyaga 2017-10-09
  • 打赏
  • 举报
回复
改成一个executor一个核后,分区没有设置,情况还是一样,见下图,多数不到4分钟完成,有一个30分钟
卡奥斯道 2017-10-08
  • 打赏
  • 举报
回复
查看一下CPU利用率 job,有的特别慢,查看CPU利用率很低,我们就尝试减少每个executor占用CPU core的数量,增加并行的executor数量,同时配合增加分片,整体上增加了CPU的利用率,加快数据处理速度。 推荐个文章,可以参考一下,可能会帮助你 http://blog.csdn.net/kaaosidao/article/details/78174413

1,258

社区成员

发帖
与我相关
我的任务
社区描述
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
社区管理员
  • Spark
  • shiter
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧