请问大神们,我这里怎么设置才能让task数增加?或者还有其他的解决方案吗?

z630860668 2017-03-25 12:06:32




1000万的数据没问题,4000千万就会报这个错 ,我推测是内存不足导致的,所以我想把这里的任务数增加些,可是怎么设置参数都是1
sql内容 如 下
select telBF,telDF,sum(duration),count(id),sum(case when type=\"主叫\" then 1 else 0 end),sum(case when type=\"被叫\" then 1 else 0 end) ,max(tel_date),min(tel_date) from tel_rel group by telBF,telDF


或者还有其他方案吗?求大神们帮帮忙,困扰我好久了这个问题

这个是1000万数据任务成功执行的截图
...全文
125 2 打赏 收藏 转发到动态 举报
写回复
用AI写文章
2 条回复
切换为时间正序
请发表友善的回复…
发表回复
java8964 2017-03-26
  • 打赏
  • 举报
回复
change the "spark.sql.shuffle.partitions" to 800 (which is 200 * (4000 / 1000)) For Spark 2.x spark.conf.set("spark.sql.shuffle.partitions", 800) Or Spark 1.x sc.getConf.set("spark.sql.shuffle.partitions", 800)
LinkSe7en 2017-03-25
  • 打赏
  • 举报
回复
Stage下Task数表明操作的RDD/Dataset(Frame)的分区数。在执行SQL查询前先对Dataset(Frame)进行重新分区(reparation)。可以选择重新分区为Executor个数整数倍且大于200的分区数

1,261

社区成员

发帖
与我相关
我的任务
社区描述
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
社区管理员
  • Spark
  • shiter
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧