请教一个sparkstreaming堆积的问题

D.Foil 2020-03-23 07:13:23
关于图上的堆积问题,SchedulingDelay 越来越长是任务队列出了什么问题么?
程序启动时正常的,运行几天就会开始堆积,偶尔会自己缓过来,若果直接重启程序的话也会正常。
很多情况是因为某一个批次突然ProcessingTime特别长,接下来的批次SchedulingDelay 就开始延长,ProcessingTime又恢复正常,
就出现图上的情况,像第二张图。


...全文
567 5 打赏 收藏 转发到动态 举报
写回复
用AI写文章
5 条回复
切换为时间正序
请发表友善的回复…
发表回复
LinkSe7en 2020-04-08
  • 打赏
  • 举报
回复
引用 4 楼 D.Foil 的回复:
[quote=引用 3 楼 LinkSe7en 的回复:] 对于突然洪峰,然后后面很久都是每批0条,有可能是上游数据迟到了。跟上游消息发布者沟通一下是什么情况?
谢谢关注啊,抱歉新手对问题考虑的不太全面,有一点忘了说了,这两个图其实不是同一个程序的,第二张没数据是为了看0条数据时的情况。 关于这个问题确实是数据洪峰导致的,不过问题是第一批洪峰数据 处理了2min,导致后面批次SchedulingDelay调度时间延迟,但是处理时间却是1s,这就看不明白了 [/quote] 建议开启FAIR调度,并设置每个job最大executor数,此数为(总executor数/n)。这样job就可以并发。根据处理效率(处理时间小于窗口时间)调整n值。
D.Foil 2020-03-25
  • 打赏
  • 举报
回复
引用 3 楼 LinkSe7en 的回复:
对于突然洪峰,然后后面很久都是每批0条,有可能是上游数据迟到了。跟上游消息发布者沟通一下是什么情况?

谢谢关注啊,抱歉新手对问题考虑的不太全面,有一点忘了说了,这两个图其实不是同一个程序的,第二张没数据是为了看0条数据时的情况。
关于这个问题确实是数据洪峰导致的,不过问题是第一批洪峰数据 处理了2min,导致后面批次SchedulingDelay调度时间延迟,但是处理时间却是1s,这就看不明白了

LinkSe7en 2020-03-24
  • 打赏
  • 举报
回复
对于突然洪峰,然后后面很久都是每批0条,有可能是上游数据迟到了。跟上游消息发布者沟通一下是什么情况?
LinkSe7en 2020-03-24
  • 打赏
  • 举报
回复 1
看最后一图的最后几行,明显是出现数据洪峰导致数据倾斜了。而图一显示平均是5400events。考虑修改一下spark streaming配置,以进行削缝。 关键配置是: spark.streaming.receiver.maxRate=#每秒最多多少条events 具体见: http://spark.apache.org/docs/latest/configuration.html#spark-streaming 根据实际情况调优。
D.Foil 2020-03-23
  • 打赏
  • 举报
回复
并非是batchtime设置太短了,配置不变的情况下,在正常情况是能够1秒2秒就处理完的,但还是会出现堆积情况

1,261

社区成员

发帖
与我相关
我的任务
社区描述
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
社区管理员
  • Spark
  • shiter
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧