社区
Power Linux
帖子详情
storm中数据倾斜有没有好的解决方法?
陈少能
2016-06-28 11:16:20
storm中数据倾斜,针对这个有没有什么好的解决方法?
...全文
1384
1
打赏
收藏
storm中数据倾斜有没有好的解决方法?
storm中数据倾斜,针对这个有没有什么好的解决方法?
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
1 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
chyanch
2016-06-28
打赏
举报
回复
先看下Storm支持的分组方法,在程序中根据数据特性引入分组,尽量让数据balance shuffleGrouping 将流分组定义为混排。这种混排分组意味着来自Spout的输入将混排,或随机分发给此Bolt中的任务。shuffle grouping对各个task的tuple分配的比较均匀。 fieldsGrouping 这种grouping机制保证相同field值的tuple会去同一个task,这对于WordCount来说非常关键,如果同一个单词不去同一个task,那么统计出来的单词次数就不对了。 All grouping 广播发送, 对于每一个tuple将会复制到每一个bolt中处理。 Global grouping Stream中的所有的tuple都会发送给同一个bolt任务处理,所有的tuple将会发送给拥有最小task_id的bolt任务处理。 None grouping 不关注并行处理负载均衡策略时使用该方式,目前等同于shuffle grouping,另外storm将会把bolt任务和他的上游提供数据的任务安排在同一个线程下。 Direct grouping 由tuple的发射单元直接决定tuple将发射给那个bolt,一般情况下是由接收tuple的bolt决定接收哪个bolt发射的Tuple。这是一种比较特别的分组方法,用这种分组意味着消息的发送者指定由消息接收者的哪个task处理这个消息。 只有被声明为Direct Stream的消息流可以声明这种分组方法。而且这种消息tuple必须使用emitDirect方法来发射。消息处理者可以通过TopologyContext来获取处理它的消息的taskid (OutputCollector.emit方法也会返回taskid) 另外,找到一篇spark治理数据倾斜的文章,可以参考下思路 http://blog.csdn.net/lw_ghy/article/details/51419877 需要根据实际应用程序和数据特征来分析
【Kafka】Kafka-
数据倾斜
问题-参考资料-
解决
方案
【Kafka】Kafka-
数据倾斜
问题-参考资料-
解决
方案
35-Spark Streaming反压机制、Spark的
数据倾斜
的
解决
和Kylin的简单介绍
Spark Streaming反压机制、Spark的
数据倾斜
的
解决
和Kylin的简单介绍
Hive
数据倾斜
总结
在做Shuffle阶段的优化过程
中
,遇到了
数据倾斜
的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于
数据倾斜
的原因...
大数据面试题总结
一 美团 自我介绍一下? 介绍一下最近的项目? ...目前在研究什么技术?...Shulffle过程瓶颈在哪里,你会怎么
解决
?...你刚说到会有小文件和
数据倾斜
,这个怎么处理?...空值key加随机数是一种
数据倾斜
解决
方案,如果有单个
Spark性能优化之道——
解决
Spark
数据倾斜
(Data Skew)的N种姿势
本文结合实例详细阐明了Spark
数据倾斜
的几种场景以及对应的
解决
方案,包括避免数据源倾斜,调整并行度,使用自定义Partitioner,使用Map侧Join代替Reduce侧Join,给倾斜Key加上随机前缀等。 为何要处理
数据倾斜
...
Power Linux
742
社区成员
901
社区内容
发帖
与我相关
我的任务
Power Linux
该论坛主要探讨Linux系统在IBM Power平台的安装、部署、应用开发等话题,并为网友们提供自由交流的平台。
复制链接
扫一扫
分享
社区描述
该论坛主要探讨Linux系统在IBM Power平台的安装、部署、应用开发等话题,并为网友们提供自由交流的平台。
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章