社区
Power Linux
帖子详情
storm中数据倾斜有没有好的解决方法?
陈少能
2016-06-28 11:16:20
storm中数据倾斜,针对这个有没有什么好的解决方法?
...全文
1386
1
打赏
收藏
storm中数据倾斜有没有好的解决方法?
storm中数据倾斜,针对这个有没有什么好的解决方法?
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
1 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
chyanch
2016-06-28
打赏
举报
回复
先看下Storm支持的分组方法,在程序中根据数据特性引入分组,尽量让数据balance shuffleGrouping 将流分组定义为混排。这种混排分组意味着来自Spout的输入将混排,或随机分发给此Bolt中的任务。shuffle grouping对各个task的tuple分配的比较均匀。 fieldsGrouping 这种grouping机制保证相同field值的tuple会去同一个task,这对于WordCount来说非常关键,如果同一个单词不去同一个task,那么统计出来的单词次数就不对了。 All grouping 广播发送, 对于每一个tuple将会复制到每一个bolt中处理。 Global grouping Stream中的所有的tuple都会发送给同一个bolt任务处理,所有的tuple将会发送给拥有最小task_id的bolt任务处理。 None grouping 不关注并行处理负载均衡策略时使用该方式,目前等同于shuffle grouping,另外storm将会把bolt任务和他的上游提供数据的任务安排在同一个线程下。 Direct grouping 由tuple的发射单元直接决定tuple将发射给那个bolt,一般情况下是由接收tuple的bolt决定接收哪个bolt发射的Tuple。这是一种比较特别的分组方法,用这种分组意味着消息的发送者指定由消息接收者的哪个task处理这个消息。 只有被声明为Direct Stream的消息流可以声明这种分组方法。而且这种消息tuple必须使用emitDirect方法来发射。消息处理者可以通过TopologyContext来获取处理它的消息的taskid (OutputCollector.emit方法也会返回taskid) 另外,找到一篇spark治理数据倾斜的文章,可以参考下思路 http://blog.csdn.net/lw_ghy/article/details/51419877 需要根据实际应用程序和数据特征来分析
Storm
从入门到企业级应用教程
Storm
最初由Nathan Marz和BackType的团队创建。BackType是一家社交分析公司。后来,
Storm
被收购,并通过Twitter开源。在短时间内,Apache
Storm
成为分布式实时处理系统的标准,允许您处理大量的数据,类似于Hadoop。Apache
Storm
是用Java和Clojure写的。它仍然是实时分析的领导者。本教程将探讨Apache
Storm
的原理,分布式消息传递,安装,创建
Storm
拓扑并将其部署到
Storm
集群,Trident的工作流程,实时应用程序,并通过与Kafka、Hbase等进行技术的集成,让你快速掌握和理解
Storm
的精髓。
【Kafka】Kafka-
数据倾斜
问题-参考资料-
解决
方案
【Kafka】Kafka-
数据倾斜
问题-参考资料-
解决
方案
35-Spark Streaming反压机制、Spark的
数据倾斜
的
解决
和Kylin的简单介绍
Spark Streaming反压机制、Spark的
数据倾斜
的
解决
和Kylin的简单介绍
Hive
数据倾斜
总结
在做Shuffle阶段的优化过程
中
,遇到了
数据倾斜
的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于
数据倾斜
的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的
大数据面试题总结
一 美团 自我介绍一下? 介绍一下最近的项目? 目前在研究什么技术? 如何判定一个表是事实表还是维度表? 数据建模过程说一下? 三范式知道吗,说一下? 数据仓库模型建设可以使用范式建模吗,你是怎么看的? 缓慢变化维处理方式? 大宽表的优点与缺点? 拉链表的实现逻辑说一下? Mapreduce执行流程说一下? Shulffle过程瓶颈在哪里,你会怎么
解决
? 你刚说到会有小文件和
数据倾斜
,这个怎么处理? 空值key加随机数是一种
数据倾斜
解决
方案,如果有单个
Power Linux
742
社区成员
901
社区内容
发帖
与我相关
我的任务
Power Linux
该论坛主要探讨Linux系统在IBM Power平台的安装、部署、应用开发等话题,并为网友们提供自由交流的平台。
复制链接
扫一扫
分享
社区描述
该论坛主要探讨Linux系统在IBM Power平台的安装、部署、应用开发等话题,并为网友们提供自由交流的平台。
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章