storm中数据倾斜有没有好的解决方法？

陈少能 2016-06-28 11:16:20

storm中数据倾斜，针对这个有没有什么好的解决方法？

...全文

1408 1 打赏收藏转发到动态举报

写回复

用AI写文章

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

chyanch 2016-06-28

打赏
举报

先看下Storm支持的分组方法，在程序中根据数据特性引入分组，尽量让数据balance shuffleGrouping 将流分组定义为混排。这种混排分组意味着来自Spout的输入将混排，或随机分发给此Bolt中的任务。shuffle grouping对各个task的tuple分配的比较均匀。 fieldsGrouping 这种grouping机制保证相同field值的tuple会去同一个task，这对于WordCount来说非常关键，如果同一个单词不去同一个task，那么统计出来的单词次数就不对了。 All grouping 广播发送，对于每一个tuple将会复制到每一个bolt中处理。 Global grouping Stream中的所有的tuple都会发送给同一个bolt任务处理，所有的tuple将会发送给拥有最小task_id的bolt任务处理。 None grouping 不关注并行处理负载均衡策略时使用该方式，目前等同于shuffle grouping,另外storm将会把bolt任务和他的上游提供数据的任务安排在同一个线程下。 Direct grouping 由tuple的发射单元直接决定tuple将发射给那个bolt，一般情况下是由接收tuple的bolt决定接收哪个bolt发射的Tuple。这是一种比较特别的分组方法，用这种分组意味着消息的发送者指定由消息接收者的哪个task处理这个消息。只有被声明为Direct Stream的消息流可以声明这种分组方法。而且这种消息tuple必须使用emitDirect方法来发射。消息处理者可以通过TopologyContext来获取处理它的消息的taskid (OutputCollector.emit方法也会返回taskid) 另外，找到一篇spark治理数据倾斜的文章，可以参考下思路 http://blog.csdn.net/lw_ghy/article/details/51419877 需要根据实际应用程序和数据特征来分析

#资源达人分享计划#

分布式数据流.zip

Hadoop面试题3家公司就业面试宝典含参考答案.doc

Spark大数据分析平台架构.pptx

该文档来自MDCC 2015中国移动开发者大会。吴磊发表了题为“移动大数据平台的架构及实践”的主题演讲，欢迎下载！