社区
Power Linux
帖子详情
storm中数据倾斜有没有好的解决方法?
陈少能
2016-06-28 11:16:20
storm中数据倾斜,针对这个有没有什么好的解决方法?
...全文
1408
1
打赏
收藏
storm中数据倾斜有没有好的解决方法?
storm中数据倾斜,针对这个有没有什么好的解决方法?
复制链接
扫一扫
分享
转发到动态
举报
AI
作业
写回复
配置赞助广告
用AI写文章
1 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
chyanch
2016-06-28
打赏
举报
回复
先看下Storm支持的分组方法,在程序中根据数据特性引入分组,尽量让数据balance shuffleGrouping 将流分组定义为混排。这种混排分组意味着来自Spout的输入将混排,或随机分发给此Bolt中的任务。shuffle grouping对各个task的tuple分配的比较均匀。 fieldsGrouping 这种grouping机制保证相同field值的tuple会去同一个task,这对于WordCount来说非常关键,如果同一个单词不去同一个task,那么统计出来的单词次数就不对了。 All grouping 广播发送, 对于每一个tuple将会复制到每一个bolt中处理。 Global grouping Stream中的所有的tuple都会发送给同一个bolt任务处理,所有的tuple将会发送给拥有最小task_id的bolt任务处理。 None grouping 不关注并行处理负载均衡策略时使用该方式,目前等同于shuffle grouping,另外storm将会把bolt任务和他的上游提供数据的任务安排在同一个线程下。 Direct grouping 由tuple的发射单元直接决定tuple将发射给那个bolt,一般情况下是由接收tuple的bolt决定接收哪个bolt发射的Tuple。这是一种比较特别的分组方法,用这种分组意味着消息的发送者指定由消息接收者的哪个task处理这个消息。 只有被声明为Direct Stream的消息流可以声明这种分组方法。而且这种消息tuple必须使用emitDirect方法来发射。消息处理者可以通过TopologyContext来获取处理它的消息的taskid (OutputCollector.emit方法也会返回taskid) 另外,找到一篇spark治理数据倾斜的文章,可以参考下思路 http://blog.csdn.net/lw_ghy/article/details/51419877 需要根据实际应用程序和数据特征来分析
支持非等值连接的分布式数据流处理系统.pdf
#资源达人分享计划#
分布式数据流.zip
分布式数据流.zip
Hadoop面试题3家公司就业面试宝典含参考答案.doc
Hadoop面试题3家公司就业面试宝典含参考答案.doc
Spark大数据分析平台架构.pptx
Spark大数据分析平台架构.pptx
吴磊-移动大数据平台的架构及实践
该文档来自MDCC 2015
中
国移动开发者大会。吴磊发表了题为“移动大数据平台的架构及实践”的主题演讲,欢迎下载!
Power Linux
744
社区成员
901
社区内容
发帖
与我相关
我的任务
Power Linux
该论坛主要探讨Linux系统在IBM Power平台的安装、部署、应用开发等话题,并为网友们提供自由交流的平台。
复制链接
扫一扫
分享
社区描述
该论坛主要探讨Linux系统在IBM Power平台的安装、部署、应用开发等话题,并为网友们提供自由交流的平台。
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章