单个reduce行数过多的问题

Kodoo 2016-07-07 03:34:25

今天在公司机器上跑MR的时候，遇到了一种奇怪的状况，map会在最后卡在一个map很久，reduce也卡在最后一个很久。
本来以为是某行过长，过滤之后重跑还是这种情况，最后跑完后，查看文件后发现有个reduce结果的行数是其他reduce结果的十几倍，请问这是什么原因造成的？

...全文

598 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

学无止境-逆流而上 2016-07-07

打赏
举报

回复

应该是partion分配不均

reduce个数的设定极大影响任务执行效率，不指定reduce个数的情况下，Hive会猜测确定一个reduce个数，基于以下两个设定： hive.exec.reducers.bytes.per.reducer（每个reduce任务处理的数据量，默认为1000^3=1G） h

合理设置Map及Reduce数如果MapReduce数据量过少，则单个的处理数据量过大；如果MapReduce数据量过多，则抢资源。

我们都知道在进行hive的查询的时候，设置合理的reduce个数能够使计算的速度加快。具体的提高速度的方法有下面这些： (1)　hive.exec.reducers.bytes.per.reducer（每个reduce任务处理的数据量，默认为1000^3=1G）...

1. Hive自己如何确定reduce数： reduce个数的设定极大影响任务执行效率，不指定reduce个数的情况下，Hive会猜测确定一个reduce个数，基于以下两个设定： hive.exec.reducers.bytes.per.reducer（每个reduce任务...

1. Hive自己如何确定reduce数：reduce个数的设定极大影响任务执行效率，不指定reduce个数的情况下，Hive会猜测确定一个reduce个数，基于以下两个设定：hive.exec.reducers.bytes.per.reducer（每个reduce任务处理的...

Hadoop生态社区

20,808

社区成员

4,690

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章