reduce任务数设置

zzg22936 2012-04-25 08:48:16

我的Map/Reduce程序中 setNumReduceTask(k)中,k值不一样，导致运行结果不一致，这是什么原因呢:
PS:我的Mapper中setup()函数中有个读取分布式路径（用于存放一个map/reduce job的运算结果（这个路径下的reduce结果数目=k））的程序。

...全文

128 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

在上一篇文章《Hive 作业产生的map数越多越好还是越少越好？中介绍了map个数设置多少合适的问题，那么Reduce个数设置多少合适呢？今天就给小伙伴们聊一下Reduce个数设置方法以及设置多少合适的原则！reduce个数并不是越多越好，也不是越少越好！导致过多的启动和初始化操作，消耗时间和资源有多少个reduce，就会产生多少个输出文件，如果生成了很多小文件并且作为下一个job的输入，则会出现小文件过多问题。会导致任务执行效率低下，增加耗时和资源！

map和reduce是hadoop的核心功能，hadoop正是通过多个map和reduce的并行运行来实现任务的分布式并行计算，从这个观点来看，如果将map和reduce的数量设置为1，那么用户的任务就没有并行执行，但是map和reduce的数量也不能过多，数量过多虽然可以提高任务并行度，但是太多的map和reduce也会导致整个hadoop框架因为过度的系统资源开销而使任

优化 reduce 任务数量前面我们介绍过了，如何控制map 的数量，以及为什么要控制map 的数量，具体可以参考前面的文章，Hive进阶之优化map任务数量,最终我们得到了一个结论，那就是使大数据量利用合适的map数；使单个map任务处理合适的数据量，这个就可以作为我们调节map 任务数的原则。今天我们看一下如何优化 reduce 任务数量为什么要控制reduce 数量其实为什么要控制reduce 数量和为什么要控制map 数量是一样的，reduce 数量太少，每个reducer 处理的数据太多就

Tasks数决定因素在Spark 中我们知道会将一个任务划分为多个stage ，划分stage的依据就是是否为宽依赖（存在shuffle）,每个stage 的并行度取决于一个stage 最后一个算子，因为一个任务的调用是从最后一个算子向前执行的.所以一个任务的task 数主要看一个stage最后的一个rdd的分区数。这里主要用一个列子说明计算过程分区数是怎么确定的： rdd.map(…).reduceByKey(…).collect() 根据上面这段逻辑可以知道 map 中主要返回的是一个mapPar

编程总是围绕着两个问题：“如何完成这个任务”和“如何能让程序运行得更快” 因此，相对应的MapReduce计算模型的优化也就集中在两个方面：一是计算性能方面的优化；二是I/O操作方面的优化 1、任务调度两个方面的优化：一是计算方面：Hadoop总会先将任务分配给空闲的机器，使所有的任务能公平地分享系统资源；二是I/O方面：Hadoop会尽量将map任务分配给InputSplit所在的机器，...

Hadoop生态社区

20,808

社区成员

4,690

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章