关于reduce的小问题

qq_31325191 2016-12-29 06:00:02

在mapreduce中，我设置reduce任务为1个，设置mapreduce.task.io.sort.factor=10，我的map输出有两个文件，因为小于合并因子，所以会把两个文件直接输入给reduce函数处理（不会合并为一个文件），那问题是：数据在reduce函数处理完之后将做什么啊，如何保证全局有序呢？是不是也和map端一样，reduce缓存满然后溢写到磁盘文件，最后所有的文件再归并排序

...全文

235 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

qq_31325191 2017-01-10

打赏
举报

回复

好了，结贴了，多谢

西红小柿 2017-01-05

打赏
举报

回复

reduce端会有这么个过程、内存溢写到磁盘，然后做merge操作。合并的过程会按照默认方式排序

Hadoop完全分布式集群搭建、Hadoop源码编译、HDFS的Shell操作、HDFS的API...ReduceTask工作机制、Shuffle工作机制、MapReduce工作流程、Job提交流程源码、MapReduce源码、数据压缩、Yarn工作机制、作业提交流程、YARN...

今天遇到一个问题：MapReduce执行任务的百分比回退，需要查看日志分析。那如何判断是那个阶 ...真正的reduce计算阶段，执行你所写的reduce代码，如果卡在这个阶段，就是reduce的代码发生问题了，否则才是数据量

在学习的过程中遇到一些小问题，目前还得不到解决，记录下来首先，reduce函数语法：reduce(function,Iterable),第一个参数为函数，且这个函数必须能够接受2个参数，第二个参数为Iterable,即可迭代对象，列表，元组...

导致过多的启动和初始化操作，消耗时间和资源有多少个reduce，就会产生多少个输出文件，如果生成了很多小文件并且作为下一个job的输入，则会出现小文件过多问题。会导致任务执行效率低下，增加耗时和资源！

以下内容翻译自：MPI Reduce and Allreduce 在上一课中，我们介绍了使用MPI_Scatter和MPI_Gather执行MPI并行排序计算的应用示例。我们将通过MPI_Reduce和MPI_Allreduce进一步扩展集合通信例程。注——本...

Hadoop生态社区

20,808

社区成员

4,690

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章