MapReduce只需要一个输出文件时reduce个数问题。

作业本 2011-12-21 05:24:23

我需要处理一个文件，文件中存放了一个浮点数矩阵，需要对文件中每一个浮点数进行计算，转换成另一个浮点数。输出结果是一个新的矩阵。

我用map将矩阵文件拆分，每个map任务处理一个矩阵的一部分。而输出的时候由于我只需要一个输出文件，所以这个时候我设置reduce个数为1. 但是，你知道，reduce个数为1的时候效率很低的，每个map任务都要把数据传送给这个reduce，体现不出分布式处理的优势了。怎么办？

而如果把reduce个数设置为多个，那么最终我的输出还是需要一个文件，如何合并reduce输出的多个文件为一个？

或者，这样的问题有没有其他方法解决?

...全文

748 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

leetao881212 2012-05-11

打赏
举报

回复

一年多没用这个了。
但是我记得，当时输出文件都是在hdfs文件系统下，每个reduce节点输出的结果都是输出结果的一部分，可以使用hdfs的merge命令将这些文件合并起来。

如果你reduce就是直接放在一个计算节点上做的话，那肯定就只能比较低效的运行了。

如何输入文件是两个文件，Partitioner的用法，Combiner的用法，自定义对象，排序sort，topN问题，全局变量，剖析源码单步调试详解MapReduce分组group遍历，reduce当中的cleanup的用法，自定义输出：多文件输出...

控制MapReduce多文件输出默认情况下MapReduce任务结束后一个reduce产生一个输出文件，文件名类似part-xxxxx, 有时为了方便后续对这些文件的处理，比如根据文件名import到不通的hive分区，我们需要控制reduce输出产生的文件名，让相同的reduce key写入同一个文件，此时可继承MultipleOutputFormat重载generateFileNameFo...

从埋点日志获取select结果，维度比较多，union了好多次，因为源表没有符合条件数据，跑出来没有结果，null都没有，但是看hdfs上该表的指定目录，发现该分区含有几十个空文件，上网找到了原因：在mapreduce里，如果某个reduce输出为空，默认也会生成一个大小为0的文件。原因是reduce写的时候，不知道会不会有输出数据，所以默认初始化了一个文件。如果没有输出，close文件最终会生成一个空文件。 ps：explain了一下发现很多reduce 还有group 61正好对应分区下的61个空

针对前面介绍的输入格式，MapReduce也有相应的输出格式。默认情况下只有一个 Reduce，输出只有一个文件，默认文件名为 part-r-00000，输出文件的个数与 Reduce 的个数一致。如果有两个Reduce，输出结果就有两个文件，第一个为part-r-00000，第二个为part-r-00001，依次类推 OutputFormat 接口 OutputFormat主要...

Mapreduce中mapper个数的确定： Mapreduce中mapper个数的确定：在map阶段读取数据前，FileInputFormat会将输入文件分割成split。split的个数决定了map的个数。影响map个数，即split个数的因素主要有： 1）HDFS块的大小，即HDFS中dfs.block.size的值。如果有一个输入文件为1024m，当块为256m时，会被划分为4个split；当块为128m时，会被划分为8个split。文件的大小。当块为128m时，如果输入文件为128m，会被

2,245

社区成员

699

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章