mapreduce的中间结果存储在哪里？

mangoer_ys 2015-07-03 05:45:52

在书上看到说是spill的结果放在本地磁盘中，然后combine将每个Map Task的结果合并成一个文件（并没有说在本地磁盘还是HDFS上，按照我的理解说是在本地磁盘上），但是我写程序是可以在HDFS上看到map的输出结果（这证明是在HDFS上），这到底应该在哪里呢？

...全文

1286 3 打赏收藏转发到动态举报

写回复

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

lennydou 2019-03-23

打赏
举报

回复

我猜存本地磁盘，有些系统实现会存在内存，效率会更高

风吹的我冷 2019-01-21

打赏
举报

回复

MapReduce的Map阶段就是一个映射过程，怎么能在HDFS上看到结果，除非像计数器一样只有Map阶段，只需要返回计数器信息这一类的可以。

mangoer_ys 2015-07-05

打赏
举报

回复

顶起！

本文介绍了MapReduce的基本原理，包括其“分而治之”的思想、map和reduce两个核心过程，以及良好的伸缩性和容错机制。同时也指出了MapReduce在处理计算密集型任务上的局限性，比如中间结果存储效率低等问题，这促使了更高效的分布式计算框架Spark的出现。

本文详细解析了MapReduce的工作机制，包括如何通过哈希表分配计算任务至不同节点，以及map阶段完成后中间结果的存储方式。

MapReduce是一种分布式计算框架，其处理过程包括Map和Reduce两个阶段。Map阶段中，输入数据被分割并由多个Map任务并行处理，生成无序的中间结果文件。这些文件可能很大且包含重复数据，需要在Reduce阶段进行排序和错误检查。中间结果文件的管理和处理对存储及计算资源提出较高要求。

本文详细解释了MapReduce中MapTask的工作流程，包括输入数据的划分、Mapper的启动与初始化、数据处理策略、中间结果的缓存与管理，以及任务状态更新和容错机制。重点介绍了如何通过数据局部性和流水线处理提高性能，以及中间结果排序和优化存储的过程。

本文深入探讨了MapReduce编程模型的核心概念，包括数据并行处理、split分割、map与reduce函数的作用，以及任务调度、本地计算、shuffle、combine和中间结果存储等关键步骤。同时阐述了MapReduce集群的行为特性，如任务分配、资源池管理、reduce个数的限制等。

932

社区成员

652

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章