社区
云存储
帖子详情
mapreduce的中间结果存储在哪里?
mangoer_ys
2015-07-03 05:45:52
在书上看到说是spill的结果放在本地磁盘中,然后combine将每个Map Task的结果合并成一个文件(并没有说在本地磁盘还是HDFS上,按照我的理解说是在本地磁盘上),但是我写程序是可以在HDFS上看到map的输出结果(这证明是在HDFS上),这到底应该在哪里呢?
...全文
1286
3
打赏
收藏
mapreduce的中间结果存储在哪里?
在书上看到说是spill的结果放在本地磁盘中,然后combine将每个Map Task的结果合并成一个文件(并没有说在本地磁盘还是HDFS上,按照我的理解说是在本地磁盘上),但是我写程序是可以在HDFS上看到map的输出结果(这证明是在HDFS上),这到底应该在哪里呢?
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
3 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
lennydou
2019-03-23
打赏
举报
回复
我猜存本地磁盘,有些系统实现会存在内存,效率会更高
风吹的我冷
2019-01-21
打赏
举报
回复
MapReduce的Map阶段就是一个映射过程,怎么能在HDFS上看到结果,除非像计数器一样只有Map阶段,只需要返回计数器信息这一类的可以。
mangoer_ys
2015-07-05
打赏
举报
回复
顶起 !
对
MapReduce
初步认识
本文介绍了
MapReduce
的基本原理,包括其“分而治之”的思想、map和reduce两个核心过程,以及良好的伸缩性和容错机制。同时也指出了
MapReduce
在处理计算密集型任务上的局限性,比如
中间
结果
存储
效率低等问题,这促使了更高效的分布式计算框架Spark的出现。
mapreduce
原理
本文详细解析了
MapReduce
的工作机制,包括如何通过哈希表分配计算任务至不同节点,以及map阶段完成后
中间
结果的
存储
方式。
MapReduce
架构中,来自于Map合并的数据都有啥特点
MapReduce
是一种分布式计算框架,其处理过程包括Map和Reduce两个阶段。Map阶段中,输入数据被分割并由多个Map任务并行处理,生成无序的
中间
结果文件。这些文件可能很大且包含重复数据,需要在Reduce阶段进行排序和错误检查。
中间
结果文件的管理和处理对
存储
及计算资源提出较高要求。
Mapreduce
中的MapTask工作机制(Hadoop)
本文详细解释了
MapReduce
中MapTask的工作流程,包括输入数据的划分、Mapper的启动与初始化、数据处理策略、
中间
结果的缓存与管理,以及任务状态更新和容错机制。重点介绍了如何通过数据局部性和流水线处理提高性能,以及
中间
结果排序和优化
存储
的过程。
Hadoop 笔记3
Mapreduce
本文深入探讨了
MapReduce
编程模型的核心概念,包括数据并行处理、split分割、map与reduce函数的作用,以及任务调度、本地计算、shuffle、combine和
中间
结果
存储
等关键步骤。同时阐述了
MapReduce
集群的行为特性,如任务分配、资源池管理、reduce个数的限制等。
云存储
932
社区成员
652
社区内容
发帖
与我相关
我的任务
云存储
云计算 云存储相关讨论
复制链接
扫一扫
分享
社区描述
云计算 云存储相关讨论
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章