关于MapReduce的Shuffle阶段的磁盘空间需求问题

allspace123 2016-08-12 09:51:22

了解了Shuffle的原理之后有一个疑问：
Shuffle阶段将数据存储于本地磁盘，而非HDFS，如果map阶段产生的中间数据过多，或者reduce收取的数据过多，都可能会造成磁盘空间不足。

map的结果可能不会占用太多磁盘空间，毕竟输入最多是一个HDFS的block size（除非手工改参数），而map产生的结果一般也不会比输入还大，除非算法很特殊。

但reduce就难说了，它需要从所有的map那里抓取属于自己的数据，是不是有可能导致磁盘爆满啊？

...全文

841 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

allspace123 2016-08-16

打赏
举报

回复

如果map的输出都会溢出(spill)，那reduce的输入没可能全放在内存里啊...

我的积分呢 2016-08-15

打赏
举报

回复

map的处理后的数据才会写到本地临时目录的，reduce复制map本地临时文件写到内存中去，所以reduce不存在磁盘不足的情况只会存在内存溢出等卡死问题。至于map会不会将磁盘空间卡爆一般是不会的因为它有一个环形内存，只有将溢出的数据才会写出，所以不用担心。

MapReduce重点会分为四个运行阶段，分别是：Split、Map、Shuffle、Reduce。什么是MapReduce 一、MapReduce运行阶段此阶段，每个输入文件被分片输入到map。如一个文件有200M，默认会被分成2片，因为每片的默认最大...

在Mapreduce中，Shuffle过程是Mapreduce的核心，它分布在Mapreduce的map阶段和reduce阶段，共可分为6个详细的阶段： 1).Collect阶段：将MapTask的结果输出到默认大小为100M的MapOutputBuffer内部环形内存缓冲区，...

而在MapReduce中，Shuffle更像是洗牌的逆过程，指的是将map端的无规则输出按指定的规则“打乱”成具有一定规则的数据，以便reduce端接收处理。或者说需要将各节点上同一类数据汇集到某一节点进行计算,把这些分布在...

MapReduce的Shuffle过程介绍 Shuffle的本义是洗牌、混洗，把一组有一定规则的数据尽量转换成一组无规则的数据，越随机越好。MapReduce中的Shuffle更像是洗牌的逆过程，把一组无规则的数据尽量转换成一组具有一定...

MapReduce详解之shuffle阶段（看图理解）： Mapreduce的过程整体上分为四个阶段：InputFormat MapTask ReduceTask OutPutFormat 当然中间还有shuffle阶段 InputFormat: 我们通过在runner类中用 ...

Hadoop生态社区

20,808

社区成员

4,690

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章