mapreduce任务执行中，能否动态调整某个task的内存？

leo421 2021-01-28 06:06:07

提交一个比较大的job，某一个或几个map或者reduce任务经常会物理内存不足，最后job失败。但是job比较大，也比较耗时，报错后，要调整内存设置重新运行，很耗时间。另外，调大了内存设置后，并行的任务数量就会减少，影响整体的计算效率。能否在某个task因为内存不足报错失败时，通过代码或者什么方式动态调整指定task的内存设置，重新执行？

...全文

635 3 打赏收藏转发到动态举报

写回复

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

无人交流的问题 2021-05-24

打赏
举报

回复

网上不是有挺多数据倾斜的解决方案嘛，增加map的个数应该是比较有效的一种

chongchongone 2021-04-26

打赏
举报

回复

某一个或几个map或者reduce的内存不足，应该是数据分配不均，出现了数据倾斜所致，可以自定Partitioner，均衡数据分分配

飞向海洋的猪 2021-02-18

打赏
举报

回复

不可能动态调整内存的。

它提供了一个庞大但设计精良的并行计算软件框架，能自动完成计算任务的并行化处理，自动划分计算数据和计算任务，在集群节点上自动分配和执行任务以及收集计算结果，将数据分布存储、数据通信、容错处理等并行计算...

（1）MapTask收集我们的map()方法输出的kv对，放到内存缓冲区中（2）从内存缓冲区不断溢出本地磁盘文件，可能会溢出多个文件（3）多个溢出文件会被合并成大的溢出文件（4）在溢出过程及合并的过程中，都要调用...

过滤掉不符合预期的热点key，例如由于日志信息丢失导致某个字段产生大量空值 2.加入随机因素，打散热点key 3.使用map join解决小表关联大表造成的数据倾斜问题 map join是指将做连接的小表全量数据分发到作业的map端...

MapReduce整个工作流程：一、MapTask阶段（1）Read 阶段：Map Task 通过用户编写的 RecordReader，从输入 InputSplit 中解析出一个个 key/value。（2）Map 阶段：该节点主要是将解析出的 key/value 交给...

1.2在MapTask任务运行完毕，ReduceTask运行过程中，某个MapTask节点挂了，或者某个MapTask结果存放的那磁盘坏掉了二作业某个任务阻塞了，长时间占用资源不释放这种问题通常是由于程序bug，数据特性造成的，...

Hadoop生态社区

20,808

社区成员

4,690

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章