社区
Hadoop生态社区
帖子详情
mapreduce任务执行中,能否动态调整某个task的内存?
leo421
2021-01-28 06:06:07
提交一个比较大的job,某一个或几个map或者reduce任务经常会物理内存不足,最后job失败。但是job比较大,也比较耗时,报错后,要调整内存设置重新运行,很耗时间。另外,调大了内存设置后,并行的任务数量就会减少,影响整体的计算效率。能否在某个task因为内存不足报错失败时,通过代码或者什么方式动态调整指定task的内存设置,重新执行?
...全文
635
3
打赏
收藏
mapreduce任务执行中,能否动态调整某个task的内存?
提交一个比较大的job,某一个或几个map或者reduce任务经常会物理内存不足,最后job失败。但是job比较大,也比较耗时,报错后,要调整内存设置重新运行,很耗时间。另外,调大了内存设置后,并行的任务数量就会减少,影响整体的计算效率。能否在某个task因为内存不足报错失败时,通过代码或者什么方式动态调整指定task的内存设置,重新执行?
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
3 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
无人交流的问题
2021-05-24
打赏
举报
回复
网上不是有挺多数据倾斜的解决方案嘛,增加map的个数应该是比较有效的一种
chongchongone
2021-04-26
打赏
举报
回复
某一个或几个map或者reduce的内存不足,应该是数据分配不均,出现了数据倾斜所致,可以自定Partitioner,均衡数据分分配
飞向海洋的猪
2021-02-18
打赏
举报
回复
不可能动态调整内存的。
go分布式
mapreduce
与raft算法与分布式数据库
它提供了一个庞大但设计精良的并行计算软件框架,能自动完成计算
任务
的并行化处理,自动划分计算数据和计算
任务
,在集群节点上自动分配和
执行
任务
以及收集计算结果,将数据分布存储、数据通信、容错处理等并行计算...
MapReduce
工作流程(Map
Task
、Reduce
Task
工作机制)
(1)Map
Task
收集我们的map()方法输出的kv对,放到
内存
缓冲区
中
(2)从
内存
缓冲区不断溢出本地磁盘文件,可能会溢出多个文件 (3)多个溢出文件会被合并成大的溢出文件 (4)在溢出过程及合并的过程
中
,都要调用...
mapreduce
任务
优化
过滤掉不符合预期的热点key,例如由于日志信息丢失导致某个字段产生大量空值 2.加入随机因素,打散热点key 3.使用map join解决小表关联大表造成的数据倾斜问题 map join是指将做连接的小表全量数据分发到作业的map端...
【hadoop】
MapReduce
工作流程和Map
Task
、Shuffle、Reduce
Task
工作机制
MapReduce
整个工作流程:一、Map
Task
阶段(1)Read 阶段:Map
Task
通过用户编写的 RecordReader,从输入 InputSplit
中
解析出一个个 key/value。(2)Map 阶段:该节点主要是将解析出的 key/value 交给...
MapReduce
之如何处理失败的
task
1.2在Map
Task
任务
运行完毕,Reduce
Task
运行过程
中
,某个Map
Task
节点挂了,或者某个Map
Task
结果存放的那磁盘坏掉了 二 作业某个
任务
阻塞了,长时间占用资源不释放 这种问题通常是由于程序bug,数据特性造成的,...
Hadoop生态社区
20,808
社区成员
4,690
社区内容
发帖
与我相关
我的任务
Hadoop生态社区
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
复制链接
扫一扫
分享
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章