社区
赵渝强老师的课程社区_NO_6
赵强老师:大数据从入门到精通(20)Spark RDD
帖子详情
RDD的容错机制和检查点
赵渝强老师
2023-01-12 22:31:37
课时名称
课时知识点
RDD的容错机制和检查点
...全文
102
回复
打赏
收藏
RDD的容错机制和检查点
课时名称课时知识点RDD的容错机制和检查点
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
Spark
容错
机制
Spark
容错
机制
Spark
容错
机制
Spark
容错
机制
Spark
容错
机制
Spark
容错
机制
Spark
容错
机制
基于
RDD
关键度的Spark
检查点
管理策略
Spark默认
容错
机制
由程序员设置
检查点
,并 利 用 弹 性 分 布 式 数 据 集 (resilientdistributeddataset,
RDD
)的血统(lineage)进行计算.在应用程序复杂度高、迭代次数多以及数据量较大时,恢复过程需要耗费大量的计算开销.同时,在执行恢复任务时,仅考虑数据本地性选择节点,并未考虑节点的计算能力,这都会导致恢复时间增加,无法最大化发挥集群的性能.因此,在建立 Spark执行模型、
检查点
模型 和
RDD
关键度模型的 基础上,提出一种基于关 键度的
检查点
管理 (criticalitycheckpointmanagement,CCM)策略,其中包括
检查点
设置算法、失效恢复算法和清理算法.其中
检查点
设置算法通过分析作业中
RDD
的属性以及对作业恢复时间的影响,选择关键度大的
RDD
作为
检查点
存储;恢复算法根据各节点的计算能力做出决策,选择合适的节点执行恢复任务;清理算法在磁盘空间不足时,清除关键度较低的
检查点
.实验结果表明:该策略在略增加执行时间的情况下,能够选择有备份价值的
RDD
作为
检查点
,在节点失效时能够有效地降低恢复开销,提高节点的磁盘有效
RDD
编程初级实践数据集
免费下载
RDD
:基于内存的集群计算
容错
抽象 论文(中英文)
RDD
:基于内存的集群计算
容错
抽象的中英文论文
RDD
:基于内存的集群计算
容错
抽象
RDD
:基于内存的集群计算
容错
抽象,spark
RDD
介绍
赵渝强老师的课程社区_NO_6
2
社区成员
511
社区内容
发帖
与我相关
我的任务
赵渝强老师的课程社区_NO_6
16年以上的IT行业从业经历,清华大学计算机软件工程专业毕业,京东大学大数据学院院长(负责人),Oracle中国有限公司高级技术顾问;曾在BEA、甲骨文、摩托罗拉等世界500强公司担任高级软件架构师或咨询顾问等要职,精通大数据、数据库、中间件技术和Java技术。
复制链接
扫一扫
分享
社区描述
16年以上的IT行业从业经历,清华大学计算机软件工程专业毕业,京东大学大数据学院院长(负责人),Oracle中国有限公司高级技术顾问;曾在BEA、甲骨文、摩托罗拉等世界500强公司担任高级软件架构师或咨询顾问等要职,精通大数据、数据库、中间件技术和Java技术。
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章