标准系列解读|服务商如何做好备份恢复与应急方案演练?

Gauss松鼠会 探花 2022-08-02 09:42:35

本期文章继续为大家解读《数据库服务能力成熟度模型》运维运营能力域的备份恢复应急方案演练两个能力项。《数据库服务能力成熟度模型》的整体框架如下图所示:

1.png

《数据库服务能力成熟度模型》按照交付类型总体分为规划设计能力域、实施部署能力域和运维运营能力域,共包含27个能力项。每个能力项均从人员、工具、流程、制度、技术等维度,通过人员访谈、资料审查、工具演示等方式,对企业服务能力的评价从低到高依次划分为初始级、可重复级、稳健级、量化管理级和优化级五个等级。每个能力域的等级评定是由能力域所包含能力项的等级按照一定算法计算得出,每个能力项的等级评定是由该能力项五个等级的符合程度按照一定算法判定所得。

 

简单来说,备份恢复是指数据库服务方根据需求方的需求或规划好的备份策略进行数据库备份和恢复的运维操作,在遭遇数据丢失故障时,能够快速实现数据恢复,满足需求方RTO、RPO的要求。数据库备份别可划分为物理备份和逻辑备份两大类,物理备份可进一步分为冷备和热备。

 

备份恢复的主要过程描述如下:

a) 制定备份策略:制定并确认备份策略;

b) 备份策略部署:按照备份策略,进行备份策略部署,包括但不限于备份脚本的编写与部署、设置备份任务、备份存放位置、备份文件存储格式、备份文件加密方式、备份方式、备份频度、冗余策略等;

c) 备份确认:确认备份的有效性和备份策略的准确性;

d) 制定恢复策略和方案:根据故障场景和用户需求,制定恢复策略和方案,应充分考虑业务的特点、投入成本等多方面因素;

e) 验证恢复策略:按照恢复方案,进行恢复测试,确认恢复脚本的可行性和完整性;

f) 恢复演练:定期执行恢复演练,熟悉恢复过程,确认恢复各步骤的详细时间,为故障发生时快速实现业务恢复奠定基础;

g) 实施恢复:根据故障场景,结合恢复策略和恢复工具的特点,选定恢复方案并实现数据快速恢复。

 

按照服务能力成熟度的差异划分,备份恢复能力要求如表1所示:

1’.png

评估要点:

◆ 备份恢复策略、手册、方案、报告等;

◆ 备份恢复工具/平台功能丰富程度、易用性等;

◆ 人员制定备份恢复策略、支持多种主流数据库备份恢复的能力。

 

介绍完备份恢复后,接下来解读运维运营的第八个能力项:应急方案演练。应急方案演练是指数据库服务方为确保核心系统出现故障时,业务能够尽可能不受影响,针对可能出现的紧急情况,如数据库无法启动、数据文件访问报错、访问性能极差、连接数超限等,提前规划应急方案并进行演练。应急方案应考虑全面且经过验证。应急方案应提供标准的判断方法、应急作业规程及善后指导并具备标准化和可操作性。为确保紧急情况出现时应急方案的有效性,应定期组织开展应急方案演练。

 

应急方案演练的主要过程描述如下:

 

a) 调研和需求分析:对需求方的安全审计需求进行调研和分析,了解需求方的管理规范、管理流程和审计需求;

b) 制定方案:根据需求分析结果,制定安全审计方案。方案包括但不限于安全审计的配置操作手册、安全审计结果记录、安全审计结果呈现等;

c) 安全审计实施:根据制定的安全审计方案,对安全审计进行在线或离线的启用、关闭等,并对相关的审计规则、告警规则等进行配置。如果有安全审计的辅助平台,要一并部署并保证能顺利执行;

d) 安全审计验证:根据安全审计方案实施后,形成满足需求方的安全审计环境。与需求方一起选取代表性的业务场景,对安全审计功能进行验证,从而证明安全审计功能满足需求方的要求。

e) 应急响应启动:故障发生,启动快速应急响应流程;

f) 灾难评估启动:根据灾难的不同等级,结合风险、技术、人员等综合条件,评估已有的灾备手段,选出可行的应急方案;

g) 灾难恢复决策启动:根据灾难评估的结果及选出可行的应急方案,进行灾难恢复决策;

h) 应急演练启动:相应的应急小组成员、应急厂家人员根据灾难评估和灾难恢复决策,根据应急演练计划及应用演练具体操作步骤,正式启动应急演练,应急演练执行过程包括但不限于:

1) IT系统切换;

2) 切换后的业务验证;

3) 对外提供业务;

4) 业务回流开启;

5) 切换后业务运行;

6) 业务回切;

7) 容灾系统恢复;

8) 演练结束。

i) 应急方案演练总结:根据应急演练执行的具体操作步骤在应急演练的各流程阶段出现的问题与应急小组成员专项讨论及优化改进,更新应急方案。

按照服务能力成熟度的差异划分,应急方案演练的等级要求如表2所示:

1‘’.png

评估要点:

◆ 标准化的运维服务体系,实施文档和管理规范;

◆ 人员具备制定应急方案演练的能力;

◆ 定制化的应急方案演练平台及开发支撑团队技术能力。

 

 

《数据库服务能力成熟度模型》标准是由中国信息通信研究院依托通信标准化协会大数据技术标准推进委员会(CCSA TC601),联合云和恩墨、腾讯云、星环科技、新炬网络、中兴通讯、爱可生、华为云、华胜信泰、科蓝软件、浪潮云、金山云、迪思杰、万里开源、百度智能云等企业于2020年联合编制而成,标准共包括900多个评估点,成为国内数据库服务领域最权威的行业标准,目前已累计完成3批6家共11次评估工作,包括云和恩墨、星环科技、腾讯云、科蓝软件、中移苏研和京东科技,为行业遴选优质服务商提供有力依据

 

 

文章来源:大数据技术标准推进委员会 (如有侵权,请联系删除)

...全文
62 回复 打赏 收藏 举报
写回复
回复
切换为时间正序
请发表友善的回复…
发表回复
相关推荐
发帖
Gauss松鼠会

2.3w+

社区成员

汇集数据库的爱好者和关注者,大家共同学习、探索、分享数据库前沿知识和技术,像松鼠一样剥开科学的坚果;交流Gauss及其他数据库的使用心得和经验,互助解决问题,共建数据库技术交流圈。
数据库数据仓库 企业社区 北京·海淀区
社区管理员
  • Gauss松鼠会
加入社区
帖子事件
创建了帖子
2022-08-02 09:42
社区公告

欢迎大家同时关注Gauss松鼠会专家酷哥。

https://www.zhihu.com/people/ku-ge-78-98