【实例状态】GaussDB DN服务异常(下)

AI小学徒夏夏 秀才 2022-11-26 17:47:11

查询集群状态,DN状态为Building

问题现象

DN服务异常,DN状态为building

问题分析及定界

a、cm_ctl query -Cvipd查看哪些DN在building,并且会显示build的进度:如:building(80%), 连续查询cm_ctl query -Cvipd观察build进度。 该问题通常发生在业务压力非常大,数据导入太快,DN备的同步读跟不上DN主,DN主日志被回收,导致备DN只能做全量build,当集群重启时更容易发生此问题。此时需要考虑设置打开流控和并行redo等,继续按照步骤b进行定位。

b、登录报错节点,su - Ruby, cd $GAUSSLOG/bin/gs_ctl/ 查看gs_ctl日志确定当前处于build的哪个阶段,以及是增量build还是全量build,如果是全量build, 日志中会有FULL_BUILD的字符串,全量build的时间会比增量build长。 继续按照步骤c定位。

c、ps ux | grep gaussdb,查看dn进程的启动时间,判断其是否重启过,如果重启过,则参照场景2 DN状态为unknown中的步骤,诊断dn重启的原因

查询集群状态,DN状态为Build failed

问题现象

DN服务异常,DN状态为build failed

问题分析及定界

a、登录报错节点,su - Ruby, cd $GAUSSLOG/bin/gs_ctl/ 查看gs_ctl日志确定build失败的原因,如果报错信息中出现could not connect to server,则首先按照b继续排查

b、检查网络连接情况,ping xxx.xxx.xxx.xxx(主DN ip),如果无法ping通,则按照步骤1处理,否则继续按照步骤c定位

c、进入数据目录,数据目录就是cm_ctl query -Cvid查看的结果中实例对应的目录,查看pg_hba.conf的设置是否正确,需要确认主dn的ip是否正确,method是否设置为trust,如果不正确,按照处理步骤2处理,如果正确,按照步骤d继续定位

d、连接到步骤a日志中,本地节点需要连接的ip对应的节点,既本DN对应的主DN节点,查看$GAUSSLOG/bin/gs_ctl/下面同时间的日志,查看是否有报错信息,如果有,则按照处理步骤3处理

处理步骤

1、联系网络运维人员修复.

2、联系华为工程师,确定不设置成trust的原因,并确定是否需要修改

3、将主备DN对应的报错信息截屏发送给华为工程师,用来做进一步分析

查询集群状态,DN状态为CoreDump

问题现象

dn服务异常,告警DN状态为CoreDump

问题分析及定界

a、登录到节点后,su - Ruby进入Ruby用户,进入沙箱: 执行如下命令/usr/sbin/chroot --userspec=Ruby:Ruby /var/chroot /bin/bash source /etc/profile && source ~/.bashrcb、cat /proc/sys/kernel/core_pattern 查看里面是否是路径且路径为Ruby用户可访问路径,如果是,则执行步骤b, 否则执行c

b、进入该路径并查看是否有core文件生成,如果有core文件生成,则执行处理步骤1

c、执行cm_ctl query -Cvipd, 找到当前dn的数据目录,进入数据目录,查看是否有core文件生成,如果有则执行处理步骤1

d、cd $GAUSSLOG/ffic_log 查看是否有ffic日志,如果存在ffic日志,则执行处理步骤2

处理步骤

将core文件下载,并获取高斯内核版本号(gaussdb -V命令),发送给华为工程师 2. 将ffic日志下载,发送给华为工程师

查询集群状态,DN状态为ReadOnly

问题现象

dn服务异常,告警DN状态为ReadOnly

问题分析及定界

a、df -h 查看磁盘空间分配情况,cm_ctl query -Cvd查看DN数据目录路径,确认所在磁盘空间使用率。

b、登陆cmserver主所在节点,cd $GAUSSLOG/cm/cm_server,根据告警时间点,查看cm_server-xxx.log,搜索关键字 Set database to read only mode, 此日志表示当时磁盘使用率超过阈值,DN被设置为只读状态。

c、登陆cmserver主节点,进入cmserver数据目录,到cm_server数据目录查看cm_server.conf 配置文件,查看参数datastorage_threshold_value_check的值,当磁盘使用率超过该参数值时,DN就会被设置为只读,避免磁盘被写满。比较DN磁盘使用率是否超过该参数值,如果是,则按照处理步骤1处理,如果否,则按照步骤2处理

处理步骤

  1. 联系华为工程师,确定是否需要扩容或者删除同磁盘的无用文件

  2. 参考DN只读处理方法

...全文
171 1 打赏 收藏 转发到动态 举报
写回复
用AI写文章
1 条回复
切换为时间正序
请发表友善的回复…
发表回复
CSDN-Ada助手 2023-01-13
  • 打赏
  • 举报
回复
您可以前往 CSDN问答-编程语言 发布问题, 以便更快地解决您的疑问
所有需求全部来自生产实际,源自生产,贴近实战,提高技能。 生产案例生产库A是一台2012年的数据库服务器,存储是戴尔sc8000数据量有20T。数据库版本是11.2.0.3,该数据库是单实例数据库。使用操作系统目录存储,没有使用ASM存储。需要进行数据库服务器和存储迁移。迁移到新服务器和新存储。迁移到新的rac环境,使用本地方式进行升级。 目标:我们需要迁移数据库A到新服务器,新存储。 源库A数据库版本11.2.0.3数据库类型单实例数据存储使用操作系统目录存储,非ASM存储容量20TosRhel6 目标库B数据库版本19.19数据库类型Rac数据存储ASM容量21TOsRhel7 难点。1-数据库服务器需要进行替换2-存储需要进行替换3-容量大,存储没有多余空间,只能才有原地升级方式4-版本跨度大,需要从11203->11204->1919单实例->1919-pdb-rac. 具体步骤1-源服务器数据库命令行创建11203数据库软件2-源服务器数据库命令行创建11203数据库实例3-在目标服务器克隆源库11.2.0.3数据软件。并且在目标服务器搭建源库的dg库。4-开始真正的割接,割接的时候没有业务的。激活11203dg为主库。5-升级11203到112046-升级11204到19.197-配置19.19单实例数据库为rac数据库中的某个pdb。Over. 针对以前学员提出文档不全的意见,其实文档都是有的,都已经上传到百度网盘。这次实战课程整理文档如下:0-创建源库11203单实例1-通过克隆方式在目标服务器rac上面创建11203数据库软件2-在目标库rac数据库上面创建11203的单实例的dg3-目标库rac安装11204单实例软件和升级11203到112044-11204升级到19c数据库

67,996

社区成员

发帖
与我相关
我的任务
社区描述
汇集数据库的爱好者和关注者,大家共同学习、探索、分享数据库前沿知识和技术,像松鼠一样剥开科学的坚果;交流Gauss及其他数据库的使用心得和经验,互助解决问题,共建数据库技术交流圈。
数据库数据仓库 企业社区 北京·海淀区
社区管理员
  • Gauss松鼠会
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

欢迎大家同时关注Gauss松鼠会专家酷哥。

https://www.zhihu.com/people/ku-ge-78-98

试试用AI创作助手写篇文章吧