- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

GaussDB灾备升主failover流程异常

GaussDB 数据库发表于 2025/12/09 15:11:40 2025/12/09

【摘要】故障现象灾备集群有故障节点未参与灾备集群升主。故障原因因服务器宕机，网络中断等原因导致节点脱离灾备集群，没有参与灾备集群升主。处理方法步骤 1 故障节点经过硬件维修、上电等操作，重新加入集群。注意：该节点加入集群后，集群状态有可能显示为Normal，该节点上实例状态也有可能显示Normal，但该节点上实例的部分配置参数不正确，仍需要完成如下修复流程。步骤 2 接入任意节点，修...

故障现象

灾备集群有故障节点未参与灾备集群升主。

故障原因

因服务器宕机，网络中断等原因导致节点脱离灾备集群，没有参与灾备集群升主。

处理方法

步骤 1 故障节点经过硬件维修、上电等操作，重新加入集群。

注意：该节点加入集群后，集群状态有可能显示为Normal，该节点上实例状态也有可能显示Normal，但该节点上实例的部分配置参数不正确，仍需要完成如下修复流程。

步骤 2 接入任意节点，修改cm_server和cm_agent中关于集群灾备模式的参数，切回主集群配置（如果是沙箱模式，需要/usr/sbin/chroot /var/chroot进入沙箱，然后加载环境变量）。

gs_guc set -Z cmserver -N all -I all -c "backup_open = 0"
gs_guc set -Z cmagent -N all -I all -c "agent_backup_open=0"
gs_guc set -Z cmagent -N all -I all -c "disaster_recovery_type= 0"

步骤 3 接入故障节点，查询cm_server和cm_agent的进程ID，使用kill -9命令结束进程，进程会被om_monitor重启，完成cm_server和cm_agent参数修改的生效。

ps -ef | grep cm_agent ; ps -ef | grep cm_server

步骤 4 使用cm_ctl query -Cvd获取故障节点的nodeId和对应未参与升主的实例（coordinator和datanode）路径。

步骤 5 使用cm_ctl stop -n NODEID -D DATADIR停掉该节点上未参与升主的实例。

步骤 6 通过om_agent的https REST API来操控集群实现节点修复。修复步骤详见《工具参考》中“服务端工具 > gs_replace”章节。

----结束

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

GaussDB灾备升主failover流程异常

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

GaussDB灾备升主failover流程异常

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品