GaussDB灾备升主failover流程异常

举报
GaussDB 数据库 发表于 2025/12/09 15:11:40 2025/12/09
【摘要】 故障现象灾备集群有故障节点未参与灾备集群升主。故障原因因服务器宕机,网络中断等原因导致节点脱离灾备集群,没有参与灾备集群升主。处理方法步骤 1     故障节点经过硬件维修、上电等操作,重新加入集群。注意:该节点加入集群后,集群状态有可能显示为Normal,该节点上实例状态也有可能显示Normal,但该节点上实例的部分配置参数不正确,仍需要完成如下修复流程。步骤 2     接入任意节点,修...
  • 故障现象

灾备集群有故障节点未参与灾备集群升主。

  • 故障原因

因服务器宕机,网络中断等原因导致节点脱离灾备集群,没有参与灾备集群升主。

  • 处理方法

步骤 1     故障节点经过硬件维修、上电等操作,重新加入集群。

注意:该节点加入集群后,集群状态有可能显示为Normal,该节点上实例状态也有可能显示Normal,但该节点上实例的部分配置参数不正确,仍需要完成如下修复流程。

步骤 2     接入任意节点,修改cm_servercm_agent中关于集群灾备模式的参数,切回主集群配置(如果是沙箱模式,需要/usr/sbin/chroot /var/chroot进入沙箱,然后加载环境变量)。

gs_guc set -Z cmserver -N all -I all -c "backup_open = 0"
gs_guc set -Z cmagent -N all -I all -c "agent_backup_open=0"
gs_guc set -Z cmagent -N all -I all -c "disaster_recovery_type= 0"

步骤 3     接入故障节点,查询cm_servercm_agent的进程ID,使用kill -9命令结束进程,进程会被om_monitor重启,完成cm_servercm_agent参数修改的生效。

ps -ef | grep cm_agent ; ps -ef | grep cm_server

步骤 4     使用cm_ctl query -Cvd获取故障节点的nodeId和对应未参与升主的实例(coordinatordatanode)路径。

步骤 5     使用cm_ctl stop -n NODEID -D DATADIR停掉该节点上未参与升主的实例。

步骤 6     通过om_agenthttps REST API来操控集群实现节点修复。修复步骤详见《工具参考》中“服务端工具 > gs_replace”章节。

----结束

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。