GaussDB灾备升主failover流程异常
【摘要】 故障现象灾备集群有故障节点未参与灾备集群升主。故障原因因服务器宕机,网络中断等原因导致节点脱离灾备集群,没有参与灾备集群升主。处理方法步骤 1 故障节点经过硬件维修、上电等操作,重新加入集群。注意:该节点加入集群后,集群状态有可能显示为Normal,该节点上实例状态也有可能显示Normal,但该节点上实例的部分配置参数不正确,仍需要完成如下修复流程。步骤 2 接入任意节点,修...
- 故障现象
灾备集群有故障节点未参与灾备集群升主。
- 故障原因
因服务器宕机,网络中断等原因导致节点脱离灾备集群,没有参与灾备集群升主。
- 处理方法
步骤 1 故障节点经过硬件维修、上电等操作,重新加入集群。
注意:该节点加入集群后,集群状态有可能显示为Normal,该节点上实例状态也有可能显示Normal,但该节点上实例的部分配置参数不正确,仍需要完成如下修复流程。
步骤 2 接入任意节点,修改cm_server和cm_agent中关于集群灾备模式的参数,切回主集群配置(如果是沙箱模式,需要/usr/sbin/chroot /var/chroot进入沙箱,然后加载环境变量)。
gs_guc set -Z cmserver -N all -I all -c "backup_open = 0"
gs_guc set -Z cmagent -N all -I all -c "agent_backup_open=0"
gs_guc set -Z cmagent -N all -I all -c "disaster_recovery_type= 0"
步骤 3 接入故障节点,查询cm_server和cm_agent的进程ID,使用kill -9命令结束进程,进程会被om_monitor重启,完成cm_server和cm_agent参数修改的生效。
ps -ef | grep cm_agent ; ps -ef | grep cm_server
步骤 4 使用cm_ctl query -Cvd获取故障节点的nodeId和对应未参与升主的实例(coordinator和datanode)路径。
步骤 5 使用cm_ctl stop -n NODEID -D DATADIR停掉该节点上未参与升主的实例。
步骤 6 通过om_agent的https REST API来操控集群实现节点修复。修复步骤详见《工具参考》中“服务端工具 > gs_replace”章节。
----结束
【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)