Master 节点重新加入集群异常状态

环境信息:
RKE2 版本: v1.23.15+rke2r1

集群配置: 3 servers 100 agents

问题描述:

2023-01-17 日 3 servers(role:all)中其中 23.hdp.dc.xyz 节点出现一个节点状态(Waiting for probes: kube-controller-manager, kube-scheduler) ,2023-01-18 尝试将该节点删除,并准备重新加入。当删除该节点之后,另外的 3 servers(role:all)中其中 24.hdp.dc.xyz 节点出现状态(Waiting for probes: kube-controller-manager, kube-scheduler) 并且尝试将原来的 23.hdp.dc.xyz 加入的时候,无法正常加入。表现为,使用 curl --insecure -fL https://172.25.48.118/system-agent-install.sh | sudo sh -s - --server https://172.25.48.118 --label 'cattle.io/os=linux' xxxxxx --etcd --controlplane --worker 执行之后, rancher-system-agent 启动正常,但是接下来就没有其他反映了。现在是原来 3 个server 一个被删除后无法正常加入,剩下两个一个节点(rancher ui)状态异常,用命令看状态是正常的

22.hdp.dc.xyz    Ready                      control-plane,etcd,master,worker   370d   v1.23.15+rke2r1
24.hdp.dc.xyz    Ready                      control-plane,etcd,master,worker   370d   v1.23.15+rke2r1 

谢谢。英文版的在 slack

这么多节点,而且这么老的版本,要不要考虑买个订阅

哈哈哈,可惜公司不会考虑付费,只考虑“白嫖”使用。 :laughing: 另外这个问题应该是集群状态不对,新节点才会加不进去,先修复集群状态。(应该是证书问题)

我们集群本身遇到的是这个 ISSUE 解决完这个集群异常后,集群恢复正常状态,可以加入 server 节点
https://github.com/rancher/rancher/issues/41125#issuecomment-1506620040