Rke2下游集群主管理节点无法正常启动

Rancher Server 设置

  • Rancher 版本:2.8
  • 安装选项 (Docker install/Helm Chart):
    • 如果是 Helm Chart 安装,需要提供 Local 集群的类型(RKE1, RKE2, k3s, EKS, 等)和版本:rke2 v1.27.7+rke2r1

下游集群信息

  • Kubernetes 版本: v1.27.7+rke2r1

**主机操作系统:Ubuntu 22.04.2 LTS

**问题描述:下游集群的主管理节点上的rke2-server服务无法正常启动,一直在重启。报错如下图。请问如何修复



是否是etcd上出问题造成的呢,我看日志报错有一个
Oct 15 16:10:33 rke2-work-con1 rke2[6682]: {“level”:“warn”,“ts”:“2024-10-15T16:10:33.05417+0800”,“caller”:“snap/db.go:88”,“msg”:“failed to find [SNAPSHOT-INDEX].snap.db”,“snapshot-index”:399176985,“snapshot-file-path”:“/var/lib/rancher/rke2/server/db/etcd-tmp/member/snap/0000000017caf519.snap.db”,“error”:“snap: snapshot file doesn’t exist”}

追问一个问题,如果无法修复了。
对于一个3管理节点的集群。我能否通过修改配置文件,将第二个管理节点,变成主管理节点。然后重新部署一个节点加入到集群。

你初始环境的步骤,和操作是

集群是3个管理节点+5个工作节点组成的。构建集群的方式是按照官方教程:首先启动一个管理节点,然后后续管理节点的配置文件中的server信息都是写的第一个节点,这样依次添加的。
这次报错也是第一个管理节点突然这样了,我尝试过etcd的还原命令,也是一样的报错。感觉像是文件彻底损坏了一样。
这是第一个节点的配置文件
图片
这是后续管理节点的配置文件
图片

去掉注释config.yaml 里面内容,启动不成功很多时候config.yaml配置不对或不支持的参数