Rke2下游集群主管理节点无法正常启动

liaokejie · 2024 年10 月 15 日 08:12

Rancher Server 设置

Rancher 版本：2.8
安装选项 (Docker install/Helm Chart):
- 如果是 Helm Chart 安装，需要提供 Local 集群的类型（RKE1, RKE2, k3s, EKS, 等）和版本：rke2 v1.27.7+rke2r1

下游集群信息

Kubernetes 版本: v1.27.7+rke2r1

**主机操作系统：Ubuntu 22.04.2 LTS

**问题描述：下游集群的主管理节点上的rke2-server服务无法正常启动，一直在重启。报错如下图。请问如何修复

是否是etcd上出问题造成的呢，我看日志报错有一个
Oct 15 16:10:33 rke2-work-con1 rke2[6682]: {“level”:“warn”,“ts”:“2024-10-15T16:10:33.05417+0800”,“caller”:“snap/db.go:88”,“msg”:“failed to find [SNAPSHOT-INDEX].snap.db”,“snapshot-index”:399176985,“snapshot-file-path”:“/var/lib/rancher/rke2/server/db/etcd-tmp/member/snap/0000000017caf519.snap.db”,“error”:“snap: snapshot file doesn’t exist”}

追问一个问题，如果无法修复了。
对于一个3管理节点的集群。我能否通过修改配置文件，将第二个管理节点，变成主管理节点。然后重新部署一个节点加入到集群。

ju · 2024 年10 月 16 日 06:57

你初始环境的步骤，和操作是

liaokejie · 2024 年10 月 17 日 00:46

集群是3个管理节点+5个工作节点组成的。构建集群的方式是按照官方教程：首先启动一个管理节点，然后后续管理节点的配置文件中的server信息都是写的第一个节点，这样依次添加的。
这次报错也是第一个管理节点突然这样了，我尝试过etcd的还原命令，也是一样的报错。感觉像是文件彻底损坏了一样。
这是第一个节点的配置文件

这是后续管理节点的配置文件

lisanmengmeng · 2024 年10 月 25 日 08:34

去掉注释config.yaml 里面内容，启动不成功很多时候config.yaml配置不对或不支持的参数