关于单节点Rancher Server证书过期

ksd · 2022 年6 月 9 日 13:39

今天我们来聊聊单节点安装的 Rancher 的证书问题，其实这个问题从去年（2020 年）就已经暴露出来了，因为 Rancher 2.3 的首个版本是 2019 年 10 月 8 日发布的，到 2020 年的 10 月份正好满一年，说到这里，真挺佩服我们国内用户的尝鲜精神。

那么单节点安装的 Rancher 的证书过期会是什么现象呢：

Rancher UI 无法访问
Rancher Server 日志报错：x509: certificate has expired or is not yet valid
Rancher Server 反复重启（如果你在启动 rancher 时加了 --restart 参数）

此时，你无法继续再通过 Rancher UI 去操作集群，有许多用户就会认为整个集群都挂掉了，莫慌，其实并不是这样。Rancher 的设计是分离式的，也就是说 Rancher Server 挂掉，根本不会影响你创建的业务集群，你可以继续通过kubectl操作你的业务集群，而且你的 pod 等业务不会有任何变动。

原因

Rancher 官网明确指出 Rancher v2.3 以上的版本 会自动检查证书有效期，如果发现证书即将过期，将会自动生成新的证书，那为什么会出现上述的情况呢，其实这是 K3s 的一个 bug 引起的。

Rancher Server 内置了一个 K3s 集群作为 local 集群，也就是说通过docker run ... rancher/rancher:version 启动的 Rancher，在容器里其实已经内置了一个 K3s 用来支撑 Rancher 的运行。

这里再简单说下 K3s 的证书逻辑，K3s 证书有效期默认也是一年，如果证书已经过期或剩余的时间不足 90 天，则在 K3s 重启时轮换证书。但在 K3s v1.19.1 之前的版本中，由于 BUG(https://github.com/k3s-io/k3s/issues/1621)，导致K3s无法自动轮转证书。

Rancher v2.3+ 和 v2.4+ 内置的 K3s 版本分别是1.17.x和1.18.x，所以说由于内置的 k3s 影响到了 Rancher Server 的证书轮转，因为当 Rancher 证书过期后，会自动重启 Rancher Server 的重启，然后触发内置 K3s 的更新，此时，K3s 证书更新失败，所以，Rancher Server 就无法启动。

手动轮转证书

2.3.x


docker exec -ti <rancher_server_id> mv /var/lib/rancher/k3s/server/tls /var/lib/rancher/k3s/server/tlsbak

# 执行两侧，第一次用于申请证书，第二次用于加载证书并启动

docker restart <rancher_server_id>

2.4.x 和 2.5.x

1. docker exec 到 Rancher Server 容器内，执行：


kubectl --insecure-skip-tls-verify -n kube-system delete secrets k3s-serving

kubectl --insecure-skip-tls-verify delete secret serving-cert -n cattle-system

rm -f /var/lib/rancher/k3s/server/tls/dynamic-cert.json

2. 重启 rancher-server

3. 将 rancher ip 重新注入到新证书中，否则业务集群 agent 连接 Rancher Server 会有问题


curl --insecure -sfL https://{server-url}/v3 # server-url 需要替换为你的 rancher server 的访问地址

后记

Rancher v2.5.8 通过把内置的 K3s 集群更新到v1.20解决了这个问题。无论是新安装的，还是从老版本升级到 v2.5.8 的单节点 Rancher，都不会再被证书过期所困扰。

其实非常不建议大家在生产上用单节点安装，如果机器不够用，可以先用 rke 或 k3s 启动一个单节点的 local 集群，然后通过 helm 将 Rancher 部署到这个 local 集群上，这样即不占用过多机器，也可以为后期扩展打好基础。

dd · 2022 年12 月 23 日 01:23

大神， Rancher 2.4.15 更新到 2.5.8 可以直接更新吗？还是需要哪些中间版本的过渡？感谢！

ksd · 2022 年12 月 23 日 01:30

个人建议先将升级到 2.4 的最新版本，然后再升级到 2.5

Wjun0 · 2023 年9 月 20 日 03:09

大佬好，我用的docker 单节点 rancher 2.5.12版本，按照上面的步骤更新证书后，rancher server 还是无法启动，看了一下日志是k3s 无法启动导致，容器一直等待k3s 启动，k3s 日志提示证书问题，但是我检查了/var/lib/rancher/k3s/server/tls 下的所有证书都已经更新了，请问一下是哪里还有问题。

k3s 错误日志如下：

http: TLS handshakke error from 127.0.0.1:37434: remote error: tls: bad certificate

docker 错误日志如下：
Waiting for server to become available: Get “https://127.0.0.1:6443/version?timeout15m0s” dial tcp 127.0.0.1:6443: connect: connection refused

ksd · 2023 年9 月 21 日 01:11

你是如何操作的？把你每个真实的操作命令都写到下面

Wjun0 · 2023 年9 月 21 日 03:26

docker exec 进入容器执行下面的步骤
1，kubectl --insecure-skip-tls-verify -n kube-system delete secrets k3s-serving
提示成功 secret “k3s-serving” deleted
2, kubectl --insecure-skip-tls-verify delete secret serving-cert -n cattle-system
提示失败 Error from server (NotFound): secrets “serving-cert” not found
3, rm -f /var/lib/rancher/k3s/server/tls/dynamic-cert.json
4，重启容器
5，curl --insecure -sfL https://ip/v3 （这里不知道要不要加端口）
6，重启容器
发现容器一直在重启
docker logs 错误是连接不上127.0.0.1:6443， k3s 退出后容器就重启了，日志如下
Waiting for server to become available: Get “https://127.0.0.1:6443/version?timeout15m0s” dial tcp 127.0.0.1:6443: connect: connection refused
k3s exited with: exit status 255

进入容器查看k3s 日志如下：
msg=“Cluster-Http-Server 2023/09/21 10:10:10 http: TLS handshake error from 127.0.0.1:32862: remote error: tls :bed certificate”
msg=“Cluster-Http-Server 2023/09/21 10:10:10 http: TLS handshake error from 127.0.0.1:32870: remote error: tls :bed certificate”

后面还有两条 error msg=“Failed to set sysctl: open /proc/sys/net/bridge-nf-call-iptables: no such file or directory”
error msg=“Failed to set sysctl: open /proc/sys/net/bridge-nf-call-ip6tables: no such file or directory”

但是我觉得还是因为k3s 证书的问题，/var/lib/rancher/k3s/server/tls 下的所有.crt 我都检查过了，enddate 只少都是1年后，所以现在不知道是哪里还有问题，还请大佬指点指点。

jj · 2024 年4 月 11 日 09:01

敢问最后有修复吗

ksd · 2024 年4 月 11 日 09:06

其实不管修复不修复都不重要，因为 docker run 这种方式安装的 rancher 官方根本不建议上生产。

jj · 2024 年4 月 11 日 09:47

2.5.18 按照帖子更新后 Rancher-webhook 一直报 Waiting for server to become available: the server has asked for the client to provide credentials
然而Rancher-webhook 的证书是有效的

ksd · 2024 年4 月 12 日 01:40

这个也不是更新 webhook 的操作，你可以创建一个新的话题，将详细上下文和操作步骤描述清楚。

六道轮回菠萝 · 2024 年9 月 29 日 03:11

执行了：

curl --insecure -sfL https://{server-url}/v3

并且成功返回了{“apiVersion”:{“group”:信息
但是rancher agent仍然报错：
Get "https://x.x.x.x:1443": x509: certificate is valid for 127.0.0.1, 172.17.0.2, not x.x.x.x"

ksd · 2024 年9 月 29 日 03:22

替换为你 rancher 使用的地址

ksd · 2024 年9 月 29 日 05:04

为什么要加个 token 呢？你可以在执行过程中观察 rancher server 的日志。看看有没有触发证书轮换的日志。

六道轮回菠萝 · 2024 年9 月 29 日 05:39

不添加token要报错401呀，那我观察下

六道轮回菠萝 · 2024 年9 月 29 日 06:40

执行了curl不加token之后， rancher-server日志没有变化啊，没有轮换证书的内容，报错还是如下（报错的大概原因就是rancher agent连不上rancher server）：

2024/09/29 06:35:28 [ERROR] cluster [c-jtsrg] provisioning: Failed to set up SSH tunneling for host [x.x.x.x]: Can’t establish dialer connection: can not build dialer to [c-jtsrg:m-ed003dd035cf]
2024/09/29 06:35:28 [ERROR] cluster [c-jtsrg] provisioning: Removing host [x.xx.x.x] from node lists
2024/09/29 06:35:43 [ERROR] ClusterController c-jtsrg [cluster-deploy] failed with : Get “https://x.x.x.x:6443/apis/apps/v1/namespaces/cattle-system/daemonsets/cattle-node-agent?timeout=45s”: waiting for cluster [c-jtsrg] agent to connect, [cluster-provisioner-controller] failed with : Cluster must have at least one etcd plane host: failed to connect to the following etcd host(s) [x.x.x.x]

我的部署情况大概就是这个rancher server和agent在同一个机器上，所以我curl的是这个机器的ip，但是我访问页面是用的域名访问，例如https://rancher.xx.com
但是我curl的是： curl --insecure -sfL https://x.x.x.x:1443/v3

ksd · 2024 年9 月 30 日 02:00

那你就用域名 curl 一下

六道轮回菠萝 · 2024 年10 月 14 日 12:16

域名CURL一下之后还是没有触发证书轮转，还是报错：
couldn’t get current server API group list: Get “https://10.10.x.x:1443/k8s/clusters/c-jtsrg/api?timeout=32s”: tls: failed to verify certificate: x509: certificate is valid for 127.0.0.1, 172.17.0.2, not 10.10.x.x
Unable to connect to the server: tls: failed to verify certificate: x509: certificate is valid for 127.0.0.1, 172.17.0.2, not 10.10.x.x

ksd · 2024 年10 月 15 日 01:52

把执行的命令发出来

六道轮回菠萝 · 2024 年10 月 15 日 02:50

curl --insecure -sfL https://10.10.x.x:1443/v3

curl --insecure -sfL https://rancher-x.x.com/v3

这两个都试过了

hong · 2025 年4 月 1 日 11:32

我的手动轮转成功了谢谢