Rancher 2.4.4 集群unavailabe

Mokaz111 · 2023 年10 月 20 日 06:15

Rancher Server 设置

Rancher 版本：2.4.4
安装选项 (Docker install/Helm Chart):
Docker install
- 如果是 Helm Chart 安装，需要提供 Local 集群的类型（RKE1, RKE2, k3s, EKS, 等）和版本：
在线或离线部署：

下游集群信息

Kubernetes 版本:
1.16.3
Cluster Type (Local/Downstream): Local
- 如果 Downstream，是什么类型的集群?(自定义/导入或为托管等):

用户信息

登录用户的角色是什么？（管理员/集群所有者/集群成员/项目所有者/项目成员/自定义）：admin
- 如果自定义，自定义权限集：

主机操作系统： centos

问题描述： 时不时rancher界面上会显示托管的k8s集群未就绪

重现步骤：

结果：

预期结果：

截图：

其他上下文信息：

日志

查看rancher 容器日志
[ERROR] [updateClusterHealth] Failed to update cluster [c-6z88d]: Operation cannot be fulfilled on clusters.management.cattle.io "c-6z88d": the object has been modified; please apply your changes to the latest version and try again

查看K8s集群网络正常的能够正常访问

Mokaz111 · 2023 年10 月 20 日 06:16

集群状态还会自动恢复，隔5分钟又显示集群未就绪

ksd · 2023 年10 月 20 日 07:59

这个是因为下游集群 K8s api-server 压力大，导致的暂时连接不到下游集群 api 导致的，你可以升级到最新的 2.7，应该就不会出现类似情况了

Mokaz111 · 2023 年10 月 26 日 02:49

您好，这个是在哪里有体现呢，在unavailable的时候我登录下游集群，使用kubectl命令访问get 资源都是很快返回，日志也没有明显的报错，包裹rancher-server日志也没有。

ksd · 2023 年10 月 26 日 08:08

当出现这个错误的时候，你可以用 htop 命令看看下游集群控制节点的进程 CPU 占用情况，api server 进程占用非常高

Mokaz111 · 2023 年10 月 27 日 10:10

是的有这个api server 占用CPU高现象，除了升级还有其他方法修复么，因为这个情况不是经常发生。评估升级风险太大了。

ksd · 2023 年10 月 28 日 02:26

如果不想升级，就得优化各种下游集群的 K8s 参数，反正我是没弄过。

这种现象对下游集群没任何影响，对你的业务也没影响，就是短暂出现一些提示，比较别扭

Huzhao · 2023 年10 月 30 日 00:07

您好，能麻烦给帮忙看下这个报错吗Failed to ensure monitoring project name: failed to find “cattle-prometheus” Namespace: etcdserver: request timed out; Failed to communicate with API server: etcdserver: request timed out 重启过rancher也不能解决