Rancher 2.4.4 集群unavailabe

Rancher Server 设置

  • Rancher 版本:2.4.4
  • 安装选项 (Docker install/Helm Chart):
    Docker install
    • 如果是 Helm Chart 安装,需要提供 Local 集群的类型(RKE1, RKE2, k3s, EKS, 等)和版本:
  • 在线或离线部署:

下游集群信息

  • Kubernetes 版本:
    1.16.3
  • Cluster Type (Local/Downstream): Local
    • 如果 Downstream,是什么类型的集群?(自定义/导入或为托管 等):

用户信息

  • 登录用户的角色是什么? (管理员/集群所有者/集群成员/项目所有者/项目成员/自定义):admin
    • 如果自定义,自定义权限集:

主机操作系统: centos

问题描述: 时不时rancher界面上会显示托管的k8s集群未就绪

重现步骤:

结果:

预期结果:

截图:

其他上下文信息:

日志
查看rancher 容器日志
[ERROR] [updateClusterHealth] Failed to update cluster [c-6z88d]: Operation cannot be fulfilled on clusters.management.cattle.io "c-6z88d": the object has been modified; please apply your changes to the latest version and try again

查看K8s集群网络正常的能够正常访问

集群状态还会自动恢复,隔5分钟又显示集群未就绪

这个是因为下游集群 K8s api-server 压力大,导致的暂时连接不到下游集群 api 导致的,你可以升级到 最新的 2.7,应该就不会出现类似情况了

1 个赞

您好,这个是在哪里有体现呢,在unavailable的时候 我登录下游集群,使用kubectl命令访问get 资源 都是很快返回,日志也没有明显的报错,包裹rancher-server日志也没有。

当出现这个错误的时候,你可以用 htop 命令看看下游集群控制节点的进程 CPU 占用情况,api server 进程占用非常高

1 个赞

是的 有这个api server 占用CPU高现象,除了升级还有其他方法修复么,因为这个情况不是经常发生。评估升级风险太大了。

如果不想升级,就得优化各种下游集群的 K8s 参数,反正我是没弄过。

这种现象对下游集群没任何影响,对你的业务也没影响,就是短暂出现一些提示,比较别扭

您好,能麻烦给帮忙看下这个报错吗Failed to ensure monitoring project name: failed to find “cattle-prometheus” Namespace: etcdserver: request timed out; Failed to communicate with API server: etcdserver: request timed out 重启过rancher也不能解决