Rancher 长时间不运维,导致集群不可用

Rancher Server 设置

  • Rancher 版本:v2.5.16
  • 安装选项 (Docker install/Helm Chart):
    • 如果是 Helm Chart 安装,需要提供 Local 集群的类型(RKE1, RKE2, k3s, EKS, 等)和版本:
  • 在线或离线部署:单节点部署

下游集群信息

  • Kubernetes 版本:
  • Cluster Type (Local/Downstream):
    • 如果 Downstream,是什么类型的集群?(自定义/导入或为托管 等):

用户信息

  • 登录用户的角色是什么? (管理员/集群所有者/集群成员/项目所有者/项目成员/自定义):
    • 如果自定义,自定义权限集:

主机操作系统:
rancher server: Ubuntu Server 18.04 LTS 64位

问题描述:
超过一年没动,然后集群就不能用了,kubectl也用不了

重现步骤:

结果:

预期结果:

截图:

这是rancher server的日志

这是master1 rancher-agent:v2.5.16 的日志

其他上下文信息:

日志



应该是 rancher server 的证书过期了,可参考:关于单节点Rancher Server证书过期

另外,之所以你通过 kubectl 连接不上 K8s 集群,是因为你的 kubeconfig 中默认连接的是 rancher api,你可以通过 kubectl config -h 切换到 kube-apiserver 来访问下游集群