Rancher 2.6.8间歇性重启,访问报错bad gateway

Rancher Server 设置

  • Rancher 版本:2.6.8
  • 安装选项 (Docker install/Helm Chart): Helm Chart
    • 如果是 Helm Chart 安装,需要提供 Local 集群的类型(RKE1, RKE2, k3s, EKS, 等)和版本:k3s 1.22.4
  • 在线或离线部署:在线

下游集群信息

  • Kubernetes 版本: 1.23
  • Cluster Type (Local/Downstream):
    • 如果 Downstream,是什么类型的集群?(自定义/导入或为托管 等): 自定义/导入

用户信息

  • 登录用户的角色是什么? (管理员/集群所有者/集群成员/项目所有者/项目成员/自定义):
    • 如果自定义,自定义权限集:admin

主机操作系统:

问题描述: rancher 2.6.8 pod间歇性重启,访问报错bad gateway或404,rancher pod日志报错如图所示,rt-vr66v我怀疑是自建的一个role,与role相关的操作只有删除了一个custom project member和custom project admin,不确定是不是相关?为什么不会连带删除呢?

重现步骤:

结果:

预期结果:

截图:


image

其他上下文信息:

日志


requeue 通常不会造成rancher pod restart。

从最后一张图日志看,长时间无法链接kube api的地址(10.43.0.1),可能是导致rancher pod restart的原因。

你提到的local集群是k3s 1.22.4,它是如何安装的?使用的datastore是什么?

curl -sfL https: //get.k3s.io | INSTALL_K3S_VERSION=v1.22.4+k3s1 sh -s - server \

--datastore-endpoint= "mysql://username:password@tcp(hostname:3306)/database-name"
数据库使用的AWS RDS mysql

可以再排查一下rancher pod的 Exit Code。

如果不是OOM,那很有可能是设置的livenessProbe引起的restart。因为日志中出现了k8s-api svc无法访问的情况,这会有可能引起livenessProbe检查失败。