Rancher升级2.6.9后,频繁报503错误

Rancher Server 设置

  • Rancher 版本:v2.6.9
  • 安装选项 (Docker install/Helm Chart): Helm Chart
    • 如果是 Helm Chart 安装,需要提供 Local 集群的类型(RKE1, RKE2, k3s, EKS, 等)和版本:RKE1
  • 在线或离线部署:在线

下游集群信息

  • Kubernetes 版本: v1.20.15
  • Cluster Type (Local/Downstream): Downstream
    • 如果 Downstream,是什么类型的集群?(自定义/导入或为托管 等): 自定义

用户信息

  • 登录用户的角色是什么? (管理员/集群所有者/集群成员/项目所有者/项目成员/自定义):管理员
    • 如果自定义,自定义权限集:

主机操作系统:
CentOS7.9
问题描述:
rancher从2.8升级至2.9后,nginx入口日志每秒都会有大量503错误。
重现步骤:

结果:

预期结果:

截图:
外部代理Nginx日志

rancher Ingress Nginx日志

下游集群cluster-agent偶尔会出现如下日志

其他上下文信息:

日志


你可以暂时先将 rancher副本设置为1,观察rancher-server/rancher-webhook pod的日志情况。


rancher-webhook日志好像没有任何变化

external-nginx —> nginx-ingress,可确认没问题,因为nginx-ingress中就显示503;
nginx-ingress —> rancher-server pod,可以先排查rancher-server 日志,如果没有明显报错,可以转而关注nginx-ingress到rancher-server之间的网络情况。当然,优先排查rancher-server日志。

找到原因了,创建的一个下游集群rancher-agent注册一直在疯狂输出,感谢~~