Rancher2.6.8集群连接错误相关问题

Rancher Server 设置

  • Rancher 版本:v2.6.8
  • 安装选项 (Docker install/Helm Chart): Helm Chart
    • 如果是 Helm Chart 安装,需要提供 Local 集群的类型(RKE1, RKE2, k3s, EKS, 等)和版本: RKE1
  • 在线或离线部署 在线

下游集群信息

  • Kubernetes 版本: v1.20.15
  • Cluster Type (Local/Downstream): Downstream
    • 如果 Downstream,是什么类型的集群?(自定义/导入或为托管 等): 自定义

用户信息

  • 登录用户的角色是什么? (管理员/集群所有者/集群成员/项目所有者/项目成员/自定义):管理员
    • 如果自定义,自定义权限集:

主机操作系统:
CentOS7.9
问题描述:
下游集群rancher-agent持续输出错误日志Error while getting agent config,抽查了部分集群好像都存在这个问题,但是rancher管理下游集群是正常状态,一段时间后就会导致磁盘空间满,最终服务异常。
另外,rancher集群管理下游集群数量大概40左右,外部Nginx代理CPU持续100%;是否和这个错误有关,具体信息如下方截图。
重现步骤:

结果:

预期结果:

截图:



其他上下文信息:

日志


如果你使用Local集群的Ingress来作为Rancher server访问入口,对于一些特殊的下游集群发行版,尤其是证书文件较大的。大概率是需要调整Local集群的Ingress配置。

参考文档:ConfigMap - NGINX Ingress Controller
主要看 http2-max-field-sizehttp2-max-header-size,建议分别增大至32k和64k。

使用的不是local集群的ingress,是外部nginx 1.16.1版本,配置参数如下:
这是nginx代理 http块配置


这是nginx代理 rancher server块相关的配置

image
我i增加了这两个配置,貌似恢复正常了,感谢!