大量 helm-operation 异常是什么

Rancher Server 设置

  • Rancher 版本:2.6.6
  • 安装选项 (Docker install/Helm Chart):
    • 如果是 Helm Chart 安装,需要提供 Local 集群的类型(RKE1, RKE2, k3s, EKS, 等)和版本:
      v1.23.8+k3s1
  • 在线或离线部署: 在线

问题描述:
大量 helm-operation 异常是什么,看报错跟 fleet 有关

删除了 helm-operation-xxx,也正常,好像过段时间又会出现

截图:
1

2

其他上下文信息:

日志


这个是部署 rancher 系统服务的 job,如果部署成功的话,是不会刷这么多的,如果失败,只能挨个看看日志了

helm-operation 的错误都一样
helm upgrade --force-adopt=true --history-max=5 --install=true --namespace=cattle-fleet-system --reset-values=true --timeout=5m0s --version=100.0.3+up0.3.9 --wait=true fleet-crd /home/shell/helm/fleet-crd-100.0.3-up0.3.9.tgz
Error: UPGRADE FAILED: another operation (install/upgrade/rollback) is in progress

rancher 其他功能都正常使用

你看看 installed apps 里有没有这些 pod 在运行,如果已经运行就代表已经安装成功了,那些 job 就可以不关注了

有个 fleet-crd 在 pending

那你应该就不需要关注 失败的那些 job 了

好的,那就不管了,感谢
另一台测试的 v1.23.7+rke2r2 fleet-crd 是正常

这个地方确实存在一些问题,因为当某一时间段 job 安装失败后,会重复的尝试安装,所以就导致了很多 helm 开头的 job,当安装成功后,这些 job 短时间也不自动删除

这个pending可以不用管吗?看这个日志是因为pending upgrade 不成功导致生成了一大堆helm开头的job,如果想要解决需要怎么操作?