Tower
1
Rancher Server 设置
- Rancher 版本:2.6.6
- 安装选项 (Docker install/Helm Chart):
- 如果是 Helm Chart 安装,需要提供 Local 集群的类型(RKE1, RKE2, k3s, EKS, 等)和版本:
v1.23.8+k3s1
- 在线或离线部署: 在线
问题描述:
大量 helm-operation 异常是什么,看报错跟 fleet 有关
删除了 helm-operation-xxx,也正常,好像过段时间又会出现
截图:
其他上下文信息:
日志
ksd
2
这个是部署 rancher 系统服务的 job,如果部署成功的话,是不会刷这么多的,如果失败,只能挨个看看日志了
Tower
3
helm-operation 的错误都一样
helm upgrade --force-adopt=true --history-max=5 --install=true --namespace=cattle-fleet-system --reset-values=true --timeout=5m0s --version=100.0.3+up0.3.9 --wait=true fleet-crd /home/shell/helm/fleet-crd-100.0.3-up0.3.9.tgz
Error: UPGRADE FAILED: another operation (install/upgrade/rollback) is in progress
rancher 其他功能都正常使用
ksd
4
你看看 installed apps 里有没有这些 pod 在运行,如果已经运行就代表已经安装成功了,那些 job 就可以不关注了
Tower
7
好的,那就不管了,感谢
另一台测试的 v1.23.7+rke2r2 fleet-crd 是正常
ksd
8
这个地方确实存在一些问题,因为当某一时间段 job 安装失败后,会重复的尝试安装,所以就导致了很多 helm 开头的 job,当安装成功后,这些 job 短时间也不自动删除
这个pending可以不用管吗?看这个日志是因为pending upgrade 不成功导致生成了一大堆helm开头的job,如果想要解决需要怎么操作?