可是我没有安装监控啊,并且关闭了监控
failed on subscribe prometheus: NotFound 404: the server could not find the requested resource (get prometheuses.meta.k8s.io)
failed on subscribe serviceMonitor: NotFound 404: the server could not find the requested resource (get servicemonitors.meta.k8s.io)
对于复现这个问题,你能提供一些线索么?
我在fresh install 2.5.14并添加一个RKE下游集群的情况下,没有看到这样的错误。
是这样的。 我最先是2.5.5版本 然后用docker镜像 升级到2.5.14 升级后集群管理器说监控已经废弃了。我就关闭卸载了监控和日志 ,然后去集群浏览器中安装 但是发现 安装虽然成功了 但是过一会监控就失效了 就是那个普罗米修斯 访问的网页就是显示资不提供 没有正常显示监控页面。然后我又卸载了 。 自从升级后 出现了 监控问题 以及was反复重连 等卡顿
尝试重建cluster-agent pod,你只需删除这个pod,k8s会自动重建它。
cluster-agent重新启动时,会尝试修复一些CRD,会包括你的日志中展示的缺失部分。
请问你说的这个cluster-agent pod 在哪删除呢
下游集群的cattle-system namespace下可以看到。
这样处理后 ,我尝试了下,重复切换项目 ,感觉因为wss 不断重连的情况好了很多,但是刚才点击rancher 自身项目的system还是一次比较慢
然后我做了如下测试:
发现做了这个操作,集群原先我关闭的Nginx-ingress 自动被打开了,然后我去集群浏览器中安装普罗米修斯监控报错如下:
Error: failed to create resource: services “rancher-monitoring-ingress-nginx” is forbidden: unable to create new content in namespace ingress-nginx because it is being terminated
我手动升级集群 把nginx-ingress 和nginx -banckend 再打开试试。
同时再在集群浏览器安装下监控:这个操作后还是
报错 Error: failed to create resource: services “rancher-monitoring-ingress-nginx” is forbidden: unable to create new content in namespace ingress-nginx because it is being terminated
再测试不断切换项目判断是否还卡顿 :发现做了上面的这些操作后,我再次在集群管理器中切换项目,又开始容易卡顿了。
这是我刚刚测试发现的
我不太清楚上下文,假设你的集群是RKE集群,有可能是metrics-server出的问题导致ingress-nginx ns无法删除,可以先通过
kubectl get apiservices |grep metrics
确认是否注册了metrics服务,并通过
kubectl get po -A |grep metric
确认 metrics-server状态
一般如果metrics-server处在不可用状态时,会导致删除ns一直卡在terminating 状态。
一般重建metrics-seerver可以暂时解决,不确定你是这个原因,你可以试试。
补充个情况,做完这些删除下游集群要想不是那么卡顿,要重启rancher server 镜像。才会有效