部署的rancher2.5.7版本,启用过集群监控。现在想要自己搭建一套监控,就关闭了rancher上的集群监控功能。
但是发现监控关闭后,还有一个名为cattle-prometheus的namespace,里面部署了prometheus-operrator应用,某些东西和自己的监控冲突了。应用商店和system里面还能看到cattle-prometheus这个namespace下有这些内容:
在工作负载、应用商店中删除了以上内容,并kubecctl delete删除cattle-prometheus这个namespace。但是不到五分钟,namespace就自动创建了,截图内容又恢复了原样。
查看namespace的所有资源,包括pod、service、secret、serviceaccount、configmap等等所有资源都是新创建的
求教有哪位大佬知道怎么彻底删除这个namespace吗??
ksd
2022 年6 月 15 日 06:54
2
你把项目和集群级别的监控都看一看,应该有没禁用的监控。
还有自己创建告警通知啥的,都删掉试试
这应该是要先在 工具 -> 监控 -> 禁用监控
才能做删除操作。
所有项目都一一检查过了,没有开启的监控,所有的监控都禁掉了。
告警那块,除了系统本身又的那些搞告警项目,没有我们自己配置的告警。只有在 “工具—通知” 里配了个企业微信通知,删不掉了。删掉企业微信告警通知提示:
通知程序 项目告警 正在由 A set of alerts for cluster scans,A set of alerts for etcd,A set of alerts for kube components,A set of alerts for node,A set of alerts when event happened 使用。
undefined
就是按照这个步骤来的哈,我先禁掉了集群监控,禁掉监控的时候,rancher部署的那些node-exporter啥的它自己删除了。
就剩我截图这俩,不知道为什么死活删不掉
这个看着像是 rancher 监控的 Operator ,你把 pod 副本数设置为 0 不就好了。
pod设置为0是可以的,但自己的那套监控部署不上去,提示有冲突
谢谢大佬的帮助。
之前同事说是部署自己的监控系统的时候与cattle-prometheus的东西冲突了,其实应该是信息不准确。在部署alert组件和prometheus组件的时候一直在重启,后来一个个组件部署,又起来了。
所以现在集群监控残留的cattle-prometheus还是没删掉,想尽了各种办法。pvc、crd什么都检查过了,没有发现残留的东西。
不过好在自己的监控系统已经部署起来了,cattle-prometheus就没管它了,以后不敢轻易启用rancher自带的集群监控了。
tenkuu
2022 年6 月 21 日 06:18
11
你这个是因为有告警规则配置了通知,这种情况下rancher会部署cluster-alerting、monitoring-operator两个应用程序(也是必须的,为了使你的告警通知可以正常工作)。可以检查下集群、项目层级是否仍有告警组配置了通知,不希望使用该功能把它去掉,对应的应用程序就会自己清理了
已经检查过了哈,自己没有在rancher上配置任何告警,开启的监控也全部关闭了的,界面查遍了,没有发现遗漏
tenkuu
2022 年6 月 21 日 08:52
14
crystal:
通知程序 项目告警 正在由 A set of alerts for cluster scans,A set of alerts for etcd,A set of alerts for kube components,A set of alerts for node,A set of alerts when event happened 使用。
undefined
看你之前的这个信息,删除通知时报错,还是怀疑 A set of alerts for cluster scans,A set of alerts for etcd,A set of alerts for kube components,A set of alerts for node,A set of alerts when event happened 这些告警组有配置了通知。按以下步骤确认下
如果这里确实是没有配置通知的信息,可以在 local 集群执行下 kubectl get clusteralertgroups.management.cattle.io -n local cluster-scan-alert -oyaml | grep recipient
看下是否有 recipient 信息
按照您说的步骤检查了,没有发现自己配置的告警信息。
然后在local和自己创建的集群下都执行了您说的命令,结果都提示“error: the server doesn’t have a resource type “clusteralertgroups””