rancher: v2.9.1
1:安装了gpu-operator (nvidia) 插件 成功安装(相关的pod,Service,控制器都创建成功)
2:安装了 monitoring 插件, 成功安装
3: 创建了 serviceMonitor (nvidia-dcgm-exporter), 监控gpu相关的参数 (正常运行)
grafana 配置了 gpu的dashboard, 也可以正常监控!
但是运行一段时间(可能是1小时,也不能是好几个小时)后, serviceMonitor 就会被删除! 这是什么原因?