Rancher Server 设置
- Rancher 版本:2.5.8
- 安装选项 (Docker install/Helm Chart): Docker
- 在线或离线部署:离线
下游集群信息
- Kubernetes 版本: 1.18.20
- Cluster Type (Local/Downstream): Local
用户信息
- 登录用户的角色是什么? admin
- 如果自定义,自定义权限集:
主机操作系统:
centos 7.9
问题描述:
邮件瞬时间收到多封告警邮件,如何降低收信频率?
重现步骤:
在web UI页面中配置了一套告警规则(选择某个集群,工具->告警),并把告警信息发送到了指定的邮箱了(工具->通知中配置了接收邮箱),我配置了一个pod告警规则:
当 警告 Pod event发生,发送警告到指定邮箱,高级选项中配置了该规则的重复间隔为5min(就算改为1h,以下问题依然存在),当我启动一个测试的pod后(故意使该pod运行异常,状态如CrashLoopBackOff或者Error), 邮箱中瞬时间收到了多封邮件,每封邮件内容都是一堆如下的信息:
Alert Name: pod告警规则test
Severity: warning
Cluster Name: yunphant (ID: c-75drm)
Workload Name: test-sts8
Target: myns:test-sts8-0
Count: 10
Event Message: Back-off restarting failed container
First Seen: 2023-05-23 10:58:15 +0000 UTC
Last Seen: 2023-05-23 10:58:15 +0000 UTC
Alert Name: pod告警规则test
Severity: warning
Cluster Name: yunphant (ID: c-75drm)
Workload Name: test-sts8
Target: myns:test-sts8-0
Count: 16
Event Message: Back-off restarting failed container
First Seen: 2023-05-23 10:58:15 +0000 UTC
Last Seen: 2023-05-23 10:58:15 +0000 UTC
……
很明显里面的Count并不是pod 的重启次数,该邮件发送的频率有点高,怎么配置的低一点呢?为什么配置的间隔5min感觉没生效呢?
结果:
有个pod挂掉了,没管他,跑了大概一晚上,控制台看到pod重启了176次,邮箱收到了大概314封邮件,每5分钟就收到2封邮件,标题类似“Warning event of Pod occurred”。
预期结果:
同一类型的错误,在一定时间内发一封邮件即可,个人认为由于高级配置中的间隔时间配置或告警组间隔时长配置未生效导致。
截图:
其他上下文信息:
日志