成人一对一视频交友

普罗米修斯有一个奇怪的问题,令人费解

elbert
elbert

-问题:告警是正常的,恢复告警的发送不正常。

举例:以下面的cpu规则为例,如果cpu超过所设的阈值90,是能接到告警的。如下:

状态:点火

开始时间2020-10-18 10:4433602 z 2020-10-18

描述:命名空间xx的pod xx-xx-testpod当前的CPU使用率已达到99.89 .

但接到告警恢复的通知时,数值往往大于90%.(也有正常的恢复(

状态:已解决

开始时间2020-10-18 10:4433602 z 2020-10-18

描述:命名空间xx的pod xx-xx-testpod当前的CPU使用率已达到98.11 .

按我的理解恢复通知只有cpu 90持续resolve_timeout的值之后才能触发,现在是哪里配置有问题吗?

相关组件都是通过kubernetes算子部署在k8s集群中的。

普罗米修斯规则:

alert: PodCPUOvercommit

描述:命名空间{{ $labels.namespace }}的pod {{ $labels.pod }}当前的CPU使用率已达到{ { printf”%。2f”$ value } } .

expr : | 100 *(sum(rate(container _ CPU _ usage _ seconds _ total { namespace!~ ‘监控,容器!=’ ‘ }[1m])(pod,namespace)/sum(kube _ pod _ container _ resource _ limits _ CPU _ cores { namespace!~ ‘监控,容器!=”}) by (pod,namespace)) 90

:米

alertmanager

global:

resolve_timeout: 1m

route:

group_by: [‘alertname’]

group_wait: 10s

group_interval: 1m

repeat_interval: 12h

receiver: ‘webhook ‘

接收器:

名称:“webhook”

webhook_configs:

url: ‘http://x.x.x.x:xx/’

send_resolved: true

elbert
品牌