天天看点

Prometheus Alertmanager

完整译文请访问:http://www.coderdocument.com/docs/prometheus/v2.14/operating/security_model.html。

Alertmanager处理客户端应用程序(如Prometheus服务器)发送的告警。它负责删除、分组和将它们路由到正确的接收方,如电子邮件、PagerDuty或OpsGenie。它还负责保持告警的静默和抑制。

下面描述了Alertmanager实现的核心概念。请参阅配置文档,以了解如何更详细地使用它们。

分组

分组将性质相似的告警归类为单个通知。当许多系统同时发生故障,并且可能同时发出数百到数千个告警时,这种方法尤其有用。

示例:当网络分区发生时,集群中运行数十或数百个服务实例。一半的服务实例不能访问达数据库。Prometheus中的告警规则被配置为在每个服务实例无法与数据库通信时发送告警。结果向Alertmanager发送了数百个告警。

作为用户,只希望获得一个页面,同时仍然能够准确地看到哪些服务实例受到了影响。因此,可以将Alertmanager配置为根据其集群和告警名称对告警进行分组,以便它发送单个紧凑通知。

告警分组、分组通知的定时以及这些通知的接收者由配置文件中的路由树配置。

抑制

抑制是一个概念,当某些其他告警已经触发时,抑制某些告警的通知。

示例:一个告警正在触发,通知整个集群不可到达。可以将Alertmanager配置为在特定告警触发时对此集群相关的所有其他警报保持沉默。这可以防止数百或数千次发出与实际问题无关的告警。

抑制是通过Alertmanager的配置文件配置的。

完整译文请访问:http://www.coderdocument.com/docs/prometheus/v2.14/operating/security_model.html。

继续阅读