天天看點

SLS新版告警-告警屬性及其應用

前言

在配置告警的過程中,常常需要了解告警的上下文,告警來源,告警嚴重度等,這些都可以叫做告警的屬性。可以對其進行告警的管理,SLS新版告警包括監控和告警管理部分,其中監控部分主要是用來産生告警,既可以使用自定義告警規則來産生告警,也允許使用者使用外部監控系統(如Zabbix, Promethus,Grafana)來産生告警,對于各類的告警,SLS新版告警系統将這些告警的屬性進行了統一和規範,基于這個規範就可以借助SLS新版告警的管理系統,來對告警進行統一的降噪處理,告警更新,分派通知等功能。

SLS新版告警-告警屬性及其應用

告警屬性介紹

說到告警,人們通常會關心告警來源,嚴重度怎麼樣,告警的一些簡單描述資訊,通過這些資訊來判斷需要進行哪些操作,在SLS新版告警中,對告警屬性指定了統一的規範,在告警管理的過程中會使用這些标準的告警屬性來進行降噪抑制通知等處理。

SLS新版告警的屬性根據主要包含以下幾部分内容,接下來本文将對告警屬性進行簡單的描述。

  • 監控規則
  • 告警資訊
  • 告警規則政策配置資訊
  • 開放告警配置
  • 查詢統計結果

  • 阿裡雲賬号ID:關聯的阿裡雲主賬号ID。告警監控規則所在的阿裡雲賬号ID或開放告警設定的阿裡雲賬号ID。
  • 告警類型:支援如下告警類型
    • 告警監控規則:表示監控告警規則觸發的告警。
    • 開放告警:表示通過開放源接入的告警。
  • 所屬區域:指監控規則所在的項目的區域
  • 所屬項目:SLS新版告警監控規則是在某個項目下建立,這裡指規則所在的項目
  • 規則ID:在每個項目下,監控規則都有唯一的ID,作為告警規則的唯一辨別
  • 規則名:監控規則的名字,可由使用者自定義

下面通過一個簡單的示意圖看下這些屬性,在一個項目下,點選告警圖示,從告警清單中選取一個監控規則,點開詳情,即可看到規則名稱,在URL中可以看到規則ID等

SLS新版告警-告警屬性及其應用

  • 告警狀态:支援狀态如下
    • 告警觸發:表示告警規則滿足觸發條件,并且滿足連續觸發門檻值,會發出一條觸發的告警資訊
    • 告警恢複:如果開啟了告警恢複通知,在規則上次評估滿足觸發條件,本次評估不滿足觸發條件時,會發出一條恢複的告警資訊
  • 嚴重度:嚴重度支援嚴重,高,中,低和報告五種嚴重度,在監控規則中可以配置 告警嚴重度 ,支援靜态嚴重度和動态嚴重度的設定;對于靜态嚴重度度,同一個監控規則産生的所有告警( 分組評估 時可能産生多條告警)都會是設定的嚴重度,對于動态嚴重度,監控規則會根據評估時動态嚴重度設定的條件,不同的告警可能會有不同的嚴重度。
  • 标題:是監控規則的标注中指定的标題,
  • 描述:是監控規則的标注中指定的描述。
  • 标注:在監控規則中可以指定自定義的key和value,産生的告警會包含設定的标注資訊,其中标題和描述是内置的标注。
  • 标簽:在監控規則如果使用了分組評估,分組評估指定的字段名會被自動添加到産生的告警的标簽中,比如分組評估自定義字段為host,在産生告警後,标簽中會包括host字段和值;同時也直指在告警規則中自定義标簽key和value;标簽可以作為告警指紋的一部分,标簽與标注的不同可以參考【 連結
  • 時間相關的屬性
    • 觸發時間:是指本次告警觸發的時間
    • 首次觸發時間:所屬告警規則多次滿足觸發條件時,在未滿足觸發門檻值時,告警不會發出;觸發次數滿足觸發門檻值時,會将告警發送到告警管理,這裡的首次觸發時間是指,首次觸發時間
    • 恢複時間:告警開啟了恢複通知時,當評估時告警條件不滿足觸發條件時,會産生一條恢複告警資訊,恢複時間即為評估時間。

以下可以通過一個例子來看下告警資訊的内容,其中需要注意是标簽會包括分組評估字段和自定義字段,标注會包括内置字段(title和desc),自定義字段,非分組字段(如果打開了自動添加标注開關);

SLS新版告警-告警屬性及其應用

這裡的标簽和标注都可以引用一些集合查詢結果的變量,集合查詢結果資料可能有多行滿足觸發條件的,标簽和标注隻能引用目前評估組内的第一行滿足觸發條件的值。例如:集合查詢結果如下,包含三條資料,觸發條件是有資料滿足err_cnt > 60,這裡第2,3條資料滿足觸發條件,這裡如果引用${domain}或${err_cnt},會取第二條資料的值xxxx.aliyun.com和72

[
  {"domain": "xxxx.aliyun.com", "err_cnt": "51"},
  {"domain": "yyyy.aliyun.com", "err_cnt": "72"},
  {"domain": "zzzz.aliyun.com", "err_cnt": "83"}
]      

告警政策配置資訊

  • 告警政策ID:監控規則或開放告警産生的告警,發送到告警管理系統後,會使用告警政策來進行合并靜默抑制等降噪處理,一個監控規則需要指定告警政策,來指定後續的降噪處理政策。
  • 行動政策ID:監控規則或開放告警産生的告警,在需要進行通知處理時,需要指定相應的行動政策。

下面通過一個例子,來看告警政策和行動政策的配置,下面展示的是同一個告警政策和行動政策在不同模式下的展示方式,告警政策ID是sls.builtin.dynamic,行動政策ID是alert.simple.8xxx

SLS新版告警-告警屬性及其應用

開放告警配置資訊

  • 服務名:表示接入開放告警的服務名稱
  • 應用名:表示接入開放告警的應用名稱
  • 協定:表示接入開放告警的協定,如zabbix,promethus協定等
  • 接入區域:表示接入開放告警的區域

下面通過一個例子,來看下開放告警的這些配置,在開放告警服務中展示的是服務的名稱

SLS新版告警-告警屬性及其應用

點開應用按鈕,彈出應用界面,顯示是應用清單,顯示名稱和協定

SLS新版告警-告警屬性及其應用

點開接口按鈕,彈出接口配置,顯示地域和協定

SLS新版告警-告警屬性及其應用

在自定義監控規則中,最多可以指定3個查詢,每個查詢包含查詢的類型,時間和結果,在告警管理中可以對每個查詢進行引用,包含查詢的時間,查詢分析語句,查詢目标,區域,權限等。對于3個查詢,分别可以用查詢統計0,查詢統計1,查詢統計2來引用,每個查詢的屬性如下:

  • 類型:支援如下查詢統計類型
    • 對日志庫進行查詢統計時,取值為日志庫。
    • 對時序庫進行查詢統計時,取值為時序庫。
    • 對資源資料進行查詢統計時,取值為資源資料。
  • 區域:對日志庫和時序庫進行查詢統計時,取值為監控目标所在的區域,對資源資料進行查詢統計時,無該參數。
  • 項目:對日志庫和時序庫進行查詢統計時,取值為監控目标所屬的項目,對資源資料進行查詢統計時,無該參數。
  • 目标庫:監控的目标庫名稱
  • 查詢關聯的儀表盤:查詢統計關聯的儀表盤ID
  • 使用服務角色:查詢統計時的RAM角色辨別
  • 查詢語句:對日志庫和時序庫進行查詢統計時,取值為查詢和分析語句。對資源資料查詢時,無該參數。
  • 查詢起始時間:對日志庫和時序庫進行查詢統計時,取值為查詢時間範圍的開始時間。例如2006-01-02 15:04:05。對資源資料查詢時,無此參數。
  • 查詢結束時間:對日志庫和時序庫進行查詢統計時,取值為查詢時間範圍的結束時間。例如2006-01-02 15:04:05。對資源資料查詢時,無此參數。

下面以一個例子展示下參數,以下告警規則表示兩個查詢統計,可以在引用時使用查詢統計0,查詢統計1

SLS新版告警-告警屬性及其應用

點開第一個查詢,彈出的查詢統計頁面會顯示查詢的每個資訊

SLS新版告警-告警屬性及其應用

告警屬性的應用

告警屬性是指在告警産生時,生成的告警的資訊;這些告警的内容會被告警管理用來降噪處理,也可以在行動政策中進行分派通知等。在SLS新版告警中是通過可視化編輯的方式來進行告警政策和行動政策的編輯。

在告警政策中,主要包括路由合并政策,抑制政策和靜默政策;行動政策主要包括條件和行動組。

  • 路由合并政策可以使用告警屬性來設定合并基準,表示擁有某個共同告警屬性的告警會被合并進行通知;
  • 在抑制政策和靜默政策中,告警屬性主要用來設定條件,滿足條件時進行抑制和靜默;
  • 在行動政策中,告警屬性主要用來設定條件,當告警屬性滿足某些條件時,可以發送到指定的行動組。

下面一些例子,展示下告警屬性的使用

告警政策配置

在配置告警政策時,界面上可以選擇對路由合并政策,抑制政策,靜默政策進行配置

SLS新版告警-告警屬性及其應用

路由合并政策

在告警政策中,選擇路由合并政策,點選合并基準,下來框可以選擇按照哪些告警屬性進行合并;

SLS新版告警-告警屬性及其應用

也可以選擇自定義,接着對告警屬性進行選擇,可以同時選擇多個屬性。

SLS新版告警-告警屬性及其應用

條件配置

在抑制政策,靜默政策,行動政策中都可以通過設定條件來進行相應的操作。

SLS新版告警-告警屬性及其應用
SLS新版告警-告警屬性及其應用
SLS新版告警-告警屬性及其應用

抑制政策

下面的例子展示的出現告警嚴重度大于等于高時,對告警嚴重度小于等于中的告警進行抑制

SLS新版告警-告警屬性及其應用

靜默政策

下面的例子展示的是告警屬性中的告警标題,為測試告警時,在2021-06-06 17:09:59到2021-06-06 18:09:59之間,即使告警觸發,也不執行行動政策,不進行通知。

SLS新版告警-告警屬性及其應用

行動政策

下面的例子展示是當時告警的嚴重度為嚴重時,發送語音給使用者A,當嚴重度小于等于高時,發送短信給使用者B;

SLS新版告警-告警屬性及其應用

總結

SLS新版告警對自定義告警規則和開放告警産生的告警屬性進行了統一和規範,使用這些告警屬性可以進行靈活的告警政策和行動政策的配置,特别是在各種條件的配置中可以實作很複雜的控制邏輯,滿足各類業務和場景的需求,在告警管理的路由合并,抑制,靜默中有很多的使用場景。

參考

  • 告警管理概述【
  • 建立告警政策【
  • 多種告警分組合并【
  • 告警抑制政策【
  • 告警靜默政策【
  • 條件節點的比對模式【
  • 告警屬性參考【

進一步參考

SLS新版告警-告警屬性及其應用

最後,如果您還想了解更多智能運維前沿資訊,歡迎您報名參加【數智創新行·智能運維專場】。

6月25日|上海·西岸國際人工智能中心

數智創新行上海站·智能運維專場

阿裡雲将帶來雲原生智能運維解決方案,滿足海量事件有效感覺、高效響應,可觀測資料統一分析、故障定位,以及基于AI的異常檢測等需求,助力企業建構自己的運維平台,成為開發、運維人員高效可靠的助手。

掃描海報二維碼或點選下方連結報名, 期待您一起開啟智能運維新時代!

https://www.aliyun.com/page-source//developer/special/osssalon
SLS新版告警-告警屬性及其應用

繼續閱讀