TAC報警中心是阿裡雲SRE團隊為專有雲精心打造的一站式告警運維平台,覆寫專有雲所涉及的雲産品、大資料、雲執行個體以及使用者所涉及的站點應用等告警,提供告警生命周期管理以及報警外發等解決方案。幫助專有雲快速發現、定位異常問題,協助産品團隊進行産品優化。
1 功能特點
1.1 告警彙聚
- 預設內建:雲平台、大資料、雲執行個體、站點應用
- 支援擴充:自定義監控
1.2 報警通道
- 釘釘、本地化釘釘
- 短信裝置、公共雲短信服務
- 企業郵箱
2 平台體系
圖1:TAC平台體系
3 架構設計
圖2:TAC架構設計
4 界面展示
圖3:TAC界面展示
5 主要功能
5.1 告警中心
- 展示TAC平台目前所有的告警資料,并顯示近7天的産品告警TOP排行
5.2 告警工作台
- 使用者可以在平台告警頁面上認領新增的待處理告警,線下處理完成後可以在我的告警頁面上關閉該告警
- 當認領了自己不擅長處理的産品告警,可以通過線上轉發的方式移交給擅長處理的同學
- 若出現長期無法處理的告警,在确認無影響的情況下可以選擇忽略該告警,避免一直外發造成消息轟炸
- 展示目前告警總數、待處理告警數、已關閉的告警數以及近7天的MTTR和平均MTTR
5.3 政策中心
- 可以通過設定自動分派政策,當指定的産品出現告警後會自動為該使用者認領告警
- 當天首次出現的告警會立即通知,非首次出現的告警需要遵循1440分鐘的靜默期後通知
- 可以控制告警發送時的狀态,發生時、認領時、關閉時
- 可以預約在指定的時間範圍内使某一類型的告警進入靜默期,告警外發暫時失效
5.4 推送配置
- 提供使用者體系,系統會識别使用者的手機号碼以及郵箱位址來發送告警
- 提供釘釘、短信、郵件的外發配置頁面
5.5 系統配置
- 可以在執行個體管理頁面手動建立或導入需要監控的執行個體清單
- 例如項目未部署大資料産品可以在菜單管理頁面通過禁用的方式控制首頁的告警展示
- 當想同時管理多朵雲時,可以在配置管理頁面建立多個節點,配置多個節點的告警資料接口
- 當資料源有監控能力增加時,TAC無需更新,隻需在監控管理頁面增加監控項名稱即可具備監控能力
5.6 站點監控配置
- 在監控任務頁面可以配置使用者關心的網站、機器或某個接口,TAC會根據規則進行監控
- 若現場以前有提供過黑屏化的監控工具,使用者可以在注冊API頁面注冊一個APP,根據接口調用規範将監控結果上報至TAC來展示和外發
目前,中國區100+項目已部署TAC,其中有40%+的項目可以通過釘釘、短信或郵件的方式實作告警外發。有效提高告警處理效率,減少因告警未及時處理導緻故障的情況,大幅提高項目運維品質,減少項目人力投入成本。
作者:黃家亮
阿裡雲智能GTS-SRE團隊資深技術支援工程師
7年IT從業經驗,超3年阿裡專有雲運維管理經驗,現就職于阿裡雲智能GTS-SRE團隊,負責運維開發工作,期間深度參與并負責銅雀、TAM企業服務營運管理平台以及TAC報警中心三個系統從0到1的建設工作,有效提高專有雲運維能力和效率。
我們是阿裡雲智能全球技術服務-SRE團隊,我們緻力成為一個以技術為基礎、面向服務、保障業務系統高可用的工程師團隊;提供專業、體系化的SRE服務,幫助廣大客戶更好地使用雲、基于雲建構更加穩定可靠的業務系統,提升業務穩定性。我們期望能夠分享更多幫助企業客戶上雲、用好雲,讓客戶雲上業務運作更加穩定可靠的技術,您可用釘釘掃描下方二維碼,加入阿裡雲SRE技術學院釘釘圈子,和更多雲上人交流關于雲平台的那些事。