天天看點

名額&監控&告警入門詳解(二)

作者:Justin Ellingwood

翻譯:雲監控團隊

跟蹤哪些類型的資訊很重要?

您監控的值的類型和跟蹤的資訊可能會随着基礎設施的發展而改變。由于系統通常是分層運作的,在更原始的基礎設施之上會建構更複雜的層,是以在計劃監控政策時,按層級式考慮名額會大有裨益。

01

基于主機的名額

在名額層次結構的最底層是基于主機的名額。隻要能幫助評估單個計算機的運作狀況或性能,任何名額都可能被納入其中,暫且無需考慮目前的應用程式堆棧和服務。主要包括作業系統或硬體的使用或性能,例如:

  • CPU
  • 記憶體
  • 磁盤空間
  • 程序

這些可以幫助你了解可能影響單台計算機穩定性或運作性能的因素。

02

應用名額

或許你要檢視的下一類名額是應用程式名額。這些是與依賴于主機級資源(例如服務或應用程式)的處理或工作單元有關的名額。要檢視的特定名額類型取決于服務提供的内容,其具有的依賴關系以及與之互動的其他元件。這個層級的名額能夠幫助判斷應用程式的運作狀況,性能或負載,如:

  • 錯誤率和成功率
  • 服務失敗和重新開機次數
  • 響應的性能和延時
  • 資源使用率

這些名額有助于确定應用程式是否正常和高效的在運作。

03

網絡和連接配接性名額

對于大多數類型的基礎設定,網絡和連接配接性名額是另一個值得探索的資料集。這些是衡量向外可用性的重要名額,但同時,對于跨多台機器的任何系統的其他機器都可以通路服務也是至關重要的。和我們之前提到過的其它名額一樣,也應該通過名額來檢查網絡的整體功能可用性和準确性,如:

  • 連通性
  • 錯誤率和丢包率
  • 延時
  • 帶寬使用率

監控網絡層可以幫助您提高内、外部服務的可用性以及響應速度。

04

伺服器池名額

在處理水準擴充的基礎設施時,需要添加另一層基礎設施名額,也就是伺服器池名額。盡管有關單個伺服器的名額很有用,但在規模上,将服務通過一組計算機執行以及響應請求的能力來表現會更好。在許多方面,這種類型的名額隻是應用程式和伺服器名額的更進階别的推斷,但在這種情況下我們所談的資源是同類伺服器,而不是指計算機級元件。您可能要跟蹤的一些資料是:

  • 合并資源的使用
  • 縮放調整名額
  • 降級的執行個體

收集整合了伺服器集合運作狀況的資料對于了解系統處理負載和響應變更的實際能力非常重要。

05

外部依賴名額

你可能還希望将一些和外部依賴性相關的名額添加進監控系統中。服務通常會通過提供狀态頁或 API 來提示服務中斷了,但是如果在自己的監控系統中以及與服務的實際互動中進行跟蹤,可以幫助确定服務提供商的問題,以及這些問題是否會影響應用營運。在這個級别可能适用的一些名額包括:

  • 服務狀态和可用性
  • 成功率和錯誤率
  • 運轉率和營運成本
  • 資源消耗

還有許多其他類型的名額收集起來也很有用,定義和概念化每個層級最重要的資訊,可以幫助确定對預測或定位問題最有用的名額。請記住,最高層級中最有價值的名額可能是較低層級中提供的資源。

影響選擇監控名額的因素

理想情況中,最好能從一開始就監控和系統相關的所有事情。但是,有很多原因導緻這種狀态幾乎不可能實作。

可能影響您選擇收集名額和采取行動的一些因素是:

  • 可用于跟蹤的資源:根據您的人力資源,基礎設施和預算,必将會把跟蹤的範圍限制在可以負擔的執行和合理管理的費用之内。
  • 應用程式的複雜性和用途:應用程式或系統的複雜性可能會對您選擇跟蹤的内容産生很大的影響。對于某些軟體來說可能至關重要的項目在其他軟體中可能根本不重要。
  • 部署環境:盡管穩健的監控系統對于生産系統最重要,但部署和測試系統也可以從監控中受益,盡管嚴重性、粒度和所衡量的總體名額可能有所不同。
  • 名額有用的可能性:影響某項内容是否可衡量的最重要因素之一是其将來有幫助的潛力。  跟蹤的每個其他名額都會增加系統的複雜性并占用資源。  資料的必要性也可能随時間變化,是以需要定期重新評估。
  • 基本穩定性的重要性:簡而言之,對于某些類型的個人或早期項目,穩定性和正常運作時間可能不是優先事項。

影響您決策的因素将取決于您的可用資源,項目的成熟度以及所需的服務水準。

未完待續,預告:

系列(三):名額 & 監控 & 告警系統的重要特質

推薦閱讀:名額&監控&告警入門詳解(一)

歡迎聯系雲監控小助手微信号,加群讨論:)

名額&監控&告警入門詳解(二)