監控狀态
目錄
-
- During SOFT state
- 兩種狀态
- 服務和主機檢查重試
- SOFT States
- HARD States
- 狀态變化分析示例
nagios監控的狀态比較特殊,它包含兩種狀态共通定義。是以單獨拎出來說
- 服務或主機的狀态(即OK,WARNING,UP,DOWN等)
-
服務或主機所在的狀态類型
狀态類型有兩種:SOFT 和 HARD
這些狀态類型是監視邏輯的關鍵部分,因為它們用于确定何時執行事件處理程式以及何時最初發出通知。
本文檔介紹了SOFT和HARD狀态之間的差異,它們如何發生以及何時發生。
為了防止因暫時性問題引起的誤報,Nagios Core允許您定義在服務或主機被視為“實際”問題之前應被(重新)檢查多少次。這由主機和服務定義中的max_check_attempts選項控制。了解主機和服務如何(重新)檢查以确定是否存在實際問題對于了解狀态類型的工作方式非常重要。
Soft states 發生在以下場景:
- 當一個服務或者主機檢測結果是是non-ok non-up state ,并且檢測至今還沒有達到max_check_attempts,這個就叫做SOFT state
- 當一個服務或者主機recovers從一個soft error, 這個就被認為是一個soft 恢複。
以下事情會發生,當主機或者服務經曆了SOFT state變化時:
- the SOFT state is logged
- event handlers are excuted to handle the SOFT state
僅當在主配置檔案中啟用了log_service_retries或log_host_retries選項時,才會記錄SOFT狀态。
當監控狀态處于SOFT狀态這段時間(畢竟有一個max_check_attempts)最最重要的是事情就是,event handlers的執行情況了。使用event handlers可能是特别有用,如果你想去嘗試或者主動去解決一個問題,在這個SOFT狀态變為HARD狀态之前。$HOSTSTATETYPE$ or $SERVICESSTATETYPE$ macros 将會是SOFT值當event handlers被執行時,這個時候就允許你的Event handler腳本知道這個時候應該做正确的action.
以下場景将會發生HARD State:
- 相對于SOFT state,當host or serivce已經是non-OK non-UP且檢測次數已經達到max_check_attempts選項值(host or service中定義的),此時就是HARD error state
- 當一個host or service 從hard error state狀态遷移到另一個錯誤狀态時(如,WARNING to CRITICAL)
- 當一個service檢查狀态時non-ok并且它所在的host是DOWN or UNREACHABLE時
- 當一個host or service 從hard error state狀态恢複時。這個也叫做hard恢複。
- 當一個passive host check 接收到。被動host checks會被看做是HARD,除非passive_host_checks_are_soft 選項是開啟的
- The HARD state is logged.
- Event handlers are executed to handle the HARD state.
- Contacts are notified of the host or service problem or recovery