趁着中午休息時間寫篇博吧。
最近讓我很頭疼的一件事就是公司網絡的監控,不知道該用什麼方案解決,大的網絡故障一出現,老總第一時間就問怎麼沒有監控,這鍋真的不好甩。花錢的方案有,但是作為運維人來說不是首選。怎麼從開源領域找到一個切實可行的辦法呢?
寫腳本,全國的節點每個機房抽兩台機器跑腳本,管理難度大;
smokeping,搭一台,這是有必要的,但是告警不好聚合與分級,沒辦法做總的預測;
用zabbix寫一個template替代smokeping,看好zabbix告警聚合分級功能;
zabbix-trapper:這是一種資料傳遞方式,不同于zabbix-agent,這種方式定義的item需要使用zabbix-sender來發送資料給zabbix-server
(原文:http://wuhf2015.blog.51cto.com/8213008/1766184)
zabbix-sender需要的參數:
-z - 指定zabbix server的IP
-p - 指定zabbix server的端口,預設為10051
-s - 指定目标主機,主機名必須是配置中的hostname而不是visible name,切記
-k - 指定key,我們定義的trapper的key,這邊便是我們前面定義的trap
-o - 指定要傳遞的資料
使用fping探測各節點丢包率
fping的參數:
-b ping包大小
-c ping的次數
-p ping間隔,機關ms
放在server端的externalscripts中的腳本:
腳本賦予執行權限和屬主,模闆挂載需要探測的節點上,并不需要在每個節點上定義鍵值對。
模闆中的項:
模闆中的觸發值:
模闆中的圖:
以上我們的zabbix形式的smokeping已經建立完成,下面就要用zabbix關聯觸發與平均值的方式設定主幹網的監控了。
1.每個機房分一個組,在組的基礎上設定一個丢包率平均值的it
em
2.設定這個組的警戒點
3.将幾個組的警戒點關聯在一起,都達到觸發要求的時候執行總判斷,判斷為主幹網故障。