網絡環境越複雜,發生故障的可能性越大,引發故障的原因也就越難确定。網絡故障往往具有特定的故障現象。這些現象可能比較籠統,也可能比較特殊。利用特定的故障排查工具及技巧,在具體的網絡環境下觀察故障現象,細緻分析,最終必然可以查出一個或多個引發故障的原因。一旦能夠确定引發故障的根源,那麼故障都可以通過一系列的步驟得到有效的處理。
1、網絡故障排除思路
在排除網絡中出現的故障時,使用非系統化的方法可能會浪費大量的時間以及資源,事倍功半,使用系統化的方法往往更為有效。系統化的方法流程如下:定義特定的故障現象,根據特定現象推斷出可能發生的所有潛在的問題,直到故障現象不再出現為止。
下圖給出了一般性故障問題的解決模型,這一流程并不是解決網絡故障時必須嚴格遵守的步驟,隻是為建立特定網絡環境中的故障排除流程提供了基礎。
一般性故障問題的解決步驟如下:
(1)分析網絡故障,要對網絡故障有清晰的描述,并根據故障的一系列現象以及潛在的症結來對其進行準确的定義。
要想對網絡故障做出準确的分析,首先應該了解故障表現出來的各種現象,然後确定可能會産生這些現象的故障根源或現象。例如,主機沒有對客戶機的服務請求做出響應,可能産生這一現象的原因主要包括主機配置錯誤、網絡接口卡損壞或路由器配置不正确等。
(2)收集有助于确定故障症結的各種資訊。向受故障影響的使用者、網絡管理者、經理及其他關鍵人員詢問詳細的情況。從網絡管理系統、協定分析儀的跟蹤記錄、路由器診斷指令的輸出資訊以及軟體發行注釋資訊等資訊源中收集有用的資訊。
(3)依據所收集到的各種資訊考慮可能引發故障的症結。利用所收集到的這些資訊可以排除一些可能引發故障的原因。例如,根據收集到的資訊也許可以排除硬體出現問題的可能性,于是就可以把關注的焦點放在軟體問題上。應該充分利用每一條有用的資訊,盡可能縮小目标範圍,進而制定出高效的故障排除方法。
(4)根據剩餘的潛在症結制定故障的排查計劃。從最有可能的症結入手,每次隻做一處改動。之是以每次隻做一處改動,是因為這樣有助于确定針對固定故障的排除方法。如果同時做了兩處或多處改動,也許能排除故障,但是難以确定到底是哪些改動消除了故障現象,而且對日後解決同樣的故障也沒有太大的幫助。
(5)實施制定好的故障排除計劃,認真執行每一步驟,同時進行測試,檢視相應的現象是否消失。
(6)當做出一處改動時,要注意收集相應操作的回報資訊。通常,應該采用在步驟(2)中使用的方法(利用診斷工具并與相關人員密切配合)進行資訊的收集工作。
(7)分析相應操作的結果,并确定故障是否已被排除。如果故障已被排除,那麼整個流程到此結束。
(8)如果故障依然存在,就得針對剩餘的潛在症結中最可能得一個制定相應的故障排除計劃。回到步驟(4),依舊每次隻做一處改動,重複此過程,直到故障被排除為止。
如果能提前為網絡故障做好準備工作,那麼網絡故障的排除也就變得比較容易了。對于各種網絡環境來說,最為重要的是保證網絡維護人員總能夠獲得有關網絡目前情況的準确資訊。隻有利用完整、準确的資訊才能夠對網絡的變動做出明智的決策,才能夠盡快、盡可能簡單地排除故障。是以,在網絡故障的排除過程中,最為關鍵的是確定目前掌握的資訊及資料是最新的。
對于每個已經解決的問題,一定要記錄其故障現象以及相應的解決方案。這樣,就可以建立一個問題/回答資料庫,今後發生類似的情況時,公司裡的其他人員也能參考這些案例,進而極大地降低對網絡進行故障排除的時間,最小化對業務的負面影響。
2、網絡故障排除工具
排除網絡故障的常用工具有多種,總的來說可以分為三類:裝置或系統診斷指令、網絡管理工具以及專用故障排除工具。
2.1裝置或系統診斷指令
許多網絡裝置及系統本身就提供大量的內建指令來幫助監視并對網絡進行故障排除。下面介紹一些常用指令的基本用法:
- show可以用于檢測系統的安裝情況與網絡的正常運作狀況,也可以用于對故障區域的定位;
- debug指令幫助分離協定和配置問題;
- ping指令用于檢測網絡上不同裝置之間的連通性;
- trace指令可以用于确定資料包在從一個裝置到另一個裝置直至目的地的過程中所經過的路徑。
2.2網絡管理工具
一些廠商推出的網絡管理工具如Cisco Works、HP OpenView等都含有監測以及故障排除功能,這有助于對網絡互連環境的管理和故障的及時排除。下面以CiscoWorks2000為例介紹網絡管理工具在排除網絡故障方面的主要功能:
- CiscoView提供動态監視和故障排除功能,包括Cisco裝置、統計資訊和綜合配置資訊的圖形顯示;
- 網絡性能螢幕(IPM)使網絡工程師能夠利用實時和曆史報告主動地對網絡響應進行故障診斷與排除;
- TrafficDirector RMON應用程式是一個遠端監測工具,它能夠收集資料、檢測網絡活動并查找潛在的問題;
- VlanDirector交換機管理應用程式是一個針對VLAN的管理工具,它能夠提供對vlan的精确描繪。
2.3專用故障排除工具
在許多情況下專用故障排除工具可能比裝置或系統中內建的指令更有效。例如,在網絡通信負載繁重的環境中,運作需要占用大量處理器時間的debug指令将會對整個網絡造成巨大影響。然而,如果在“可疑”的網絡上接入一台網絡分析儀,就可以盡可能少地幹擾網絡的正常工作,并且很有可能在不打斷網絡正常工作的情況下獲得有用的資訊。以下為一些典型的用于排除網絡故障的專用工具:
- 歐姆表、數字萬用表即電纜測試器可以用于檢測電纜裝置的實體連通性;
- 時域反射計(TDR)與光時域反射計(OTDR)可以用于測定電纜斷裂、阻抗不比對以及電纜裝置其他實體故障的具體位置;
- 斷接盒、智能測試盤和BERT/BLERT可以用于外圍接口的故障排除;
- 網絡檢測器通過持續跟蹤穿越網絡的資料包,能每隔一段時間提供網絡活動的準确圖像;
- 網絡分析儀可以對OSI所有7層上出現的問題進行解碼,自動實時地發現問題,對網絡活動進行清晰的描述,并根據問題的嚴重性對故障進行分類。
3、常見的網絡故障
在資訊化社會,各企事業機關對網絡的依賴程度越來越高,網絡随時都可能發生故障,影響正常工作。是以,必須掌握相應的技術及時排除故障。從網絡故障本身來說,經常會遇到的故障有:
- 實體層故障
- 資料鍊路層故障
- 網絡層故障
- 以太網絡故障
- 廣域網絡故障
- TCP/IP故障
- 伺服器故障
- 其他業務故障
根據相關資料的統計,網絡發生故障的具體分布為:
- 應用層占3%
- 表示層占7%
- 會話層占8%
- 傳輸層占10%
- 網絡層占12%
- 資料鍊路層占25%
- 實體層占35%
引起網絡故障的原因有以下幾種:
3.1邏輯故障
邏輯故障中最常見的情況有兩類:一類是配置錯誤,是因為網絡裝置的配置錯誤而導緻的萬羅異常或故障。配置錯誤可能是路由器端口參數設定有誤,或路由器的路由配置錯誤,以至于路由循環找不到遠端位址,或者是路由掩碼設定錯誤等;另一類是一些重要程序或端口被關閉,主要是系統的負載過高,路由器的負載過高。
3.2配置故障
配置錯誤也是導緻故障發生的重要原因之一。配置故障主要表現在不能實作網絡所提供的各種服務,如不能接入Internet,不能通路某種代理伺服器等。配置故障通常表現為以下幾種情況:
- 網絡鍊路測試正常,卻無法連接配接到網絡;
- 隻能與某些計算機,而不能與全部計算機進行通信;
- 計算機隻能通路内部網絡中的伺服器,但無法接入Internet,這可能是路由器配置錯誤,也可能是交換機配置錯誤;
- 計算機無法登入至域控制器;
- 計算機無法通路任何其他裝置。
3.3網絡故障
網絡故障的原因是多方面的,一般分為實體故障和邏輯故障。實體故障,又稱硬體故障,包括線路、線纜、連接配接器件、端口、網卡、網橋、集線器、交換機或路由器的子產品出現故障。
3.4協定故障
計算機和網絡裝置之間的通信是靠協定來實作的,協定在網絡中扮演非常重要的角色。協定故障通常表現為以下幾種情況:
- 計算機無法登入至伺服器;
- 計算機在網路上的芳鄰中既看不到自己,也看不到其他計算機或查找不到其他計算機;
- 計算機在網路上的芳鄰中能看到自己和其他計算機,但無法在區域網路絡中浏覽Web、收發E-mail;
- 計算機無法通過區域網路接入Internet;
- 與網絡中其他計算機的名稱重複,或者與其他計算機使用的IP位址相同。
3.5DDos攻擊
由于遭受DDoS攻擊引起的網絡資源不可用。
3.6網絡管理者差錯
網絡管理者差錯占整個網絡故障的5%以上,主要發生在網絡層和傳輸層,是由于安裝沒有完全遵守操作指南,或者網絡管理者對某個處理過程沒有給予足夠的重視造成的。
3.7海量存儲問題
資料處理的故障最主要原因是硬碟問題,據有關報道,有超過26%的系統失效都歸結到海量存儲的媒體故障。
3.8計算機硬體故障
大約有25%的故障是由計算機硬體引起的,如顯示器、鍵盤、滑鼠、CPU、RAM、硬碟驅動器、網卡、交換機和路由器等。
3.9軟體問題
軟體引起的故障表現為:
- 軟體有缺陷,造成系統故障;
- 網絡作業系統缺陷,造成系統失效。
3.10使用者發生的差錯
使用者沒有遵守網絡賦予的權限,例如:
- 超權通路系統和服務;
- 傳入其他系統;
- 操作其他使用者的資料資料;
- 共享賬号;
- 非法複制。
4、網絡故障分層診斷
網絡故障診斷是管好、用好網絡,使網絡發揮最大作用的重要技術工作。網絡故障診斷是從故障現象出發,以網絡診斷工具為手段擷取診斷資訊,确定網絡故障點,查找問題的根源,排除故障,恢複網絡的正常運作。
診斷網絡故障的過程應沿着OSI七層模型從實體層開始向上進行。首先檢查實體層,然後檢查資料鍊路層,以此類推,确定故障點。故障診斷的步驟如下:
(1)确定故障的具展現象,分析造成這種故障現象的原因;
(2)收集需要的用于幫助确定可能故障原因的資訊;
(3)根據收集到的情況考慮可能得故障原因,排除某些故障原因;
(4)根據最後的可能故障原因,建立一個診斷計劃;
(5)執行診斷計劃,認真做好每一步的測試和觀察,每改變一個參數都要确認其結果。
4.1實體層及其診斷
實體層建立在通信媒體的基礎上,實作系統和通信媒體的實體接口,為資料鍊路實體之間進行透明傳輸,為建立、保持和拆除計算機和網絡之間的實體連接配接提供服務。
實體層的故障主要表現在裝置的實體連接配接方式是否恰當;連接配接電纜是否正确。确定路由器端口實體連接配接是否完好的最佳方法是使用sho winterface指令,檢查每個端口的狀态,解釋螢幕輸出資訊,檢視端口狀态、協定建立狀态和EIA(environment impact appraisal,環境影響評價)狀态。
4.2資料鍊路層及其診斷
資料鍊路層的主要任務是使用網絡層無須了解實體層的特征而獲得可靠的傳輸。資料鍊路層具有為通過鍊路層的資料進行打包和解包、差錯檢測盒一定的校正能力,并協調共享媒體。在資料鍊路層交換資料之前,協定關注的是形成幀和同步裝置。查找和排除資料鍊路層的故障,需要檢視路由器的配置,檢查連接配接端口的共享統一資料鍊路層的封裝情況。每對接口要和與其通信的其他裝置有相同的封裝。通過檢視路由器的配置檢查其封裝,或者使用show指令檢視相應接口的封裝情況。
4.3網絡層及其診斷
網絡層提供建立、保持和釋放網絡層連接配接的手段,包括路由選擇、流量控制、傳輸确認、中斷、差錯及故障恢複等。排除網絡層故障的基本方法是:沿着從源到目标的路徑,檢視路由器路由表,同時檢查路由器接口的IP位址。如果路由沒有在路由表中出現,應該通過檢查開确定是否輸入适當的靜态路由、預設路由或者動态路由。然後手動配置一些丢失的路由,或者排除一些動态路由選擇過程的故障,包括RIP或IGRP路由協定出現的故障。例如,對于IGRP路由選擇資訊隻在同一AS的系統之間交換資料,檢視路由器配置的AS号的比對情況。
4.4應用層及其診斷
應用層提供最終使用者服務,如檔案傳輸、電子資訊、電子郵件和虛拟終端接入等。排除應用層故障的基本方法是:首先可在伺服器上檢查配置,測試伺服器是否可以正常運作,如果沒有問題,在檢查應用用戶端是否配置正确。