天天看點

直面故障,我們該怎麼做?

This article has been published on ‘Network Administrator World’ in 2007, copyrights belong to ‘Network Administrator World’.

It was firstly posted on 51CTO blog; no transmission, re-publication, or printing is allowed without explicit authorization of the author.

本文已與2007年刊登在《網管員世界》,版權歸《網管員世界》所有。網絡首發51CTO部落格,轉載請務必注明出處并告知本人。

直面故障,我們該怎麼做?

作為一個網絡管理者,唯一高興的是完成最後一個任務。這就是這個職業的魅力和生命之所在。以前我們已經許多次精疲力盡,然後放棄。但是,我将在本文盡可能幫助廣大網絡管理者降低現實的困難。

我願意和讀者們共享自己的經驗和秘訣。

窺視網管員的工具包

真正的硬體工具

每個網管員由于各自實際情況不同,随身攜帶的真正的硬體工具也未必相同。我的硬體工具包包括:螺絲刀、網卡、牙醫鏡和微型手電筒、線纜測試儀、錄音裝置等東西。下面我講一下這些工具都幹什麼用。

螺絲刀:這個工具毋庸多言,就是拆開機箱用的。但有些伺服器,比如早期的Compaq伺服器(現在很少見了,說實話我也幾乎沒有見到過),這個螺絲刀就必須是Compaq(Toex)螺絲刀,其末端是星形的,普通的十字螺絲刀是不能使用的。

網卡:用于在工作站或伺服器上修複常見的問題,有時候可以用來确認原來的網卡是否有問題。

牙醫鏡和微型手電筒:這是個組合工具,可以讓我在緊急時很容易看到元件的反面和主機闆。

線纜測試儀:用于網絡布線的故障和測試定位,如果線纜測試儀很進階,可對線纜進行周期性檢測,確定布線系統的品質。在評估認證後,将電纜測試儀存儲的測試結果複制到計算機上并列印出來,作為網絡布線基準文檔。

錄音裝置:相信讀者看到這裝置肯定驚訝得下巴都掉了……其實,我也是從曆次的教訓中擷取的經驗。還記得有多少次在一個複雜的故障檢修過程中一次又一次執行相同的步驟和操作嗎?就好比在家中丢失了東西以後在已經找過的地方反複搜尋,這合理嗎?我是從第一分鐘起,将我所采用的每一個步驟口述到錄音裝置中,這種記錄能使我回顧所采用的方法,并決定是否還要遵循檢修的路徑以及結果的本質。我之是以采用口述的方式,而不是用紙筆來記錄故障檢修的過程就是因為:厭倦!人們往往可以手寫記錄下故障檢修過程的前面幾個步驟,或者前面幾個小時所采用的步驟,但會随着時間的推移,厭倦會導緻這種工作的中斷:所采用的步驟沒有記錄或者是跳過了記錄。而口述是一種相對比較輕松的記錄故障檢修過程的工作,能記錄下自始至終的每一步。

其他的工具,要視乎你的工具包是否還有額外的空間,以及你實際的情況,比如,昂貴的FLUKE網絡測試儀器,并不是每個人都會配備的。

軟體工具包

網管員可以根據自己的習慣、愛好等選擇适合自己的軟體工具包,軟體工具包的形式可以是LiveCD或者內建了維修工具的Windows PE啟動CD光牒,也可以是别的CD光牒,我用的Windows PE啟動CD光牒是深山紅葉工具CD光牒,很好用,網絡上有很多與之相類似的工具CD光牒。Live Cd我選擇的是Knoppix漢化版,Live CD的選擇有很多,比如Trinity Rescue Kit等等,都可以作為急救用的Live CD。

現在閃存容量越來越大了,加之現在的新電腦都支援從閃存啟動系統,我們完全可以制作成Live USB,在一定程度上比Live CD更為靈活。即使不做Live USB,也可以把常用的工具拷貝到閃存内,以備急需。關于這方面可以參考我在2007年5期《電腦自做》第96-101頁刊登的《閃存擴充 随心而動》文章。

還有一些驅動軟碟,雖說現在軟碟和軟驅近乎絕迹了,但有些場合還是需要的,比如RAID驅動程式等等。

This article was published on Network Administrator World in 2007, and the copyrights belong to Network Administrator World. The article was first posted on 51CTO blog, no transmission, re-publication, printing allowed unless with explicit authorization of author.

雜項

其他還有一些亂七八糟的東西,我帶的就有小門墊、工作服、套衫、休閑鞋、巧克力什麼的。很驚訝吧?嗯。我帶的小門墊的真實作用是在擁擠的伺服器房繞電纜的時候,我跪在上面用來保護我的膝蓋。而不是跪下向客戶和管理人員請罪,哈哈!

很多公司對員工的着裝有很嚴格的要求,必須穿正式的服裝,不能穿休閑的,那麼在髒亂的庫房和機房裡,這一身正式的、嚴肅的服裝是不是很讓你為難?我帶一套工作服、套衫、休閑鞋就是為了應付這種窘境的。

巧克力是幹什麼的?不怕各位笑話,我這人有時候有點膽怯,面對未知的故障的時候有時會感到恐懼,這時候吃點巧克力能提高血糖幫助消除恐懼感。

筆記本

從一定意義來說,它可以說是工作日志。你可以用紙媒介的本子來記筆記,也可以用電子版形式的,隻要能達到目的就好,我用的是電子文檔。筆記本對于我來說,它的作用就是告訴我:出現問題時,哪些發生了變化。

當出現一個新的問題時,所要問的第一件事往往就是出現問題之前,是否有什麼變化。

任何網絡作業系統都是一個有問題的系統,有時因為一些不能解釋的原因,甚至大部分無害的變化都有可能變得一團糟。如果你的筆記本,記錄了每個伺服器、每個裝置所有變化的詳細日志,能節省你用在故障檢修上的數個小時。作為我來講,我有每個伺服器單獨的Excel電子表格,記錄了安裝新軟體包、安排重新啟動與否、添加新驅動器或者别的軟體等等,還有時間、日期、伺服器每次變化的屬性。

如果在本周對伺服器所做的更改,在下周引起了問題,那麼你的筆記本就将發揮非常大的作用。

筆記本對于任何故障的成功解決非常重要。一個人對管理機器明晰,而他的同僚卻什麼都不懂,這就毫無意義了。我認為,這是一種非常危險的處境,特别是問題中的任務對網絡的安全至關重要。如果一旦這個人發生意外,其餘的人該怎麼辦呢?

從實踐經驗來看,随着新過程的發展将其文檔化的做法是值得鼓勵的。我就有過這種經曆:曾經完美處理過一些事情,但僅僅過了一個月之後就遺忘了!這時候我多麼希望自己以前就記錄到筆記本上啊!這種情況經常會發生。

實際上,根據我的經驗,當出現問題時,不論是列印驅動程式被破壞,還是用戶端連不上網絡,都應該記筆記。十有八九在開始進行之前,當處理問題之後,回到辦公室就會忘記自己做了什麼。

想象一下,如果處理問題時和不斷更新必須有一段停機時間,回想使用的規程可能沒有歸檔,會怎麼樣呢?

筆記的歸檔也很重要。雖然歸檔的内容有一些可能會過時了,比如Windows NT,但無論什麼方法,都要儲存起來。一些詳細任務可能再次适用于目前的網絡。另外,當按照新規程部署或者進行Beta測試時,歸檔就更為重要。如果堅持這種做法,這樣任何人走入伺服器機房都可以按照歸檔的筆記執行任務,這對網絡管理工作不是很好嗎?

故障檢修秘訣

Hello,現在我們終于到達了文章最重要的部分。

我的心得

記得MCSE曾經說過,超過58%的故障檢修成功是基于經驗的,無論這種經驗的知識來源于一般計算機系統知識還是所面對的具體問題的知識。剩下的故障檢修成功因素包括運氣,研究工作和你原本的解決問題的能力。

我認為,重要的是:提高你的故障檢修技巧是長久之計,而不是得到後就可以忘記的結果。

故障檢修技巧雖然主要是通過積累經驗來提高,但實際上,也可以通過閱讀(文章、部落格和論壇等)、教育訓練和其他的方式獲得。

如果你缺乏使用Linux伺服器的經驗,這并不意味着在解決問題時你就就一定缺少經驗,即使你具有豐富的技藝也可能隻在特定的故障檢修情形中看到其他人會忽視的方面。Nike有一句廣告詞,我很贊賞,這就是:Just do it! 就是說,不要讓你的經驗阻礙你擷取更多的經驗!

故障檢修的步驟

這裡列出的步驟,是用于解決所有問題的“基礎”,是指導解決問題的基礎。

故障檢修的步驟有:識别問題、診斷故障、找出解決方案并實施、确認故障是否解決、記錄解決方案。

識别問題:就是鑒别問題是屬于硬體問題還是故障問題。

診斷故障:區分故障的症狀和起因。确認系統故障是否由于底層的、基本的因素所緻;确定這樣的症狀,是否有利于解決其起因。

找出解決方案并實施:毫無疑問,這個步驟通常是反複的,一次又一次的過程。

确認故障是否解決:上個步驟的解決方案一般需要在不同條件下測試多次。

記錄解決方案:有時候,我經常成功的實踐了一個很好的解決方案,但是忘記了這是在以後遇到同樣的問題時更好解決問題的一個關鍵。這種情況下,就不得不重新學習這個方案,很明顯,花費幾分鐘的時間記錄在排除故障過程中的每一個解決方案很快就能使你獲得巨大的意外收獲。

總結

微軟公司提出過一個故障檢修方法論:謂之D.E.T.E.C.T。這是由一組微軟微軟技術支援工程師創立的方法,為我們提供了一個政策。實際上,這些步驟是放之四海皆準的,無論是交換機故障,還是Windows伺服器故障,抑或是Linux伺服器故障,都适用。

D.E.T.E.C.T是:

D Discover 發現問題

在使用者層次上與使用者交談,試着了解他們使用的軟體(如果可能的話,包括釋出的版本)以及他們的硬體是否在硬體相容性清單内。問題表現出的症狀是什麼。

E Explore 探索界限

是否能夠鑒别自從上一次報告系統正常以來都發生了那些變化?能否鑒别問題發生時運作的是什麼軟體嗎?

T Track 跟蹤可能的方法

你可以從處理這些故障中學習并通過跟蹤所采取的步驟,避免陳舊的、效率低下的嘗試——錯誤的方法。

E Execute 實施方法

撇開管理問題,以便在第一個方案的嘗試失敗時不會受到其它部門的幹擾。若方案A失敗就應考慮方案B。不要忘記在執行解決問題的任務之前備份重要的系統和應用程式。

C Check 檢驗成功

T 總結

不管是什麼樣的故障排除方法,本質上所有的方法都是遵從一個基本的模式:

發送者——→接受者

輸入——處理——輸出模式

按照微軟D.E.T.E.C.T方法論,進行故障查找明顯的是成功解決系統問題的第一步。

故障檢修的定義

方法論

相信很多網管員都會歎息過:如果能夠恢複這一切就好了。

在很大程度中,故障檢修是一種方法論。木工有一句話可以引用在這裡:兩次測量,一次切斷。網管員在任何情況下都應三思而後行。

遵從故障排除的黃金規則可以減少你的痛苦:“一次隻改變一個變量。”一次改變一個變量,然後進行成功或失敗的測試,這樣就能有效的證明我們排除故障工作工作的結果。這就是方法論的精髓。

我再次強調:在排除故障時,一次一個變量并進行測試。相信我!

一小時原則

經驗表明,缺乏經驗的網管員,尤其是剛入行的,更容易誤入歧途。在查找問題時視野狹窄或者錯過了即時的觀察就有可能誤入歧途。狹窄的視野是一個陷阱,沒有考慮到外部因素可能會産生問題。外部因素有時也會導緻災難。在我剛入行的時候,總是從主管的角度來觀察網絡環境,但實際上,總有一些在我控制之外的因素也會對我們産生影響。

在任何一種情況下,基本上應該将排除故障恢複狀态尋求幫助的工作時間限制為一小時。我比較傾向的方法是隻進行一個小時解決伺服器等問題的工作,如果不能解決問題或者保證合理的結束,就給技術支援小組打電話或者與這個領域的同行進行探讨。一定要充分利用在這個領域中的同行專家資源。

在一些技術論壇,比如網管員世界論壇、51CTO論壇可以找到該領域的同行,也可加入他們的QQ群,提供和接受解決所遇到問題的建議。根據一小時原則,當你已經花費了一個小時試圖解決問題時,立刻去QQ群或者論壇呼叫同行。

故障時間價值的計算

故障時間的價值,也是在故障檢修時要考慮的一個因素。

但是根據我的實際經驗,很多從業人員可能會以系統故障為借口停止工作并且可能回家,請問,在辦公室中,你看到過員工利用計算機故障時間來回複耽誤的電話嗎?沒有。很多員工可能隻是說計算機系統崩潰了而無法工作。

我覺得故障時間價值的計算,不是三言兩語能夠說明白的,總之,系統故障時間的代價決定了你解決問題的方法,系統故障時間是非常昂貴的,即時在一個很小的企業中,你也可以估算出系統故障時間的代價究竟值多少人民币。

故障檢修圖

我寫書或者寫技術文章,總是從一個提綱或者腦圖開始。如果故障檢修也像這樣,那麼會更好的進行,并且更加有效。我的經驗是,在白闆上建立故障檢修路線圖。每次當我遇到困難的時候,離開機房回到自己的辦公室——這往往是解決問題的靈丹妙藥——可以靜下心來,用清晰的和平衡的頭腦進行思考。

通過在白闆上建立故障檢修圖,你可以在工作中包含很多業務管理者。很多業務管理者都熟悉在會議室中反映情況,那裡是很舒适的地方。通過在問題的解決方案中包括業務上的管理者,我們不僅能夠獲得新鮮的血液和新鮮的見解,而且還能夠在技術和業務團體之間樹立正面的管理。通過這樣的手段,可以向他們宣傳解決方案,而且更重要的是,可以迫使他們接受我們的方案。無數的研究以及你自己的工作經驗已經說明有上司們的支援時,成功的幾率會更高。

學習曲線分析

實際上就是分析解決故障是否在自己的能力範圍之内。這裡提供一個表格:

問題的本質 技能 學習曲線 建議解決方案
簡單 低級 自行解決
經常發生,不困難 中級 在經過一些學習和陰暗解答之後解決問題好處包括能夠很好的利用學習時間。因為這種類型的問題頻繁發生,一旦進行學習并找到了解決方案,那麼下一次解決問題就很容易。
頻繁發生,問題介于簡單和困難之間 低到中 中級到進階 這時與技術顧問或專家組成團隊就很有意義。可以讓專家展示解決方案,以便在将來能夠獨立的解決問題。
在壽命期間隻發生一次,非常困難 不存在 很進階 交給别人做。保留一個專家來解決問題,并努力進行解釋。

這個表格展現了一個決策模式,可以用于解決問題和利用外部專家的技能時。

對于前兩種情況,可能要很好的利用你的時間來解決問題。對于後兩個情況而言,明顯的需要幫助才能将系統故障時間和公司與相關問題的損失減少到最小的程度。

在早期排除故障的工作中,了解你要解決的問題的本質,并确定你是否能夠獨立解決問題,還是需要其他的幫助以加強工作。

整體衡量:過多的檢修,過少的時間

工作的成功是以整體衡量的,不要陷入故障檢修的黑洞中而沒有很好的完成其他工作。

實際上,如果給予足夠的時間,很多網管員都能夠解決問題。但是,時間對于我們每一個人都有限制。你會發現并沒有足夠的時間來完成想要做的任何事情。你有沒有發現過這麼一個情況:從星期一開始查找一個故障,當擡頭看時間時卻發現已經是星期五下午了?是否注意到了在我們埋頭查找問題時,其他的工作已經堆積如山?

即時你有很高的排除網絡故障的技能,但也可能被提升并上司IT部門,你是否明白,你的角色已經改變,你應該将故障檢修的任務委派給一個下屬。因為故障檢修的時間問題中包含有核心能力。

結交更多的同行朋友

很多時間,都是花費在争論問題究竟是與硬體有關還是與軟體有關。

如果你在一方面很強,例如軟體方面,那麼正在查找沒有解決方案的軟硬體問題時,而解決方案很可能就從你所薄弱的一方出現。就是說,如果從有優勢的一方已在上市解決問題,往往是另一方導緻了我們的失敗。我的經驗告訴我,不止有一個壞掉的網卡導緻了軟體相關的網絡問題!

是以,我的建議是,結交更多的同行朋友!這是查找硬體和軟體相關問題時的一個技巧。

讀者可以在網管員世界論壇找到相同領域的同行。

回顧上世紀90年代,這是怎樣的一個漫長、離奇和有趣的旅程啊!從Netware的升起和隕落到Windows Server統治的出現,再到Linux的崛起,這個過程是相當快的。但是有些事情會一直保持下去,包括對于頂尖的排除故障技能的需要。随着資訊化的進展,對于這些技能的需要、尋找和使用更加明顯,因為,每一個網管員不再被看作是背景的技術人員,事實上,現在網管員已經引起了高層的重視,因為故障事件是令人難以置信的代價!即使是非技術的高管也能夠了解這點。随着資訊化更大的進展,資訊化承擔重要任務的、企業範圍内的應用,更多的前台管理人員需要網管員卓越的排除故障技能來保證這些東西正常運作。

祝你們好運!

二〇〇七年八月于天津

繼續閱讀