天天看點

跟我學-域名解析故障排查技巧

天蒼蒼,野茫茫,網站一癱,唯有淚兩行!!

客戶跳,老闆叫,解析故障,心驚又肉跳!!

跟我學-域名解析故障排查技巧
跟我學-域名解析故障排查技巧
對企業網站來說,很怕出現網站打不開的情況,一旦發生,準會發現公司技術部呈現一片哀嚎景象。為了讓運維的難兄難弟們做個精緻的小白領,小編特别為你們總結了一套《域名解析故障排查技巧實操全網最全手冊》,并分為“初階版”“進階版”,跟我學完保您在排查解析故障方面,腦回路神清晰,分分鐘就能定位問題。為了助您減少客戶不可用時間,并赢得老闆信任,今天就來聽聽小編跟大家唠唠域名解析那點事兒。
跟我學-域名解析故障排查技巧
因為DNS是網際網路流量的入口,是以企業網站一旦發現不可用,運維人員都需要第一時間優先排除是否為域名解析故障導緻。其次我們需要知道域名解析故障與網站不能通路是兩個概念,因為網站的通路與域名解析、網站伺服器、網站備案、網站程式、網路環境等諸多因素都有關聯,而本文則重點描述 域名解析故障 排查的方法和思路。

初階版

多數使用者反映的域名解析故障,其實并不一定是真的域名解析出了問題,小編在這裡為大家總結了最常見的四種原因,可幫助大家快速定位原因:

第一、 因為域名過期、被鎖定都會導緻域名無法正常通路。

① 首先我們要知道為什麼域名異常會直接導緻域名解析異常呢?

因為域名處于域名解析的上遊服務,是以遞歸解析過程中如果域名環節存在異常,權威DNS伺服器是接收不到DNS查詢請求并完成響應任務的。

② 其次我們要知道域名在什麼場景下會導緻域名解析異常?

  • 域名過期:一般域名注冊商通過修改使用者DNS伺服器名稱,實作通路頁面顯示域名過期。
  • 域名狀态:如果域名處于clienthold、serverhold、inactive三種狀态,則代表是因為域名狀态異常導緻解析異常。

③ 最後我們再加深了解如何定位原因與解決。

阿裡雲DNS為使用者提供了

域名檢測工具

,可一鍵查詢出域名有效期和域名狀态是否存在異常。

跟我學-域名解析故障排查技巧
  • 域名過期: 域名續費後解析生效時間取決于TTL的設定,一般10分鐘後可以在進行解析生效測試。
  • 域名狀态:域名狀态異常時可參考下圖提供的解決方法處理。
    跟我學-域名解析故障排查技巧

第二、 check備案是否存在異常

首先我們需要知道域名解析和備案實際并無直接關聯關系,即使網站出現備案異常,是完全不影響域名解析的設定和解析的生效。而備案異常則會直接影響網站的通路與使用,您可以通過 域名檢測工具一鍵查詢備案情況,如備案檢查出現異常,即可聯系網站伺服器供應商定位備案的異常原因并解決。

跟我學-域名解析故障排查技巧

第三、 check下是否在48小時内修改過域名DNS伺服器名稱

跟我學-域名解析故障排查技巧

修改DNS伺服器後,解析生效時間取決于本地DNS中緩存的DNS伺服器名稱的TTL時間,一般需要24-48小時。是以在修改DNS伺服器48小時内,新/舊DNS服務商的解析資料需要保持一緻,如果您在原DNS服務商删除了解析記錄、或者在新DNS服務商未添加解析記錄、或者新/舊DNS服務商添加的解析記錄不一緻,都有可能導緻解析不可用、或者出現站點時而正常時而異常的現象。

結論:如果排查是此情況導緻,您可到新/舊DNS服務商操作,最終保持解析資料一緻,即可實作快速恢複。

第四、 check解析記錄

①檢查解析記錄的設定是否正确

跟我學-域名解析故障排查技巧

建議運維GG們首先可通過 域名檢測工具 ,檢查下DNS服務商的解析結果,如提示“未檢測到該域名設定DNS解析記錄”,則建議您檢查下解析記錄的設定是否正确,例如是未設定該條子域名,還是被“誤操作”“不小心”給删除了?還是修改解析記錄時輸入錯誤了?總之錯誤的原因皆有可能,我們首要先排除下因配置原因導緻的異常錯誤。

跟我學-域名解析故障排查技巧

②檢查是否近期剛修改過解析記錄。

如果修改了解析記錄,需要等待各地的營運商Localdns的緩存到期,域名解析才會生效。一般修改解析後的生效時間取決于域名的TTL設定。您可以通過 域名檢測工具 查出TTL生效時間,等待此TTL生效時間後再次檢查。

跟我學-域名解析故障排查技巧

③檢查智能解析線路是否未設定預設線路

雲解析DNS的智能解析線路,解析優先級是按照“專線”線路、“預設”線路的排序應用,如果通路者來源不屬于“專線”線路,而管理者又未設定“預設”線路場景,則會造成此部分使用者無法通路站點。

跟我學-域名解析故障排查技巧

如果以上初步排查後,排查結果都屬于正常,那麼則可以随小編進入進階版學習了。

進階版

在進入進階版前,要深入了解域名解析異常情況,繞不開的就得先了解域名解析遞歸流程,很多同學應該還不知道解析的110套路,簡單來說就是在遞歸DNS未有緩存場景下,1次域名解析需要經曆10次查詢互動。

跟我學-域名解析故障排查技巧

從上面的解析流程介紹我們可以看出,域名解析的過程是經曆很多查詢互動,任意一環節出現問題都可能會導緻解析不生效,是以接下來小編就教教在每個環節如何排查解析異常問題。一般判斷解析不生效的定義是DNS查詢請求未能查詢到域名指向的伺服器IP位址或者查詢的IP位址與預期不一緻。多表現于權威DNS解析結果和遞歸解析結果/本地DNS解析結果/公共DNS解析結果不一緻,或查詢結果顯示無資料。

第一、排除下權威DNS的解析資料是否存在異常

權威DNS是真正管理域名和IP位址映射關系的DNS伺服器,阿裡雲提供的雲解析DNS就是權威DNS,是以第一步,小編教您優先檢查權威DNS的解析資料是否存在異常。

,重點檢視DNS服務商解析結果,見下圖。

跟我學-域名解析故障排查技巧

① 檢查解析結果和您在DNS服務商控制台處設定的解析記錄對比是否一緻,如一緻代表權威DNS解析是正常生效的。

② DNS服務商解析結果顯示DNS未設定解析記錄,則需要檢查您是否為忘記設定或誤操作過删除等行為。

③ 檢查結果和您在DNS服務商控制台設定的解析記錄不一緻,此種場景則需要聯系您的DNS服務商進行解析資料重新整理處理。

第二、排除下是否屬于使用者本地DNS伺服器問題

本地域名伺服器是響應來自用戶端的遞歸請求,并最終跟蹤直到擷取到解析結果的DNS伺服器。例如使用者本機自動配置設定的DNS、營運商ISP配置設定的DNS,我們也可稱之為遞歸DNS。

,在本地DNS檢查子產品下載下傳用戶端查詢工具。

跟我學-域名解析故障排查技巧

用本地DNS工具檢測結果如下:

跟我學-域名解析故障排查技巧

如果确認權威DNS解析是正确的情況下,發現本地DNS解析結果與權威DNS結果不一緻,則代表域名解析是在使用者本地沒有生效。那麼為什麼會出現本地解析沒有生效呢?

主要有下列幾種情況:

① 本地DNS伺服器上的緩存資訊未到期導緻。 ->此場景,隻需要等待本地DNS解析處顯示的TTL生效時間到期後,再次嘗試測試即可。

② 如果本地DNS解析TTL過期後測試,仍然和權威DNS解析結果不一緻,嘗試檢查公共DNS解析結果是否一緻。

③ 如果公共DNS解析結果和權威解析結果一緻,說明權威DNS和公共DNS上解析資料都是生效的,那麼可以判斷為是使用者本地DNS未生效,此種情況建議重新整理本地DNS伺服器後再進行測試、或将本地DNS伺服器修改為公共DNS伺服器。

跟我學-域名解析故障排查技巧
跟我學-域名解析故障排查技巧

放心放心,小編為了讓您能加深了解和記憶,早已為您精心繪制了精簡版的Check List,一表在手,讓我們幫您把排查解析異常故障的時間“打下來”。

跟我學-域名解析故障排查技巧

第三、排除下是否為域名被阻斷導緻域名解析異常

跟我學-域名解析故障排查技巧

①通過

,如遞歸解析追蹤報錯“域名遞歸解析過程被污染“。

一般是域名正常解析過程中受到上級網絡設施強行阻斷,這已超出權威DNS服務能力, 如果遇到此情況,小編也很遺憾不能給予更好的解決辦法,一般建議使用者更換業務域名。

跟我學-域名解析故障排查技巧

②判斷遞歸解析過程哪個環節被“污染”

您也可以通過指令dig+trace測試,本地DNS向根DNS伺服器查詢時,直接傳回了IP位址,則一般可判斷為在DNS查詢在根DNS伺服器處就被阻斷。

跟我學-域名解析故障排查技巧

這次的分享就先到這裡了,最後,希望小編為大家總結的《域名解析故障排查技巧實操全網最全手冊》,能夠有效幫助到您快速定位解析異常原因和降低業務不可用時間。

跟我學-域名解析故障排查技巧