天天看點

接口管理故障案例

作者:運維法拉令

接口Error-Down

現象描述

接口狀态顯示為ERROR DOWN,接口訓示燈狀态為常滅,接口不能正常收發封包,裝置上産生ERROR-DOWN_1.3.6.1.4.1.2011.5.25.257.2.1 hwErrordown告警。

原因分析

Error-Down機制是裝置提供的一種保護機制,涉及接口、堆疊、SVF、安全等多個特性。配置上述特性的指定功能後,一旦檢測到接口或者接口關聯的業務存在異常,裝置即關閉接口并将接口狀态設為ERROR DOWN,進而防止異常進一步擴散影響到整個網絡。

使用者可以通過在任意視圖下執行display interface指令檢視引起接口Error-Down的具體原因。

<HUAWEI> display interface 10ge 1/0/1
10GE1/0/1 current state : ERROR DOWN(link-flap) (ifindex: 5)         
Line protocol current state : DOWN                                   
Description:                                                         
Switch Port, PVID :    1, TPID : 8100(Hex), The Maximum Frame Length is 9216    
Internet protocol processing : disabled                              
IP Sending Frames' Format is PKTFMT_ETHNT_2, Hardware address is 306b-2079-2201 
Port Mode:    COMMON COPPER,     Port Split/Aggregate:         DISABLE      
Speed:                 AUTO,     Loopback:                        NONE       
Duplex:                FULL,     Negotiation:                        -     
Input Flow-control: DISABLE,     Output Flow-control:          DISABLE      
Mdi:                      -,     Fec:                                -  
---- More ----            

如上圖所示,接口10GE1/0/1的Error-Down原因為link-flap,即裝置檢測到10GE1/0/1接口頻繁振蕩後,關閉了該接口并将其狀态置為ERROR DOWN(link-flap) 。

操作步驟

處于ERROR DOWN狀态的接口數量較多時,逐一手動恢複接口狀态将産生大量重複工作,且可能出現部分接口配置遺漏。為避免這一問題,使用者可以使能接口狀态自動恢複為Up的功能,并設定接口自動恢複為Up的延時時間。配置過程如下所示:

  1. 執行指令system-view,進入系統視圖。
  2. 配置處于ERROR DOWN狀态的接口自動恢複為Up的延遲時間:
  3. (CE12800&12800E&16800)執行error-down auto-recovery cause { auto-defend | bpdu-protection | crc-statistics | dual-active | fabric-link-failure | forward-engine-buffer-failed | forward-engine-interface-failed | link-flap | loopback-detect | m-lag | mac-address-flapping | no-stack-link | portsec-reachedlimit | stack-config-conflict | stack-member-exceed-limit | stack-packet-defensive | storm-control | transceiver-power-low | m-lag-consistency-check } interval interval-value指令。
  4. (CE8800&7800&6800&5800)執行error-down auto-recovery cause { auto-defend | bpdu-protection | crc-statistics | dual-active | forward-engine-buffer-failed | forward-engine-interface-failed | link-flap | loopback-detect | m-lag | mac-address-flapping | portsec-reachedlimit | spine-member-exceed-limit | spine-type-unsupported | stack-config-conflict | stack-member-exceed-limit | stack-packet-defensive | storm-control | transceiver-power-low | m-lag-consistency-check } interval interval-value指令。
  5. 執行display error-down recovery顯示處于ERROR DOWN狀态的接口的相關資訊,包括接口名、Error-Down原因、接口狀态恢複到Up的延遲時間和目前的剩餘時間。

總結與建議

1、自動恢複措施對已經處于ERROR DOWN狀态的接口無效,建議使用者在配置業務的同時配置自動恢複功能。

2、由于接口Error-Down後需要一定的時間來排除業務故障,是以建議将Up延遲時間設定的足夠長,例如1小時。

接口出方向有突發流量導緻丢包的故障定位

組網情況

Server和CE交換機之間通過Eth-Trunk接口連接配接,Eth-Trunk接口有兩個10GE成員接口。

圖1 接口出方向有突發流量導緻丢包的組網示意圖

接口管理故障案例

現象描述

裝置上産生QOS/4/hwXQoSPacketsDropInterfaceAlarm_active的告警資訊,提示Eth-Trunk的兩個成員接口均有丢包。

原因分析

  1. 任意視圖下執行指令display interface interface-type interface-number檢視Eth-Trunk接口及兩個成員接口的丢包情況和出方向的帶寬使用率。<HUAWEI> display interface eth-trunk 2 Eth-Trunk2 current state : UP (ifindex: 361) Line protocol current state : UP Description: Switch Port, PVID : 1, TPID : 8100(Hex), Hash Arithmetic : profile a, Maximal BW : 20Gbps, Current BW : 10Gbps, The Maximum Frame Length is 9216 Internet protocol processing : disabled IP Sending Frames' Format is PKTFMT_ETHNT_2, Hardware address is 200b-c739-1301 Current system time: 2018-03-28 11:35:37 Physical is ETH_TRUNK Last 300 seconds input rate 391 bits/sec, 0 packets/sec Last 300 seconds output rate 227 bits/sec, 0 packets/sec Input: 28 packets,2916 bytes 0 unicast,0 broadcast,28 multicast 0 errors,0 drops Output:9 packets,1551 bytes 0 unicast,0 broadcast,9 multicast 0 errors,8126082 drops Last 300 seconds input utility rate: 0.01% Last 300 seconds output utility rate: 0.68% ---------------------------------------------------------- PortName Status Weight ---------------------------------------------------------- 10GE4/0/19 UP 1 10GE4/0/20 UP 1 ---------------------------------------------------------- The Number of Ports in Trunk : 2 The Number of Up Ports in Trunk : 2<HUAWEI> display interface 10ge 4/0/19 10GE4/0/19 current state : UP (ifindex: 38) Line protocol current state : UP Description: ... Input Flow-control: DISABLE, Output Flow-control: DISABLE ... Statistics last cleared:2018-03-28 11:35:05 ... Output peak rate 23990062 bits/sec, Record time: - Output: ... Discard: 4057847, Buffers Purged: 0 Pause: 0 Last 300 seconds output utility rate: 0.64%
  2. 從回顯中可以看出出方向的帶寬使用率還不足1%。
  3. 任意視圖下執行指令display qos buffer-usage interface interface-type interface-number slot slot-id檢視緩存是否滿。<HUAWEI> display qos buffer-usage interface 10ge 4/0/19 slot 4 Total : 11150 cells (2264 KBytes) Current used : 0 cells (0 KBytes) Remained : 11150 cells (2264 KBytes) Peak used : 4245 cells (862 KBytes) Average used : 0 cells (0 KBytes) Buffer Usage on each Queue: (cells/KBytes) ----------------------------------------------------------------------------- QueueIndex Current Peak Average ----------------------------------------------------------------------------- 0 0/0 4245/862 0/0
  4. 根據Remained項可以看出緩存未滿。
  5. 通過測試儀器Wireshark,設定Interval為1ms,監控流量。發現有突發流量超過了最大帶寬。圖2 Wireshark工具流量監測圖
接口管理故障案例

操作步驟

類似這種小流量過載不能通過裝置的流量統計實時觀察到,由于接口的流量統計峰值是5分鐘内的平均值,是以這種情況下接口的流量統計結果不會達到或超過接口帶寬的峰值速率。

在本組網中,可以通過以下方式解決丢包問題:

1、增加Eth-Trunk的成員口數量,擴大Eth-Trunk接口帶寬。

2、如果Server端支援流量控制功能的話,使能出方向的流量控制功能。

總結與建議

無。

繼續閱讀