天天看点

接口管理故障案例

作者:运维法拉令

接口Error-Down

现象描述

接口状态显示为ERROR DOWN,接口指示灯状态为常灭,接口不能正常收发报文,设备上产生ERROR-DOWN_1.3.6.1.4.1.2011.5.25.257.2.1 hwErrordown告警。

原因分析

Error-Down机制是设备提供的一种保护机制,涉及接口、堆叠、SVF、安全等多个特性。配置上述特性的指定功能后,一旦检测到接口或者接口关联的业务存在异常,设备即关闭接口并将接口状态设为ERROR DOWN,从而防止异常进一步扩散影响到整个网络。

用户可以通过在任意视图下执行display interface命令查看引起接口Error-Down的具体原因。

<HUAWEI> display interface 10ge 1/0/1
10GE1/0/1 current state : ERROR DOWN(link-flap) (ifindex: 5)         
Line protocol current state : DOWN                                   
Description:                                                         
Switch Port, PVID :    1, TPID : 8100(Hex), The Maximum Frame Length is 9216    
Internet protocol processing : disabled                              
IP Sending Frames' Format is PKTFMT_ETHNT_2, Hardware address is 306b-2079-2201 
Port Mode:    COMMON COPPER,     Port Split/Aggregate:         DISABLE      
Speed:                 AUTO,     Loopback:                        NONE       
Duplex:                FULL,     Negotiation:                        -     
Input Flow-control: DISABLE,     Output Flow-control:          DISABLE      
Mdi:                      -,     Fec:                                -  
---- More ----            

如上图所示,接口10GE1/0/1的Error-Down原因为link-flap,即设备检测到10GE1/0/1接口频繁振荡后,关闭了该接口并将其状态置为ERROR DOWN(link-flap) 。

操作步骤

处于ERROR DOWN状态的接口数量较多时,逐一手动恢复接口状态将产生大量重复工作,且可能出现部分接口配置遗漏。为避免这一问题,用户可以使能接口状态自动恢复为Up的功能,并设置接口自动恢复为Up的延时时间。配置过程如下所示:

  1. 执行命令system-view,进入系统视图。
  2. 配置处于ERROR DOWN状态的接口自动恢复为Up的延迟时间:
  3. (CE12800&12800E&16800)执行error-down auto-recovery cause { auto-defend | bpdu-protection | crc-statistics | dual-active | fabric-link-failure | forward-engine-buffer-failed | forward-engine-interface-failed | link-flap | loopback-detect | m-lag | mac-address-flapping | no-stack-link | portsec-reachedlimit | stack-config-conflict | stack-member-exceed-limit | stack-packet-defensive | storm-control | transceiver-power-low | m-lag-consistency-check } interval interval-value命令。
  4. (CE8800&7800&6800&5800)执行error-down auto-recovery cause { auto-defend | bpdu-protection | crc-statistics | dual-active | forward-engine-buffer-failed | forward-engine-interface-failed | link-flap | loopback-detect | m-lag | mac-address-flapping | portsec-reachedlimit | spine-member-exceed-limit | spine-type-unsupported | stack-config-conflict | stack-member-exceed-limit | stack-packet-defensive | storm-control | transceiver-power-low | m-lag-consistency-check } interval interval-value命令。
  5. 执行display error-down recovery显示处于ERROR DOWN状态的接口的相关信息,包括接口名、Error-Down原因、接口状态恢复到Up的延迟时间和当前的剩余时间。

总结与建议

1、自动恢复措施对已经处于ERROR DOWN状态的接口无效,建议用户在配置业务的同时配置自动恢复功能。

2、由于接口Error-Down后需要一定的时间来排除业务故障,因此建议将Up延迟时间设置的足够长,例如1小时。

接口出方向有突发流量导致丢包的故障定位

组网情况

Server和CE交换机之间通过Eth-Trunk接口连接,Eth-Trunk接口有两个10GE成员接口。

图1 接口出方向有突发流量导致丢包的组网示意图

接口管理故障案例

现象描述

设备上产生QOS/4/hwXQoSPacketsDropInterfaceAlarm_active的告警信息,提示Eth-Trunk的两个成员接口均有丢包。

原因分析

  1. 任意视图下执行命令display interface interface-type interface-number查看Eth-Trunk接口及两个成员接口的丢包情况和出方向的带宽利用率。<HUAWEI> display interface eth-trunk 2 Eth-Trunk2 current state : UP (ifindex: 361) Line protocol current state : UP Description: Switch Port, PVID : 1, TPID : 8100(Hex), Hash Arithmetic : profile a, Maximal BW : 20Gbps, Current BW : 10Gbps, The Maximum Frame Length is 9216 Internet protocol processing : disabled IP Sending Frames' Format is PKTFMT_ETHNT_2, Hardware address is 200b-c739-1301 Current system time: 2018-03-28 11:35:37 Physical is ETH_TRUNK Last 300 seconds input rate 391 bits/sec, 0 packets/sec Last 300 seconds output rate 227 bits/sec, 0 packets/sec Input: 28 packets,2916 bytes 0 unicast,0 broadcast,28 multicast 0 errors,0 drops Output:9 packets,1551 bytes 0 unicast,0 broadcast,9 multicast 0 errors,8126082 drops Last 300 seconds input utility rate: 0.01% Last 300 seconds output utility rate: 0.68% ---------------------------------------------------------- PortName Status Weight ---------------------------------------------------------- 10GE4/0/19 UP 1 10GE4/0/20 UP 1 ---------------------------------------------------------- The Number of Ports in Trunk : 2 The Number of Up Ports in Trunk : 2<HUAWEI> display interface 10ge 4/0/19 10GE4/0/19 current state : UP (ifindex: 38) Line protocol current state : UP Description: ... Input Flow-control: DISABLE, Output Flow-control: DISABLE ... Statistics last cleared:2018-03-28 11:35:05 ... Output peak rate 23990062 bits/sec, Record time: - Output: ... Discard: 4057847, Buffers Purged: 0 Pause: 0 Last 300 seconds output utility rate: 0.64%
  2. 从回显中可以看出出方向的带宽利用率还不足1%。
  3. 任意视图下执行命令display qos buffer-usage interface interface-type interface-number slot slot-id查看缓存是否满。<HUAWEI> display qos buffer-usage interface 10ge 4/0/19 slot 4 Total : 11150 cells (2264 KBytes) Current used : 0 cells (0 KBytes) Remained : 11150 cells (2264 KBytes) Peak used : 4245 cells (862 KBytes) Average used : 0 cells (0 KBytes) Buffer Usage on each Queue: (cells/KBytes) ----------------------------------------------------------------------------- QueueIndex Current Peak Average ----------------------------------------------------------------------------- 0 0/0 4245/862 0/0
  4. 根据Remained项可以看出缓存未满。
  5. 通过测试仪器Wireshark,设置Interval为1ms,监控流量。发现有突发流量超过了最大带宽。图2 Wireshark工具流量监测图
接口管理故障案例

操作步骤

类似这种小流量过载不能通过设备的流量统计实时观察到,由于接口的流量统计峰值是5分钟内的平均值,所以这种情况下接口的流量统计结果不会达到或超过接口带宽的峰值速率。

在本组网中,可以通过以下方式解决丢包问题:

1、增加Eth-Trunk的成员口数量,扩大Eth-Trunk接口带宽。

2、如果Server端支持流量控制功能的话,使能出方向的流量控制功能。

总结与建议

无。

继续阅读