天天看点

TOP故障快速定位指导——流量丢包

作者:运维法拉令

常见原因

  • 接口未加入VLAN。
  • 接口STP阻塞。
  • 奇偶校验错误。
  • 物理链路不稳定。
  • 流量超出带宽。
  • 路由下发失败。
  • ARP学习不到。

故障诊断流程

图1 流量丢包故障诊断流程图

TOP故障快速定位指导——流量丢包

故障处理步骤

  1. 检查接口是否加入VLAN。通过执行命令行display vlan vlan-id,查看接口是否加入VLAN。如果入接口或出接口没有加入VLAN,请配置接口加入VLAN。如果接口都已经加入VLAN,请执行步骤2。
  2. 检查接口STP是否阻塞。通过执行命令行display stp brief,查看接口是否阻塞。如果转发接口STP状态是discarding或learning,请检查网络中是否存在环路。如果转发接口STP状态是forwarding,请执行步骤3。
  3. 检查物理链路状态。检查物理连线是否存在松动、接触不良、线缆故障等现象。执行命令display interface [ interface-type [ interface-number [ .subnumber ] ] ],查看字段Last physical up time、Last physical down time,通过端口up/down的时间,来判断端口是否存在闪断现象。<HUAWEI> display interface 10ge 1/0/1 10GE1/0/1 current state : UP (ifindex: 12) Line protocol current state : UP Description: Route Port,The Maximum Transmit Unit is 1500,The Maximum Frame Length is 9216 Internet protocol processing : disabled IP Sending Frames' Format is PKTFMT_ETHNT_2, Hardware address is 0019-7459-3301 Port Mode: AUTO, Port Split/Aggregate: DISABLE Speed: AUTO, Loopback: NONE Duplex: FULL, Negotiation: - Input Flow-control: DISABLE, Output Flow-control: DISABLE Mdi: -, Fec: - Last physical up time : 2013-10-29 10:01:46 Last physical down time : 2013-10-29 10:00:53 Current system time: 2013-10-29 10:03:38 如果物理链路状态异常,请更换物理链路线缆。如果物理链路状态正常,请执行步骤4。
  4. 检查流量是否超出带宽。
  5. 执行命令display interface brief | include up,查看端口进来的流量和出去的流量是否达到100%来判断是否超带宽。
  6. <HUAWEI> display interface brief | include up PHY: Physical *down: administratively down ^down: standby (l): loopback (s): spoofing (E): E-Trunk down (b): BFD down (e): ETHOAM down (d): Dampening Suppressed (p): port alarm down (dl): DLDP down InUti/OutUti: input utility rate/output utility rate Interface PHY Protocol InUti OutUti inErrors outErrors 10GE1/1/0/4 up up 0.01% 0.01% 0 0 10GE1/1/0/6 up up 0.01% 0.01% 0 0
  7. 如果流量超宽,请增加负载分担链路或者增大接口速率转发流量。
  8. 如果流量没有超宽,请执行步骤5。
  9. 检查是否存在环路广播风暴。
  10. 检查MAC漂移记录,注意move-ports通常是环路上端口或者指向环的端口。
  11. V200R003C00之前版本显示如下:<HUAWEI> display mac-address flapping Mac-address Flapping Configurations : ------------------------------------------------------------------------------- Flapping detection : Enable Aging time(s) : 300 Quit-vlan Recover time(m) : -- Exclude vlan-list : -- ------------------------------------------------------------------------------- S : start time E : end time (D) : error down ------------------------------------------------------------------------------- Time VLAN MAC-Address Original-Port Move-Ports MoveNum ------------------------------------------------------------------------------- S:2014-05-26 15:06:13 1 0000-c10b-0102 10GE4/0/20 10GE4/0/1 47598 E:2014-05-26 15:15:45 10GE4/0/0 ------------------------------------------------------------------------------- Total items on slot 3: 1 ------------------------------------------------------------------------------- Time VLAN MAC-Address Original-Port Move-Ports MoveNum ------------------------------------------------------------------------------- S:2014-05-26 15:06:13 1 0000-c10b-0102 10GE4/0/20 10GE4/0/1 65535 E:2014-05-26 15:15:46 10GE4/0/0 ------------------------------------------------------------------------------- Total items on slot 4: 1
  12. V200R003C00及之后版本显示如下:<HUAWEI> display mac-address flapping Mac-address Flapping Configurations : ------------------------------------------------------------------------------- Flapping detection : Enable Aging time(s) : 300 Quit-vlan Recover time(m) : -- Exclude vlan-list : -- ------------------------------------------------------------------------------- S : start time E : end time (D) : error down ------------------------------------------------------------------------------- Time : S:2017-08-24 14:40:11 E:2017-08-24 14:40:23 VLAN/BD : 1/- MAC Address : 0000-c10b-0102 Original-Port: 10GE4/0/20 Move-Ports : 10GE4/0/1 10GE4/0/0 MoveNum : 47598 ------------------------------------------------------------------------------- Total items on slot 4: 1
  13. 当有如上回显时,表示存在MAC漂移。
  14. 如果存在MAC漂移,请查找MAC漂移的根源并解决。
  15. 如果没有MAC漂移,或者解决MAC漂移后问题仍存在,请执行步骤6。
  16. 检查路由信息是否正确。执行命令display ip routing-table statistics和display ip routing-table all-vpn-instance statistics,查看字段Summary Prefixes,计算两者统计之和是否超规格。<HUAWEI> display ip routing-table statistics Summary Prefixes : 49 Protocol total active added deleted routes routes routes routes DIRECT 41 41 47 6 STATIC 5 5 6 1 RIP 0 0 0 0 OSPF 5 2 8 3 IS-IS 2 1 2 0 BGP 0 0 0 0 Total 53 49 63 10 <HUAWEI> display ip routing-table all-vpn-instance statistics Summary Prefixes : 1 Protocol total active added deleted routes routes routes routes DIRECT 1 1 1 0 STATIC 0 0 0 0 RIP 0 0 0 0 OSPF 0 0 0 0 IS-IS 0 0 0 0 BGP 0 0 0 0 Total 1 1 1 0 如果超出规格,请更换高规格单板。如果没有超出规格,请执行步骤b。执行命令display ip routing-table [ vpn-instance vpn-instance-name ] ip-address [ mask | mask-length ],查看路由表中的下一跳和出端口信息是否正确。诊断视图下执行命令display fei ipv4 route-entry slot slot-id dst-ip ip-address查看下发的路由前缀信息是否正确,如果不正确,请检查配置是否存在问题。<HUAWEI> display ip routing-table 20.1.1.0 24 Proto: Protocol Pre: Preference Route Flags: R - relay, D - download to fib, T - to vpn-instance, B - black hole route ------------------------------------------------------------------------------ Routing Table : _public_ Summary Count : 1 Destination/Mask Proto Pre Cost Flags NextHop Interface 20.1.1.0/24 OSPF 10 2 D 100.1.1.2 Vlanif100 [~HUAWEI-diagnose] display fei ipv4 route-entry slot 1/1 dst-ip 20.1.1.0 RE Table: Total number: 1 -------------------------------------------------------------------------------- DestAddr : 20.1.1.0 MaskLen : 24 FVrfIndex: 0x0 IIDGFlag : 1 Location : 8 VrIndex : 0 VrfIndex : 0x0 AttributeID: 0 PathFlag : 145 IIDGIndex: 0x85 ARPNhpIndex: 0xFFFFFFFF 如果路由配置错误,请修正配置。如果路由配置正确,请执行步骤c。如果是通过OSPF协议引入的路由,请根据OSPF协议对接问题的定位指导查看是否存在邻居无法建立、路由震荡等现象。如果OSPF协议引入的路由异常,请排查路由配置是否存在问题。如果OSPF协议引入的路由正常,请执行步骤7。
  17. 检查ARP信息是否正确。
  18. 执行命令display arp | include ip-address,查看ARP是否学到。
  19. <HUAWEI> display arp | include 10.0.4.216 ARP Entry Types: D - Dynamic, S - Static, I - Interface, O - OpenFlow EXP: Expire-time IP ADDRESS MAC ADDRESS EXP(M) TYPE/VLAN INTERFACE VPN-INSTANCE ------------------------------------------------------------------------------ 10.0.4.216 006b-880e-340c S/10 10GE1/1/0/6 ------------------------------------------------------------------------------ Total:238 Dynamic:207 Static:1 Interface:30 OpenFlow:0 如果ARP没有学习到,一般有以下可能性:
    1. 执行命令display arp statistics,查看ARP数量是否超规格。<HUAWEI> display arp statistics Dynamic: 207 (Resolved : 207 Incomplete: 0) Static: 1 OpenFlow: 0
    2. 如果ARP数量超出规格,请更换高规格单板(在CE12800&12800E系列交换机中可以切换ARP模式)。
    3. 执行命令display cpu-defend statistics packet-type arp slot slot-id,查看是否有大量ARP报文被丢弃,来判断是否存在ARP攻击。<HUAWEI> display cpu-defend statistics packet-type arp slot 1/1 Statistics(packets) on slot 1/1 : -------------------------------------------------------------------------------- PacketType Total Passed Total Dropped Last Dropping Time Last 5 Min Passed Last 5 Min Dropped -------------------------------------------------------------------------------- arp 132775 6117 2015-12-09 21:05 169 0 --------------------------------------------------------------------------------
    4. 如果存在ARP攻击,可以攻击溯源查找,采取惩罚措施。
  20. 如果ARP已学习到,诊断视图下执行命令display fei ipv4 arp slot slot-id,查看下发的ARP信息是否正确;执行命令display fei l3 statistics slot slot-id,查看失败的统计计数。[~HUAWEI-diagnose] display fei ipv4 arp slot 1/1 next-ip 10.0.4.216 ARP Table: Total number: 1 -------------------------------------------------------------------------------- IPAddr: 10.0.4.216 IfIndex: 2035 VrIndex: 0 VrfIndex: 0 NhpIndex: 1072 EepIndex: 16388 MACAddr: 006b-880e-340c FVrf: 0 PeVid: 10 CeVID: 0 IfType: 3 TargetBlade: 0 TargetPort: 6 TrunkId: 0 [~HUAWEI-diagnose] display fei l3 statistics slot 1/1 Item Counter Last timestamp -------------------------------------------------------------------------------- RE_del_host realese scan fail 4 2015-07-29 03:26:16.128 IIDG path process 92 2015-07-29 03:39:59.997 Update NHP path 310 2015-07-29 04:00:01.266 Delete NHP path 20 2015-07-29 03:26:16.178 Add FEC FE success 40 2015-07-29 03:39:59.997 VPNacross delete reference fail 27 2015-07-29 04:00:00.136 NHP delete no need 4 2015-07-29 03:26:16.178 NHP sort fail 330 2015-07-29 04:00:01.266 NHP add no need 61 2015-07-29 04:00:01.266
  21. 如果ARP配置错误,请修正ARP配置。
  22. 请检查ARP信息错误是否因为上述原因引起。如果问题没有解决,请执行步骤8。
  23. 检查是否存在奇偶校验错误。
  24. 在诊断视图下执行命令行save logfile diagnose-log,收集设备的诊断日志信息(保存在flash:/logfile/diag.log文件中),检查是否存在parity error字段。如果存在parity error字段,请执行步骤9。
  25. 请收集如下信息,并联系技术支持人员。上述步骤的执行结果。设备的配置文件、日志信息和告警信息。

继续阅读