天天看点

故障排查:是什么 导致了客户端批量心跳超时掉线

        如果发生了很多客户端批量心跳超时掉线的情况,就说明服务端在过去的某段时间内,从未收到来自这些客户端的任何心跳消息。通常有3种可能性导致该情况发生:

       在该情况发生时,观察一下服务端进程的CPU和内存是否有异常。

       比如,当CPU持续在100%时,就有可能导致接收数据的操作被停止。

        假设是该原因导致的心跳超时,则对应的解决方案有:

(1)找出那些处理非常耗时的信息,进行优化理,加快处理速度。

(2)将超时时间间隔设定位一个更大的值或关闭心跳检测。

(3)将信息处理修改为异步模式。

        很显然,方案(1)是最好的也是根本性的解决方案。 

        如果排除了前面的可能性(比如,即使改成了TaskQueue模式,批量掉线仍然发生),那么,几乎就只剩下一个可能:服务端在心跳超时时间间隔内未收到来自这些客户端的任何消息。很可能来自客户端的消息被防火墙、路由器、或某些网络完全监控的相关软硬件给挡住了。

        此时,需要专业的运维人员或网管人员参与进来,协助排查问题,比如:

(1)在服务器上执行netstat命令,查看目标端口的相关状态信息。

(2)在服务器上执行抓包工具,监测目标端口上是否有数据从客户端过来。

(3)分析服务器的网络拓扑结构,并以服务器为中心,依次向外检查防火墙、路由器、网络安全监控等相关软硬件等的设定,并进行针对性的排查测试。

      经过以上的排查分析,应该都可以找到问题的根源所在,如果还是没有结果,可以给我留言,我们一起讨论下啊。