故障背景
近日接到某公安机关信息中心电话,反应整个公安系统传输数据丢包。虽然个机房内网络通信正常,但是办公区域都访问服务器都会丢包。导致视频会议传输不正常,严重影响正常办公。
故障重现
通过与客户沟通,类似网络故障已经持续数月,故障原因不明,故障现象为公安系统内部无规律丢包1-2%,影响网络数据传输。其中服务器之间ping的丢包率最多,远端用户ping服务器丢包较少,部分用户ping上级机构不丢包。服务器区内的一台管理主机ping多台不同网段,不同位置的IP有时会同时丢包。
故障分析
由于全网都有掉线现象,我们首先利用科来网络分析系统抓取核心交换机上的数据包,判定是否由于网络阻塞、网络攻击等其他原因造成无规律掉线的情况。
我们用服务器区的管理主机144.196ping服务器128.8抓取数据包。由于是双向镜像,我们可以看到数据包转发的情况很正常。但是会有ICMP请求转发出去以后没有收到应答的现象,ICMP返回丢包信息。
为了进一步找到故障原因,并且服务区数据包丢包较多,所以我将抓包点下移到服务器区的汇聚交换机。
这次抓包我们抓取同一汇聚交换机下的一台服务器与一台计算机之间的icmp协议。同样的我们发现数据包被正常转发,而直连的主机并没有应答。
又经多次测试累计发现:
主机144.196发送606个请求数据包,接受到595个回应数据包。
交换机抓包128.39接受598个请求数据包,发送595个回应数据包。
通过这两组数字证明主机144.196到交换机之间已经存在丢包现象。主机128.39与交换机之间同样存在丢包现象。为进一步确定故障点,我们在服务区内的汇聚交换机直连一台装有科来网络分析系统的笔记本。
我们在服务器端ping新添加的这台笔记本电脑。服务器端ICMP显示丢包时,我们停止抓取数据包。发现交换机抓包与直连的主机抓取的数据包成比例为2:1。如:服务器共发送101个数据包,丢失1个数据包。交换机抓到请求包200个(双向抓包),而新直连的主机抓取100个。说明在三层转发二层传输上数据都正常的进行发送和处理。只是在数据包发送的时候,有个数据包没有发送到交换机就已经丢失了。我们进入机房查看网线物理状态,发现部分网线使用的是非屏蔽超五类双绞线,并且强电与网线同走的一个线路。同时我们在一台服务器同时ping多网段多区域的主机时,经常出现同一时间多个ping包丢失。初步证明是强电传输时对信号造成干扰数据传输,最终产生无规律丢包的现象。
故障结论及解决办法
丢包是由于服务器区大量使用非屏蔽双绞线,并与强电布线相同导致强电干扰造成的。远端ping服务器丢包是因为远端到核心不丢包,所以丢包较少。服务器ping服务器丢包多是由于进出交换机的线都受干扰造成的,所以丢包。远端ping向上级单位不丢包是因为汇聚与核心到上联单位都是由光纤,并且不通过服务器传送数据。Ping多主机同时丢包,是由于发送请求包时被电磁干扰信号,交换机无法识别数据包造成丢包现象。
最后客户采用电缆与数据线缆分开,并采用屏蔽双绞线进行布线,全网丢包现象就没有再出现。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
相关推荐
-
科来:利用网络分析技术分析航空客服系统故障
某航空公司华南客服中心,客服人员用客服系统接电话时经常出现接听失败的现象,由于客服服务器位于北京数据中心,中间涉及的网络设备较多,一直未能定位到故障原因。
-
利用网络分析技术解决VPN异常中断故障
某保险公司北京总公司与各地分公司均通过双线与当地电信和联通两大互联网运营商相连,各地分公司通过IPsec VPN接入总公司内部网络。
-
基于网络分析技术的网银系统访问缓慢案例
某银行用户反映银行网银系统有时访问较慢,主要现象为打开登录界面需很长时间,银行客户希望能对网银系统做一个全面的分析,找出故障的原因。
-
利用网络分析技术诊断BOSS系统故障
某运营商Boss系统向服务器提交订单,每天会有600个左右不成功的订单,不成功的订单需手工录入,极大的影响工作效率;该情况已持续2-3个月。