案例背景
某电力咨询院每天8点到9点之间与总部开视频会议,双方图像出现马赛克,严重时出现黑屏造成会议无法正常进行,严重影响了正常办公。此故障持续已有3年,网管通过各手段排查,但一直没有找到问题的根本原因。近日,部署科来网络回溯分析系统对内网核心交换机总出口的流量进行了7×24小时监控,并通过回溯分析系统提取出问题时段的通信数据,我们找到了导致用户视频会议马赛克的主要原因。用户的网络环境示意图如下:
本案例中部署科来回溯分析系统的目的是对内网专线总出口的流量监控和分析,因此采用的是核心交换总出口端口镜像的方式。
案例分析
首先,我们要对内网总出口流量状况进行评估,若发现间歇性的流量突发,且突发时间点与视频会议马赛克的时间点吻合,可推断是网络拥塞导致视频会议出现故障。
经过一个星期的跟踪和分析我们发现,自4月20日到4月28日每天早上在8:00-9:00之间流量较大,网络利用率高于40%。我们具体分析突发流量,选择突发流量较严重的4.23日(时间在8-9点之间网络利用率达到37%左右,实际突发高达50%)。从理论上讲网络利用率超出30%就会产生丢包,当前时间段网络拥塞出现丢包,据网络管理员测试视频会议终端确实存在丢包。
对于流量突发造成网络拥塞,我们需要弄清楚在流量突发时具体业务应用。通过回溯分析,选择流量峰值23日8:00-9:00之间的通讯数据,网络应用流量分布如下图所示:
从上图中可以看出基本上都是未知UDP流量。(视频会议走的是UDP协议,需要弄清楚UDP流量是否都是视频会议产生的流量)下载UDP流量进行分析。
发现主机10.8.44.147等运行的都是UDP的2425号端口,且对端也都是2425号端口,这些主机向网络中10.3网段发出扫描(B类网段),像类似扫描地址很多,产生较大扫描流量从路由器子接口发出,造成网络拥塞,严重影响了视频会议通讯。定位其IP,可发现扫描量很大。
通过查看数据报文信息,了解到UDP2425号端口是飞鸽聊天软件默认的端口,通过和网络管理员交流,得知网络中很多主机安装飞鸽软件。且员工在飞鸽软件上设置IP范围很大(基本上都是B类网段指向总部)。
关于飞鸽软件工作特点:在PC开机时,会自动向网络中发出大量UDP广播包,扫描在线的主机地址。飞鸽软件的工作原理如下:
(1)最关键的是局域网用户列表的建立;飞鸽启动时使用UDP协议向255.255.255.255这个广播地址发送广播包,默认端口是2425。广播包内容包含用户名、工作组、主机名、IP等信息; 已启动飞鸽的用户通过2425端口收到此广播包后,就会在自己的用户列表中添加这个用户的用户名、工作组等信息,同时向对方IP发送本机用户的个人信息;从而双方都能建立起用户列表;
(2)刷新用户列表时发送的广播包和启动时差不多,只不过返回的标识信息略有不同;可以做一个小工具,监控2425端口内存流,就能截获刷新和聊天时的消息。
(3)传送聊天信息时同样使用UDP协议;由于UDP协议是无连接协议,传输速度快,但是没有确认机制,是不可靠的协议,需要自己定义返回信息的标志来判断对方是否收到信息;
(4)用户离线时发送一个离线广播包到255.255.255.255,收到此广播包的用户,根据包中的IP地址(也可能是多种判断标志或者包含硬件标识,比如网卡地址等)删除对方的用户列表信息;
(5)广域网无法直接使用广播方式,靠手工添加”局域网外广播列表”来建立相互的关系;
(6)飞鸽传送文件是使用TCP协议,端口2425
分析结论
通过以上分析,我们可以判定出:
1、用户视频会议设备出现马赛克和网络设备硬件无关;
2、这一现象是由于用户飞鸽软件设置IP地址范围大,每天8:00-9:30又是上班的高峰期,用户集体开机大量的扫描报文会发向总部,堵塞网络,造成带宽利用率过高,同时也影响了核心设备的性能,因此导致视频会议出现马赛克。
了解此情况后网管负责人员通过使用桌面管理软件,对飞鸽软件进行限制。经过多次开会测试,视频会议都能够正常召开,马赛克现象没有再次出现。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国