天天看点

优云APM最佳实践: 诊断平安城市视频网性能问题

优云APM最佳实践: 诊断平安城市视频网性能问题

5 分钟前 上传

<a href="http://bbs.linuxtone.org/forum.php?mod=attachment&amp;aid=nja1nnwwzjqxmwuyzxwxndy5nti3ntqxfdq3mjc2fdmxmdg5&amp;nothumb=yes" target="_blank">下载附件 (166.88 kb)</a>

前言:

平安城市是一个特大型、综合性非常强的管理系统,不仅需要满足治安管理、城市管理、交通管理、应急指挥等需求,而且还要兼顾灾难事故预警、安全生产监控等方面对图像监控的需求,同时还要考虑报警、门禁等配套系统的集成以及与广播系统的联动。

处于平安城市系统核心地位的视频监控系统,架构复杂。组成系统有成千上万的高清摄像头、数以千计视频系统、数以百计的卡口系统、以及背后复杂的存储和管理系统;同时横跨多种网络,包括4g,以太网,光纤网。摄像头在线率,随时随地迅速调取视频,就是整个视频系统成效的关键指标。

&gt;&gt;&gt;&gt;业务请求跟踪,什么慢?

在初步了解后,我们对视频应用平台整体结构进行了梳理,整个应用平台分成两个层次,省级和各个市级,多达十几个个子系统,这里我们介绍一下主要的架构,并且选定关键路径侦听镜像。

优云APM最佳实践: 诊断平安城市视频网性能问题
优云APM最佳实践: 诊断平安城市视频网性能问题

&gt;&gt;&gt;&gt;单次业务链跟踪,哪里慢?

优云APM最佳实践: 诊断平安城市视频网性能问题

从一次摄像头视频请求的过程来看,从省级发起视频请求,到返回,市级sip服务器响应时间过长。

&gt;&gt;&gt;&gt; 模拟分析,为什么慢?

到目前为止,问题基本上锁定在市级的sip服务器一端。我们对市级的两万多摄像头巡检。发现成功率4.4%,有返回,但是错误返回9.6%,无返回超时86%。

从市级sip服务器指令监控结果来看,同样发现成功率和响应时间与请求量存在明显的关系,当请求量上升时,系统成功率大幅下降,同时响应时间大幅上升。甚至有到1分钟以上。

优云APM最佳实践: 诊断平安城市视频网性能问题

是什么原因导致了市级的服务器在处理连续请求,仅仅响应了部分请求之后就连续报出错误信息?我们分析了市级sip服务器的每次响应的时间和状态关系,最终发现高并发的情况下sip服务器没有正确结束请求,释放资源,导致不能继续处理后续的请求。

事情终于有了一个结果,但对运维探索却才刚刚开始。由于一般客户的视频系统大量的采用了虚拟化,云化系统建设,使得传统运维,定点监测的方案在当前的系统架构下已经不能完全胜任。运维如何跟上业务系统的敏捷开发的脚步?得益于优云前瞻的运维方案,快速的、敏捷的,动态跟踪用户的软件架构,有效的帮助定位和解决问题。

作者:刘成穆

·         10多年it运维管理软件的研发经验

·         主要从事应用性能管理的研究和开发工作

优云:秉承devops的理念,从监控、到应用体验,到自动化持续交付,全栈运维服务平台。

更多运维技术文章请关注优云官方微信(broada_ops)

优云APM最佳实践: 诊断平安城市视频网性能问题