这几年越来越多的企业在国家号召和行业巨头的影响之下,开始有了自动化运维的概念,但是到底怎么做才算自动化运维,每家公司的理解都不太一样。
**在我看来,要建立什么要的运维平台,其实标准答案不确定,要看公司的IT规模和技术水平。**比如公司有几十台、几百台还是成千上万台机器;比如使用传统的linux服务器直接跑中间件,还是已经使用了容器技术,通过docker加载轻量级的中间件;比如公司的业务性质,是传统的制造型企业、营销型企业、银行等金融行业亦或者是互联网服务公司;还要看IT部分有多少预算和人力、财务和物力。 这个问题其实很复杂,需要考虑好多问题。今天我就以A企业为例,讲讲我们遇到的大公司病。
**先从资源管理方面讲讲。**A企业的规模很大,全国几十家企业,每家企业各种分公司和子公司,IT的规模可能是海量的。IT基础设施层面可能有各种各样的服务器,刀片服务器、小型机、大型机;各种各样的存储、网络、安全设备;各种各样的操作系统,windows、Linux、AIX等。于是可能好多人想到的是,先要建立一个强大的CMDB系统,手工录入各种繁杂的子资源,然后系统就生成的各种各样的报表和分析数据,感觉高、大、上,但是然后这好像只会让财务部门很开心,但是IT部门就会发现,难道我们就是板砖、整理数据出报表的命了。随着A企业推动信息化的进程加速,于是又产生了好多的信息系统,A生产管理系统、A建设系统、A工程管理系统、人力资源系统、财务系统、资产管理系统甚至也产生了信息管理系统。这些业务系统对IT基础设施的要求都不太一样,结果IT部门就更累了,因为资产越来越丰富了,硬件、软件越来越繁杂了,CMDB系统原有的设计已经不能满足要求了,于是就不断地加入各种模型和结构。再后来,互联网大厂提出了人工智能、大数据、云计算、物联网等概念,这些很快上升到了国家战略层面。作为国企的排头兵,A企业就积极响应国家号召,建立了各种各样的云计算平台、虚拟资源池,结果CMDB原有的模型简直被颠覆了,又只能再改造资源模型去适应了。 IT部分的大部分精力都花在了资源管理方面,别的事情精力就少多了,那就只能加班弥补了。
**再从资源监控方面讲讲。**由于我们已经有了强大的CMDB系统,再要做资源监控就是顺理成章的事情了。站在管理者的角度当然是有什么监控什么,监控指标越多越好咯。于是我们建立了丰富的运维监控指标体系,覆盖各种资源,监控指标包罗万象。然后监控系统运行起来以后,我们就整天关注着海量的监控对象和指标,一有个什么风吹草动,IT部门都心惊胆战的,生怕被考核了。后来就有人提出了自动化监控,由于IT的复杂度和技术的有限,结果自动化水平一直没有质的飞跃。