运维人的日常挑战与成长自述

发表时间: 2022-06-02 15:08

我是灿哥,是一名运维人员,从事运维工作近10年,这是我的故事。

2014年,计算机专业的我进入到一家创业公司从事运维工作,凭借一腔热血很快就适应了24小时on call。作为职场新人,为了避免系统出现问题影响业务,我开始不断提升能力。除了处理工作上繁琐的事务,慢慢的学会了部署contab、iptables、给磁盘做扩容、掌握python、Go语言等技能。那时我所在的公司只有几台服务器,系统应用简单,一般不会出现系统故障,偶尔发生网络中断、服务器宕机等问题我也可以轻松应对,作为系统安全运行“背后的力量”我时常斗志满满。

2017年,“互联网+政府服务”政策相继出台,机缘巧合之下,我进入家乡政府政务服务中心信息部工作,虽然还是运维人员的身份,但是公共服务领域的系统往往有更稳更快的要求。然而面对八十多套应用、几百台云主机,多样的服务类型,复杂的运维架构,即使已有三年的运维经验,很多时候我和团队还是感觉分身乏术,力不从心。就拿故障问题定位来说,以前服务器数量少、应用简单,系统出现问题,我可以很快地找到原因并解决;如今应用复杂,发生问题后排查耗时耗力,却不一定能精准解决……这让我感到压力倍增。

2019年,有人说大数据时代,对于运维工程师来说,最好的时代来了。那天,领导说公司要引入金现代的智能运维管理平台可以帮助我们提高工作效率,一开始我并不以为然。直到某天上午,接到运维平台发送的“数据库服务器内存不足,建议扩存,否则会导致系统宕机”的预警,我将信将疑的根据平台建议扩展了内存,三天后,在巡检过程中发现内存果然超过了之前的临界点,幸好当时根据系统提醒及时做了扩容,避免了故障的发生。这是我第一次感受智能运维平台的“智能”之处。过去我们总是在系统出现故障后被叫去处理故障,往往会导致业务中断。部署了运维平台之后,平台会对我们的业务系统运行情况进行预测,发现潜在故障风险时会给我们发送提醒,我们可以根据提醒提前进行应对,大大减少了业务系统故障的发生。

除此之外,我最关心的故障定位问题也得到了解决。19年冬,社保系统因为响应太慢遭到投诉,运维平台从业务视角出发构建端到端的应用性能监控,从客户端、网络、服务端进行应用性能分析,探测有问题组件,自动发现调用链路监控并且对服务端执行代码级别的追踪,最后定位到是程序代码未及时释放数据库连接的问题。以前需要花两三天时间才能找到故障原因,那天仅用了半小时就成功解决了问题。投诉逐渐减少、效率不断变高、系统持续运行,作为每天与数据打交道的运维人,智能运维管理平台让我切实感受到了数字技术的力量。

从传统运维到AIOPS,改变正在发生。到2022年,智能运维平台已经是我们运维团队的最强大脑与得力助手。通过平台的驾驶舱监控大屏,我们清晰的看到IT基础资源、指标数据、预警告急;平台根据服务器CPU、磁盘、内存等指标进行建模分析,准确评估服务器负载情况,提高了服务器利用率。在平台的护航下,政务中心审批办件、电子证照、事件管理等系统稳定运行,一网通办改革顺利推进,全程网办率达到97.4%,在2021年中国政府网站绩效评估报告中位居优秀梯度,领导十分欣慰,作为运维人员的我也为家乡数字化智慧化贡献了自己的一份力而感到自豪。

智能运维平台监控驾驶舱)

灿哥的只是千万个运维人的缩影,在政企单位数字化转型持续推进的今天,每个信息系统稳定运行的背后都离不开运维人员的努力。但IT基础架构越来越复杂,传统的运维模式已经无法满足新环境下系统的配置与变更,运维人员的压力愈发增加。

金现代智能运维管理平台,可以持续监控应用系统与IT基础资源,通过AI、大数据和机器学习等技术实现了故障根因分析、告警风暴抑制、故障预测等,降低故障发生率、缩短故障处理时间、提高信息化系统的持续运营能力。目前平台已在山东、内蒙古、西安等多地应用,在助力政务、电力、交通等多个领域的运维人员高效运维的同时,也为各政企单位的数字化转型提供更安稳、更澎湃的动力。