运维转型与精进:从理论到实践

发表时间: 2021-05-20 13:13

上海浦东发展银行信息科技部副总经理 奚力铭

运维发展历程

自从有了计算机系统,就有了系统运维。对于银行而言,真正的体系化运维是从银行实现大集中系统之后开始的。那时,央行先后发布了《银行集中式数据中心规范》(JR/T0011-2004)金融行业标准、《关于进一步加强银行业金融机构信息安全保障工作的指导意见》(银发〔2006〕123)文件等,对大集中模式下的生产运维管理指明了方向。各银行也纷纷遵循监管指导、借鉴国际最佳实践ITIL(信息技术基础框架库)、结合自身实际情况,从人员、技术、流程等方面构建运维管理体系。可以说,在步入互联网时代后,银行的大集中系统建设、集中式数据中心建设、大集中运维管理体系建设,是银行业从电子化迈入信息化的重要标志。

浦发银行在2003年11月完成了全行大集中系统建设,开始组建生产运维管理队伍,一年之后启用新建的集中式数据中心,大集中模式下的运维管理体系初见端倪。在运维人员方面,按照系统、网络、设备、应用等专业工种划分团队、设置岗位;在运维工具方面,引入专业的商用软件实现监控感知;在运维流程方面,强化事件管理、问题管理、变更管理、配置管理等运作流程的建立和执行。到2010年,浦发银行将灾备中心从同城升级到异地,形成了“大异地、小同城”的“两地三中心”布局,并开启了“两地交替运行”到“两地双活运行”之路。此时,生产运维管理开始横跨上海和合肥两地。

回顾这一段历史,运维处于“手工化”到“脚本化”的过程,是一种非常传统的运维方式,运维的精进之路才刚刚起步。直到“十三五”后期,数字化转型忽然之间成为了主流,相应地,运维向运维开发转型、向运维分析转型均提上了议事日程,运维精进的道路从“脚本化”走向了“自动化”“服务化”,并进而走向“智能化”。

运维为什么要转型?

运维转型的两大驱动力:一个是业务驱动力,另一个是技术驱动力。

1.运维转型的业务驱动力

当“银行不改变,我们就改变银行”越来越变成现实时,银行传统业务明显受到了挤压,各家银行都意识到业务转型的必要性。为改变业务模式、更好地服务“长尾客户”,就必然要靠系统和数据的支撑。

2018年浦发银行发布无界开放银行,2020年又发布了全景银行(即开放银行2.0),这些都是业务目标,要走出传统银行业务范畴,在生态上发力。要实现这些业务目标,需要数据和数字技术的驱动,需要系统平台的支撑。很显然,这些支撑平台的系统规模更庞大、技术种类更繁杂、运行速度更快捷、投产变更更频繁,其运作离不开高效的运维,因此运维必须转型。

2.运维转型的技术驱动力

(1)分布式。多年来,银行业大多使用了高性能主机构建起巨石应用系统,很好地支持了业务大集中处理。然而,随着开展“秒杀”活动、服务长尾客户、服务生态客户等业务发展需要,集中式架构的性价比不高、弹性伸缩能力不足,而分布式架构又是被互联网大厂实践所验证的,因此银行IT体系架构从集中式转向了分布式。分布式系统需要服务和数据的多副本冗余,相应地,需要多地多中心(如两地五中心等)来实现灾备和连续性。很显然,运维要面对的是更多的数据中心,以及大量的计算机设备和分散的应用系统。

(2)云原生。数字经济主导未来经济发展,传统企业要跟上时代发展的脚步都需要实施数字化转型,而转型所需要的人财物巨大投入又制约着传统企业的转型步伐,一条可行的路径是上云,使用SaaS服务“多快好省”地开展数字化转型。因此不少金融机构想着搭平台、建生态,既服务实体经济,又寻找新的金融业务商机,这就绕不开建设云平台(IaaS、PaaS)、构建云服务(SaaS)。


云原生就是要实现DevOps+容器化+微服务。简单地说,DevOps是流程敏捷,容器是技术组件化,微服务是业务和应用的组件化。组件化的目的是要实现标准化和快速组装。一句话归纳,云原生就是要从业务、应用、技术、流程都达到快速敏捷的目的。因此,运维要面对的不仅是大量的计算机设备和分散的应用系统,而且还要面对系统的快速迭代和频繁变更。

(3)数字化。数字化中的“数字”是指云、大数据、人工智能等数字技术,“化”是指改变,并且是一种质的改变。运用数字技术去改变社会,就是社会数字化;运用数字技术去改变银行,就是银行数字化;运用数字技术去改变运维,就是运维数字化。在银行数字化的进程中,银行科技工作本身也需要数字化转型,这其中就包括了运维,毕竟系统生命周期中的绝大部分时间是在运行阶段,系统产生价值的阶段也是在运行阶段,因此运维数字化转型意义重大。

综上,从IT体系架构变化、敏态运行、数字化发展变化等技术角度来看,运维转型趋势使然、势在必行。

运维向哪里转型?

向数字化迈进是运维转型的大方向,具体目标包括实现一体化集中运维模式,向运维开发和运维分析转型等。

1.一体化集中运维

两年前,浦发银行基于上海、合肥“两地双活运行”,开始探索一体化集中运维模式,即远程集中运维和现场属地运维有机统一的模式,提前为支撑未来“多地多中心”运维做准备。一方面是在人才密集地区(如长三角)落地远程集中运维队伍,打造符合连续性要求的、分布在上海和合肥两地的、集中一体的远程运维团队。另一方面是按照“最小化”目标组建机房属地运维团队,承接机房基础环境、硬件设备等必须在现场运维的工作,为将来在电力资源丰富地区落地数据中心奠定基础。

2.向运维开发转型

运维管理体系无外乎人员、技术、流程。但在数字时代下,运维对象已经发生了巨大变化,运维管理体系需要相应改变,如硬件设备逐步走向软件定义,应用更新逐步走向持续交付,运维对象逐步走向数字孪生,运维流程逐步走向线上自服务,等等。在此,运维技术已经变得极为重要,它已经不能作为一个个单独的工具而存在,而是嵌入到运维工作的方方面面,需要运维人员用软件开发的方式去实现运维工作,即运维向运维开发转型,从而可视化地感知运维对象、自动化地完成运维操作、线上化地向各类服务对象提供自服务功能。

如图1所示,运维管理体系包含运维对象、运维流程、核心资产、运维工具、服务对象等五个维度内容。

图1 运维管理体系框架示意图

3.向运维分析转型

传统运维靠的是人以及人的经验(即知识),数字化的运维则要突出数据、算法和模型(亦即知识)的作用,即强调了运维要向运维分析转型。构建包含流式计算的运维大数据平台,实现对各种运维对象、运维流程的实时数据采集,开展运维数据的实时分析处理,这是运维人员的又一个利器(如图2所示)。

图2 运维大数据处理逻辑示意图

运维分析可以从大量运维数据这个“金矿”中挖掘出“金子”来,能够做实时秒级感知、全景纵横展示、故障根因定位、容量分析预判等很多事情。举一个例子,针对浦发银行每月10日开展的权益抢兑活动,自研搭建运维大数据流式处理引擎,基于交易报文的解析分析,以1秒颗粒度、50毫秒处理响应,实现对高并发交易报文的实时采集、解析、聚合、可视化大屏展现,将整个交易链路上各应用系统的系统吞吐率、系统成功率、交易响应耗时、业务交易量、业务交易金额等各类运行指标实时呈现出来。这样就能有效帮助管理人员、业务人员以及科技人员精细化地掌控“秒杀”类大促活动中的业务和系统运行情况。

运维如何精进?

传统运维靠的是人工操作和一些脚本执行,数字化的运维精进之路是从脚本化向自动化、服务化、智能化迈进(如图3所示)。

图3 运维数字化精进之路

1.自动化

DevOps要求持续交付,那么机房基础环境和IT基础软硬件需要做到提前部署、快速交付,应用软件需要做到CD(持续部署)对接CI(持续集成)实现持续交付,因此应用软件更新自动化是做到敏捷的关键。近两年,浦发银行重新规划和构建运维工具体系,全面提升运维自动化水平,其中企业级CD平台已全面建成,实现90%以上的应用系统更新通过自动化手段完成。如手机银行系统运行在数千个容器上,每月实施应用程序变更数量超过50次,如果没有自动化,靠增加运维人员,也很难做到持续交付,而有了自动化,运维人员的工作量反而得以下降。

2.服务化

自动化往上发展是服务化,就是要将运维工作提炼成一个个服务项,每个服务项包括申请审批流程以及自动化操作,提供给服务对象以自助方式来使用这些服务,达到“自服务”,从而进一步将运维人员从繁重的日常工作中“解放”出来(见图4)。

图 4 运维工具体系逻辑示意图

3.智能化

运维数字化的高级阶段是智能运维(AIOps),运用运维大数据和机器学习等人工智能技术,朝着监控阈值动态调整、故障定位与自愈、IT资源动态调度等方向前进,进而在一定程度上实现对人脑的替代。

对此,浦发银行已着手开展了有益尝试。建立十余种智能算法,通过实时处理各类结构不同的日志数据、自适应不同性能指标的走势规律,无需人工判定,即可发现深藏在数据中的异常情况,达到事前预警、事中自动定位故障点、事后复盘有据可证的目的,减少对运维专家经验的依赖,缩短应急处置恢复时间。

大中型银行运维转型的挑战很多,除了运维自身能力需要与转型要求相适应之外,还受到系统生命周期各前道工序能力和水平的制约,但无论如何困难,都必须坚持运维转型和精进之路,唯有数字化才是运维的出路。

(栏目编辑 :张丽霞)