吴永飞:以数据为驱动,打造智能运维新引擎

发表时间: 2024-03-14 13:54

文 / 华夏银行首席信息官  吴永飞

华夏银行信息科技部  戚威 刘涛

数字化转型浪潮下,业务需求层出不穷,技术架构与日俱新,传统运维模式已难以为继。华夏银行积极顺应智能变革趋势,逐步摸索出了一条系统开发与运维并重、创新与风控并重、技术与管理并重的可持续的信息科技发展之路,提出了数据驱动、引擎赋能、场景导向的智能运维建设理念,以“1分钟故障发现、3分钟问题定位、5分钟应急处置”为目标,建立了以运维数据为基础,集监控、流程管理、作业自动化等工具为一体的“监、管、控”智能运维平台,如图所示。

图 一体化智能运维平台架构

夯实数据基础,服务运维场景

1.建立以应用为中心的运维配置数据模型

开展配置信息专项治理工作,从应用视角进行配置模型设计,根据场景需求丰富配置项属性,挖掘配置项关联关系,通过自动采集、系统间数据同步,形成应用系统、运行服务、逻辑设备、物理设备、机房单元、云平台环境六大类配置项,配置模型超过90个。以流程驱动配置项生命周期管理,识别配置项属性在生产、运行、变更、下线等主要生命周期阶段配的变化。提供配置报表和配置数据请求接口,支持周边运维系统交互配置数据。通过故障画像、配置信息检索、基础设施数据报送等运维数据综合消费场景,以用促治,治用并举,持续提升配置数据服务能力。

2.建设基于指标体系的运维数据平台

华夏银行在运维数据平台建设过程中,坚持标准制定、数据治理、平台建设多措并举。理论标准方面,2022年华夏银行作为主要成员参与制订发布了《金融机构信息系统运维数据治理能力成熟度评估规范》,该标准融合了行业内各主要机构、企业的知识与经验,是行业内首个关于运维数据治理的标准规范。治理实践方面,建立了数据管理制度、数据标准化治理规范、数据治理过程规范,形成了运维性能指标、运维管理指标、技术运营指标三个主要数据体系,纳管标准指标类型100余种,关联实例7100多个。平台与场景建设方面,建设运维数据服务平台,实现多源异构运维数据的统一汇总管理,功能覆盖“采、存、析、管、用”全生命周期,目前标准指标数据已超过10TB,数据总量约146亿条,已对运维可视化、统一运维报表、技术性运营联动、监管指标实时报送等重要场景提供了数据支撑。

构筑智能引擎,重塑运维模式

以数据驱动运维生态场景建设,结合大数据和人工智能技术,将突发事件信息采集、风险感知、业务影响分析、辅助应急决策、协同处置环节纳入统一管理,将监控数据、处置流程、运维工具、应急场景进行串联,逐步实现以“0-1-3-5”为目标的故障预防、故障发现、故障定位、故障止损的生产故障处置全生命周期管理。

1.试点混沌工程实验落实稳定性主动管理

生产环境中各类无法预知的事件难以避免,风险隐患无处不在,为了打造系统稳定性攻防验证能力,华夏银行从架构容灾、预案演练、强弱依赖治理、故障复盘等场景入手,推广混沌工程实验,主动向系统中注入异常状态,制造故障场景。通过评价系统实时稳态变化,挖掘潜在风险,进而提出优化策略,以“接种疫苗”的方式,使应用系统具备预防“重大疾病”的能力,实现系统稳定性主动管理,提升业务数字韧性。

2.运用数字孪生技术强化态势感知能力

在配置管理模型基础上,建立围绕交易全链路的端到端监控,通过整合旁路镜像监控、日志监控、基础软硬件监控、网络流量监控、应用性能监控、业务运行指标监控等多渠道监控数据,实现了业务系统组件运行状态及时感知,同时运用数字孪生技术,将“交易高速路、业务关系镜像、技术架构镜像”映射到直观的业务系统数字地图中,分层展示系统静态部署架构、资源实时容量情况、组件动态数据指标、交易链路实时情况。

3.应用机器学习算法助力一分钟故障发现

在近几年实践中,华夏银行采用了时序分析、神经网络、贝叶斯网络、随机森林等算法,对监控告警数据进行实现了治理和压降。除了固定规则告警外,先后引入黄金指标(交易量、响应率、成功率等)动态阈值预警、单/多指标异常检测、日志异常模式分析、历史故障特征比对等智能分析方法,不断提升监控告警的有效性、及时性。

4.基于可观测体系实现三分钟根因定位故障根因定位

如何落地一直是业界难点,主要体现在可解释性、准确性、时效性的高要求上。华夏银行推出的故障画像服务,基于配置管理模型,在故障发生时将交易链路中的上下游调用关系、应用组件、硬件设备、部署架构信息以拓扑形式进行展现。基于运维数据平台实时监控数据,建立覆盖全技术栈的观测分析模型,纵向实现从用户体验、服务、进程、平台到基础设施关联,横向实现包括链路、指标、日志、流量、变更及操作等信息聚合的,进而采用指标计算、影响标签与专家经验相结合的方式,综合应用性能分析、基础软硬件故障分析、网络故障分析等领域实时分析结果,实现生产故障分钟级定界和定位。

5.数字化应急协同体系推动五分钟应急处置

在传统运维工作模式下,经常存在故障发现不及时、故障影响范围定位不清晰、故障责任人不明确、故障协调不顺畅等问题。为了解决这些痛点、难点,华夏银行建立了“云指挥中心”,重塑应急处置指挥全生命周期,打通事件通知、排查报告、指挥调度、应急处置、复盘总结过程,实时展示监控告警、故障分析、业务影响、变化趋势等信息。在简单故障实现自愈基础上,对复杂故障提供在线会诊和自动化应急处置工具箱,将人与人、人与场景、场景与场景快速连接,提升故障处置效率。此外,正在建设的运维元宇宙,将进一步实现人、信息、流程、处置的高效协同。

总结与展望

近年来,华夏银行顺应数字经济时代发展,直面数字化转型挑战,明确了“智慧金融、数字华夏”的战略愿景和基本建成“一流智慧生态银行”的战略目标,以移动化、智能化、平台化、开放化为转型方向,积极开展数字化转型重点工程建设,加快提升赋能业务能力。

未来,随着智能化和数字化技术的不断涌现和快速迭代,尤其是以ChatGPT为代表的大语言模型的出现,人工智能将在更多行业和场景中实现突破和应用。华夏银行将以此为契机,以大模型为底座,结合专家经验,构建多模态运维知识图谱,打造运维专属大模型,在故障诊断、根因分析、故障自愈、容量规划等运维场景探索深耕,同时加快面向分布式架构的运维能力建设,持续完善智能运维体系。


(此文刊发于《金融电子化》2024年2月上半月刊)