实战指南:提升运维内功,掌握核心技能

发表时间: 2024-06-18 16:10

文 / 中国邮政储蓄银行运营数据中心 范世辉 施伟 章瑞 吕灿

在2024年全国两会期间,“新质生产力”成了讨论的热词。新质生产力的提出,无疑将深刻地改变金融行业传统的生产要素和生产关系,有效推动数字金融的变革与创新发展。


作为数字化转型的底座,云基础架构和资源从集中式转向分布式,更好地支撑金融新一代分布式核心高效稳定运行,从而实现业务敏捷、安全可信,这既是行业发展大势,也是金融企业的需求使然。中国邮政储蓄银行(以下简称“邮储银行”)在本行“十四五”IT规划的引领下,持续深入推进智慧、平台、体验、生态、数字化和协同“SPEEDS”科技战略的扎实落地,旨在夯实科技能力底座,以承载更加多样化的业务创新场景。


当前,金融行业的云应用已经步入“深水区”。从最初的“上好云”到现在的“用好云”,邮储银行依托不断演进的云平台架构,形成了集云平台算力资源、规范标准、技术能力于一身的关键运营服务能力,同时构建起敏稳结合的云运营服务体系,基于标准化、精细化、智能化的运营手段,不断优化云服务成本、强化云服务效能,推动全行业务的高质量发展。


立足“新五化” 打造运维标杆

为更好地完成金融服务云底座的规划落地,邮储银行围绕“运维对象标准化、运维过程自动化、运维数据可视化、运维决策智能化”的目标,实现了对云平台规划设计、建设实施、服务运营、持续改进等环节全生命周期的闭环管理,持续提高云平台的服务质量。


邮储银行结合自身的实际运维需求和面临的挑战,以及新技术发展的趋势,主要从以下五个方面实现了运维能力的全面提升,走向标准化、精细化、自动化、智能化、高效化,为金融行业贡献了云运维的新实践。


1.多平台数据联动,实现精细化运营

挑战:传统云管平台使用Restful Api接口,运维人员只能获取云平台计算节点、存储名称等有限资源,同时展示信息也相对有限,不能很好地助力日常的运维管理,更难以满足行内对海量资源快速获取、关键数据精细化过滤、多平台资源自动化联动的高效运营要求。


解决之道:面对上述挑战,邮储银行的核心策略是,实现云管平台与自动化运维、统一监控平台等工具的平台联动,集成统一云资源管理、资源调度、运维数据智能分析等能力,实现了对云资源的全场景管控。具体措施包括:通过自动采集CPU架构、网络区域、存储类型等信息,实现资源的细粒度运营;通过同步CMDB,增加业务系统、系统运维级别、变更基线时间等更多业务维度数据以及硬件设备信息,实现以业务系统为中心的多维度穿透式立体运营。


2.通过模型动态规划,实现智能化运营

挑战:传统的信息化工程资源分配,主要依赖于人工统计,存在规划与实际分配脱节、人员沟通尤其是跨中心协同繁琐等问题。


解决之道:针对上述问题,邮储银行通过将工程资源规划模型集成至云管平台,实现了一站式资源交付。具体来说,该模型可自动从工程上线系统获取项目资源需求等相关信息,并且匹配平台自身存储的芯片架构、存储类型、网络区域等信息,再基于各软件组件的高可用架构,调用云平台资源的使用率和反亲和性算法,从而实现了项目资源的自动规划、均衡分布。模型计算完成后,可自动生成资源并创建任务,按业务系统变更基线定时执行。


3.规范镜像使用,实现标准化运营

挑战:在传统的信息化系统部署模式下,镜像无序扩张会导致部署标准不统一,且需要多次重复配置。


解决之道:邮储银行制定了云平台镜像管理、制作、发布、更新全流程,规范了云镜像仓库的建设标准,保障项目批量交付的统一标准。云平台镜像由高效的集中版本管理系统进行统一管理,并且按需进行新镜像制作及老镜像的更新。镜像文件经漏洞评估确认后,按照芯片架构、镜像用途等分类自动传入镜像仓库。镜像仓库可以完成镜像数据完整性和一致性的检测校验,并按需拉取至各个云平台。邮储银行云平台镜像可全面覆盖市场主流芯片架构、操作系统等软硬件支撑体系,高效完成虚机、容器、裸金属等多形态的规范化部署,全面保障系统的统一部署,有力支撑各项目的标准化建设和运营。


4.建立健全工具体系,实现自动化运营

挑战:在传统的信息化资源交付过程中,虚机创建完成后,通常需要手动进行操作系统和数据库的配置,在批量交付时,自动化程度低且出错概率较高。


解决之道:针对上述问题,邮储银行非常注重使用开源工具来提升工作效率。在研究cloudinit云服务器初始化工具的基础上,制定了标准化参数,以适配不同版本的镜像,并且自动调用操作系统和数据库配置工具集,实现了在虚机创建阶段自动注入基础功能和配置信息的能力,同时还完成了数据库集群等基础软件的自动安装,无需人工干预,即可实现云平台资源的批量化交付和运营可靠性保障,为后续监控、自动化、安全等工具的自动化安装配置奠定坚实基础。


5.资源弹性伸缩,实现高效化运营

挑战:传统的金融私有云平台对资源管控严格、缺乏弹性,自动化操作瓶颈明显。另外,手工操作需要收集繁杂信息,且步骤繁琐。


解决之道:为应对业务高峰期弹性增加云主机资源,以及业务低谷期降低服务器供应的动态调整需求,邮储银行从“云主机规格的弹性扩缩”和“云主机数量的灵活扩展”两个维度进行精准攻关,不断完善资源的动态分配机制,大幅提升了操作效率,而且避免了人工审核带来的风险隐患,保障了业务的稳定可靠。


实践中,邮储银行基于云管平台进行了自主深度开发,很好地保证了云主机的弹性与灵活性,满足了业务发展的需要。具体应用如下。


(1)实现云主机规格的弹性扩缩

邮储银行开发了针对行内各类版本、各类规格云平台虚机资源的一致化、一体化、规范化的变更工具,有效屏蔽了不同云的架构和版本的差异;同时通过统一监控,可以实时感知资源使用率较高或过低的异常情况,并及时预警,在变更时通过云管平台的一键操作,实现了指定虚机按照不同规格重建的动态扩缩容;同时通过资源调度算法,指定最优节点实现高效调度。


(2)实现云主机数量的灵活扩展

邮储银行开发了批量创建云主机的工具,只需按虚机模板要求,输入极少的必要参数,工程资源规划模型便会完成资源规划,同时自动计算出创建同一类型虚机所需要的所有信息,并生成虚机创建任务,从而大幅提升了工作效率。


智能运维 智云引领

随着金融企业将越来越多的业务迁移至云端,运维团队面临着一系列新的更加复杂的挑战,包括如何避免手工运维效率的低下,如何实现全流程的自动化,如何实现智能的统一运维,以及如何实现知识库的持续更新等。邮储银行运维团队也不例外。


经过多年在云应用领域的深入探索和实践,截至目前,邮储银行运维团队已承担起行内两地四中心——北京丰台中心、亦庄中心+河北廊坊IDC、合肥中心(滨湖)、合肥南岗IDC等多套云平台的日常运营和运维工作,不仅实现了异地(丰台、合肥、亦庄、廊坊)、异构资源(计算、存储、网络)、异架构(X86云、信创云)的全面整合和高效调度,提高了资源池的集约化、标准化、自动化运营和运维能力,更实现了全网云资源池的统一入口、统一监控、统一运维的可视可管,确保各系统高效高质的交付,以及业务的稳定运行与持续创新。

图 邮储银行云平台运营架构图


秉承“标准化、精细化、自动化、智能化、高效化”的指导原则,邮储银行运维团队将云管平台与自动化运维、统一监控平台等工具平台联动,完成了多平台的数据采集与关联互动,实现了云上资源报表的精细化运营;通过工程资源规划模型,实现了资源动态分配与展示,全面提升项目组自动化任务创建和高可用分配效率,大幅提高云平台的可观测能力;通过推动云镜像仓库的规范化建设,实现了项目标准化交付落地;通过开源能力与行内实践相结合,推动交付能力的跨越式提升;通过云管系统实现了云主机资源的弹性伸缩,构建出能够从容应对峰谷需求的效率体系。在云运维能力全面提升的前提下,邮储银行可以更好地满足业务灵活性、降低运营成本、加速创新的数字化转型需求。


云化前行 云运维赋能

邮储银行秉承务实与创新精神,勇于探索,潜心实践,蹚出了一条具有自己特色的云运维高效、简化、智能、安全之路,不仅进一步优化了云服务成本,更强化了云服务的效能。概括起来,邮储银行的运维团队做对了以下“两件事”。


第一,充分地落实管理及技术规范,有效提升交付能力。邮储银行在实现了数智化的运维之后,当一个项目需求投产后,新应用的安装周期可大幅度缩短至小时级,大规模、多批次并行搭建的效率显著提升。新系统交付的标准,明确了平台规划、资源供给、软件配置和镜像更新的自动化及标准化流程,既可以满足业务需求的弹性伸缩,又可以保障管理策略及技术规范的精准落地;同时,确保各类环境及运维服务的标准化、高效化和自动化,并且严格遵照监管、安全和生产运行的要求,为生产系统的高可用和高可靠提供了有效支撑。


第二,全面整合资源系统,实现生产运维管理的完全“云化”。邮储银行运维团队根据日常运维管理的需要,从服务自动化的角度梳理运维云服务目录,将基础架构资源划分、资源调整等日常运维工作,“云化”为随时可以获取的服务,并将各类运维工具提供的功能当作运维服务的“资源池”,全面整合现有的各类系统运维流程和运维工具集,实现了系统运维流程服务的自动化,真正做到集中管理、按需提供。


迈入生成式AI新时代,邮储银行也在积极引入多种机器学习、深度学习先进算法和模型,并适时纳入大模型相关技术,支撑邮储银行业务流程的智能化改造。未来,将更多智能化技术融入运维是大势所趋,邮储银行将运维智能化作为新引擎,推动运维工作提质增效,赋能金融业务高质量发展。