随着各行各业逐渐构建在数字化技术之上,运维的重要性达到了前所未有的高峰。
IT 运维一直以来都是企业数字化的强大后盾,然而许多传统企业的 IT 运维仍然处于依赖人工的阶段。对于这些企业来说,数字化转型意味着引入新技术、流程和文化以实现共同目标,而运维也不再是单纯依靠人工在系统中查找数据并根据经验做出判断。企业 IT 运维将逐渐引入自动化的平台运维。
具体来看,这涉及到一系列的工作,包括构建资产全生命周期管理、实时掌握资源使用情况、系统健康状态、数据可视化、自动化部署、自动化处置、自动化故障接管等。这些给运维带来了不小的挑战。
首先,数字化是对现实场景的数字化表征,它要求对运营需求有深刻的理解,并且这种理解越来越精细。数字化必须基于对数据的实时掌握,因此要求全方位、立体化的数据采集和监控。
以基础设施为例,这要求告警、维修和变更等之间形成顺畅的沟通渠道。包括当前的一些 3D 大屏、数据看板,它们展示了整体运行情况的相关数据,也反映了数据工程师们对业务的深入理解。现在市场上有很多此类运维产品,并且有了独立的发展空间,这也是所谓的挑战带来的新的商业机遇。
同时,数字化转型也要求运维工程师提高对数字的敏感度。如果数据采集和计算存在一些不准确的情况,可能会导致呈现出现虚报。这其中可能涉及到一些数据物联网的采集新技术、数据的校验以及运维对数据业务的理解。
比如,当高密度 IT 机架运行大数据和 AI 业务时,它们会消耗大量电力。为了确保关键业务的可靠运行,必须确保机架峰值功率在额定容量内运行。如果机架采集功率数据出现异常,如电表精度不足、硬件故障、配置错误、通信异常等,就可能出现机架“超电”风险。此时,通过比较服务器拟合功率等综合数据源来判断机架采集功率是否可信,以确保 IT 业务有足够的供电容量。没有可信的数据,可能会倾向于保守运营,预留过多的冗余容量。如果有可信的数据,就可以充分提升电力容量利用率,降低电力成本,并符合各企业碳中和的战略目标。像这种数据治理的问题,是在数字化转型过程中需要运维工程师特别注意的地方。
在数字化演变过程中,相应的自动化和可靠控制要求也会更高。作为一个生产系统,它对高可用性方面提出了更高的要求,包括整个系统要做到 4 个 9、5 个 9 的高可用性等等。
对于数字化转型中的中小企业来说,企业需要采取一些策略,例如:
1、建立学习型组织,使团队中的每个角色都具备全流程能力。
2、除了打破壁垒之外,还要增强透明性,包括研发行为、运维行为的透明性以及生产环境、系统的透明性。如果不了解工具的变化和未来的进展情况是好还是坏,就无法在新的工具领域实践并做出相应调整。
3、中小企业可以引入屏蔽了复杂度的研发运维一站式全平台关注自己业务和平台之间的切合性降低在技术层面工具层面流程层面从零开始建设的成本。