21世纪经济报道记者 郭美婷 南方财经全媒体记者 李润泽子 实习生 曹萩儿 周愚
编者按:
“东数西算”已逾周年。这一年来,数据中心项目如雨后春笋,算力产业底座持续夯实,算力资源结构日趋完善,“东数西算”持续赋能千行百业。
我们希望通过系列报道,呈现“东数西算”工程开展过程中的成效与挑战,以大局观把握“东数西算”落地棋盘,同时聚焦数据中心投建中的微观话题,探讨算力产业高质量发展之路。
伴随着AI、大数据时代的到来,数据中心运维方式也在快速演进,新兴的、智能化的技术不断的融入到数据中心,让数据中心运维管理变得更加高效。本系列第三篇稿件即聚焦数据中心的智能化运维,探讨其如何推动数据中心朝着更加绿色、安全、高效的方向迈进。
西部群山之中,存放着数十万机柜的数据中心正在有序运行。机房内,智能巡检机器人代替人工进行着数据中心机房的运维工作。千里之外,该数据中心的运行数据指标在监控总台的屏幕上更新、跃动……
依托于智能化运维技术,上述场景得以成为现实。近年来,数据量爆炸性增长使得数据中心运维的复杂度和难度日益增大,随着“东数西算”国家工程的启动,数据中心进一步朝向绿色低碳、安全可靠、“无人化”作业的方向发展,行业对智能化运维的探索呼声渐大。
然而,目前行业整体发展尚不均衡,数据中心运维达到自动化、智慧化仍前路漫长。受访专家认为,缺乏标准规范是数据中心智能化运维的进一步发展面临的关键难题,制定可通用的参考标准、营造开源、共享、共赢的行业生态推动人才培养等,是行业的共同期待。
在数据中心行业内,“智能化运维”并非新鲜词汇。
公开资料显示,2017年前后,阿里、腾讯、华为等巨头均曾就数据中心的智能化建设开展过相关实践。2021年7月,工业和信息化部出台《新型数据中心发展三年行动计划(2021-2023年)》,明确提出“聚焦新型数据中心供配电、制冷、IT和网络设备、智能化系统等关键环节,锻强补弱”,引导数据中心运维管理向智能化发展。
近年来,随着“东数西算”国家工程的正式启动和算力需求攀升,数据中心规模及其承载业务和数据量不断增长,传统人工运维方式的弊端逐渐显现,人手不足、操作失误、疲劳等都可能埋下事故的导火索。据UPTIME统计,数据中心的故障有70%以上是人为因素导致的。智能化运维愈发成为行业集体探索的方向。
中国建筑科学研究院有限公司城乡规划院院长周海珠告诉21世纪经济报道记者,智能化运维简单概括来说就是通过全面的物联感知和数字孪生技术优化设备及系统的运行、减少运维人员数量、提升运维服务效率,来实现对运维精细度的优化及运维可靠性的提升。
智能化运维将重复、繁琐、耗时、易出错的技术运维工作交给机器,通过处理和分析历史设备运行数据,数据中心甚至能够实现风险预警、快速介入。“乐观估计,随着数据中心智能化或自动化的程度越高,事故发生的数量和人为失误的比例将持续降低。”有孚网络IDC运行部技术总监苏永华表示。
另一方面,数据中心绿色低碳发展的挑战同样推动数据中心的运维管理向智能化迈进。
去年底,工信部节能与综合利用司发布《国家信息化领域节能技术应用指南与案例(2022年版)》之五,详细介绍了多例智能化运维管理技术在绿色节能上的成效。以“结合人工智能(AI)的DCIM 数据中心智能管理系统”为例,该技术通过对数据中心基础设施的监测、管理和优化,将运营管理和运维管理有机融合,提供数据中心全生命周期管理,结合人工智能,实现电能利用比值最低化,预计到2025年行业普及率可达到 30%,可实现节约标准煤2.4万吨/年及以上。
此外,智能化运维还能让分布在不同城市、不同园区的数据中心实现“千里眼”般的远程运维服务。
苏永华表示,目前数据中心有两类发展模式:一类是园区级数据中心,其规模将越建越大,而另一类边缘数据中心则反之。这些边缘数据中心可能建在西部或其他偏远地区,企业往往无法派遣全套技术班子驻守当地。
智能化运维正在此时派上用场。“借助视频监控,技术人员可随时查看现场情况,通过上传总部的数据观测风火水电或温湿度,并掌握IT设备的运行情况。部分偏远数据中心已做到了无人值守。”苏永华说。
世纪互联运维事业部总经理闫昆观点相似,从加快推进“东数西算”工程的角度来看,由于部分西部能源富集区人才资源暂时仍相对稀缺,发展智能运维,能够在短期内让数据中心运维更好地适应西部的发展环境,逐步将东部算力需求有序引导到西部。
如何搭建数据中心智能化运维系统?
“一般而言,首要需建设的是承载数据的运营平台,并逐渐充实该平台上的运维数据。”苏永华表示,数据中心的基础设施(如风、火、水、电等设备,物联网测点设备及IT设备等)产生的各类运行数据,是智能化过程中非常重要的养料,应及时对数据进行梳理、整合、入库,实现运维数据的标准化处理,并建立起大数据的存储、分析机制。
在上述基础上,智能化运维系统能够对数据进行可视化的呈现,从海量的信息中分析提取出有价值的信息,并依据此辅助决策,如故障预测、节能调优等,给出准确的运维建议。
下一步,数据中心还将实现监控智能化、监控与应急联动化、日常操作的自动化,以及移动终端化等功能。
然而,在实践中,还有更多的现实情况需要纳入考量。例如,“东数西算”工程启动以来,老旧数据中心升级换代的脚步加快,但新老数据中心由于建造技术上的差异,在智能化改造的过程中各有侧重。
“新建数据中心智能化运维在部署期间由于业务系统尚未上架,运维系统施工简单、各运维子系统的设计也更加灵活;而对于已有数据中心,用户的使用痛点则更加明确,但是智能运维技术的施工和智能化的部署会相对复杂。”周海珠指出,部分老旧数据中心数据采集传感器不达标,甚至没有相应的数据接口,能够获取的数据量相当有限。同时,已投入使用的数据中心业务又不允许中断,也就是要求在业务在线的情况下实现设备设施以及系统的换代升级。
也因此,他强调了新建数据中心在项目前期规划阶段充分沟通用户需求、并将智能化运维系统纳入规划的重要性。相比于后期“亡羊补牢”,能够节省大笔成本。
苏永华则根据已建数据中心的具体年限划定了改造方案。最符合智能化发展的是近三年新建的数据中心,彼时国家对数据中心的发展已有一定规划和布局,也明确规定了相关技术规范,此时建立的数据中心基本能满足智能化运行的需求。
3-5年内建设的数据中心具备一定的系统开放性和数据连通性,但其开放接口、数据的模式等仍可能存在与最新标准不一致之处,需要在现有系统基础上进行规整或二次开发。
而7-10年或10年以上的数据中心的设备和技术都相对老旧,有的系统或设备的厂商或已不再提供支持,其协议、系统也不再具有扩展性。此类数据中心的改造要兼顾其现有的稳定性和客户的需求,所以只能根据目前智能化的进展,分批、分类、分步地推进。
智能化运维已经成为数据中心运维发展的必然趋势。
21世纪经济报道记者观察发现,当前,我国多家互联网企业、第三方服务商等均已积极部署智能化运维平台。
2022年,秦淮数据发布了自主研发的鲲鹏智慧运营平台2.0版,升级的云边协同和数据中台能力,监控点位接入数量接近千万,同时数据采集和告警时效均控制在5秒以内,并通过数据中台实现了集团数据中心的统一运营管理;有孚网络则构建了数据中心巡检分析模型,目前在新投入的数据中心机房中已规划电力轨道升降式巡检机器人、园区履带式巡检机器人以及室内轮式巡检机器人的试点应用;腾讯怀来瑞北云数据中心基于腾讯智维平台,构建了链接园区、区域、总部的三级闭环管理体系,故障自动定位的准确率高达 99.9%;世纪互联则将元宇宙应用于数据中心运维,并发布了世纪互联Meta42计划……
“目前整个行业的发展并不均衡。”苏永华说,头部企业与中小企业、不同年限数据中心之间的自动化程度不一。未来数据中心会朝着数智化、精细化以及自动化的方向发展,但前路仍然漫长,应分步骤、分阶段地进行。
这一方面与建设智能化运维系统所需的投入相关。闫昆透露,这是一笔不菲且需持续多年才能看到效果的投资,除配备基础的软硬件外,开发智能化运维平台的成本更是不可估量,部分企业的开发团队人数高达几十人,开发时间往往在三年以上。而将成功的运维模式复制到其他数据中心则相对简单,这也是大企愿意投入资本的原因之一,他们拥有足够多的数据中心,能够产生规模效应。
另一方面,技术上还存在着瓶颈。苏永华提到,将数据中心产生的海量运行数据进行降噪、分析和模型训练并非易事,更何况智能化运维模型的更新和迭代过程复杂、周期长,不同地域甚至不同年份的气候和环境可能都会产生差别,对模型的弹性应对提出更高的要求。目前,智能化运维仅能提供信息综合而得的结论,无法代替人工决策。
此外,多位行业专家均提到,数据中心智能化运维的进一步发展面临着“标准化”的难题。数据中心内的技术设备、机柜、应用标准的异构化,给云维平台的兼容性改造和计算、存储和网络资源的融合带来了挑战。各数据中心API接口规范不一,也使得数据中心之间的孤岛难以打通。
国家相关部门联合企业共同探讨针对数据中心智能化运维的参考标准,头部或主力企业积极营造技术的开源、共享、共赢的行业生态,为中小企业提供更多可复制的模式,同时大力推动智能化运维人才的培养等,是多位行业专家的共同期待。
展望未来,周海珠还提出了从智能运维转向智慧运维的概念。前者是设施和设备的智能,仅关注对“风、火、水、电”等的底层管理;而后者则将是对人、机、物的深度融合,能够实现网络带宽、计算资源、存储资源及IT资源等的动态弹性分配。“应从底到顶,构建完整的数据中心全业务支撑体系,这才是智慧运维的概念。”周海珠说。
更多内容请下载21财经APP