智能计算中心:系统工程的前线挑战

发表时间: 2024-04-29 19:36

构筑AI时代的数字底座。

数字时代下,智算中心将会给行业带来哪些影响?如何充分发挥智算中心的技术优势,构筑数字经济算网新底座,助力产业数字化发展?

“我们相信不仅仅是算网融合,而是算网电能源融合才能构建可持续发展的数字经济底座,国家算力一体化顶层设计才是破解进入智能社会的开门钥匙。”鹏博士集团副总工程师、鹏博士研究院负责人侯兴泽在接受《通信产业报》全媒体记者采访时表示,不能只着眼于算力中心单一环节,必须是系统工程,整体推进。

在侯兴泽看来,智算中心是基于最新人工智能理论,采用领先的人工智能计算架构,专门为人工智能应用提供所需的算力服务、数据服务和算法服务的新型基础设施。它旨在支撑数据开放共享、智能生态建设、产业创新聚集,促进AI产业化、产业AI化及政府治理智能化。

此外,液冷技术在智算中心中的应用更为普遍,以支持高功率密度的设备并有效管理散热问题。智算中心往往需要部署大量的高性能计算设备,如GPU、TPU和FPGA等,这些设备通常具有较高的功耗。因此,智算中心的单机柜功率密度通常会高于传统数据中心。根据调研,智算中心的单机柜功率密度需要超过30kW,甚至达到100kW以上,而传统数据中心的单机柜功率密度一般在6kW~15kW之间。

侯兴泽认为,智算中心是个复杂的系统工程,从各方面来看都处在积极演进过程中,随着主流厂商系统架构的快速演进迭代升级,不同建设时期的算力中心有很大不同。已经投产运营的第一代算力中心单机电源功率在6.5kw左右,单机可提供5P算力,普遍采用风冷散热模式。到第二代算力中心单机电源功率提升至10.5kw,单机可以提供15P算力,开始出现气液混合制冷散热模式。到第三段算力中心单机电源功率可达24kw,单机可提供225P算力,普遍采用板式液冷散热模式。

可以预见,未来采用浸没液冷的算力中心单机柜功率密度达到60kw~240kw,单机算力超过1440P指日可待。第一第二代智算中心普遍进入运营期,第三代智算中心基本在建设阶段,更新的智算中心还处于设计预研过程中。

目前,智能算力需求的快速增长让智算中心的建设也进入了高速发展时期,各地也开始逐步出台关于整体建设的指引以及相关指标,这主要还是为了引导智算中心向着“重质量”“绿色”的方向健康发展。

侯兴泽指出,智算中心作为人工智能技术研发与应用的重要基础设施,其发展面临多方面的挑战和难点。

第一,算力融合问题。智算中心需要提供通用算力和专用算力,以满足自动驾驶、智慧医疗、智慧城市等不同场景的多元算力需求。单一化的算力方案难以兼顾多产业和多领域的特定需求。

第二,软硬件协同不足。在智算中心的建设过程中,不同芯片平台、算法模型、数据库和应用层面之间存在垂直一体化的“孤岛”状态,软硬件兼容性问题亟待改进。

第三,投资建设运营联动问题。智算中心的投资、建设和运营往往由不同主体负责,可能导致建设和运营割裂,影响客户体验和服务质量。

第四,能耗和碳排放问题。智算中心的设备能耗和碳排放较高,AI模型训练耗电量巨大,这对环境和成本控制构成挑战。

第五,成本和价格规范问题。智算中心的建设和运营成本较高,部分智算中心的投资成本和使用成本超出正常市场价格,需要进一步规范和优化。

第六,应用场景丰富性和运营模式成熟度。智算中心在发展过程中需要更丰富的应用场景和成熟的运营模式,以实现其在各行各业的有效应用和商业化运作。

第七,开放性问题。智算中心需要解决开放性问题,以适应AI应用数量的增加和迭代速度的加快,确保能够服务于更广泛的领域和需求。

第八,技术瓶颈与优化方向。随着生成式AI和大模型的兴起,智算中心需要不断突破技术瓶颈,优化算力供给和算法支持,以满足日益增长的算力需求。

第九,安全可信问题。智算中心的建设需要充分考虑信息安全和产业安全,构建基于自主技术体系的安全可信环境。

第十,智算中心的网络设计必须考虑到AI和大数据应用的特殊需求,提供高性能、低时延、大带宽、高稳定性、易扩展、易于管理和维护的网络环境。智算中心在节点硬件、能源供应、制冷散热、网络互联、开发环境、平台功能、持续运营方面都有更高要求,传统数据中心难以满足,因此需要定制化设计建设。

采写:胡媛

图表:曙念

编辑、校对:胡媛

指导:辛文


一线谈:智算中心的挑战与应对

智算中心产业图谱:典型企业及竞争力一览
智算中心:"引燃"算力新基建(附产业图谱)

政府工作报告首提“全国一体化算力体系”:为什么?如何建?
东数西算”两年:全国一体化算力网呼之欲出

专家解读:如何构建全国一体化算力体系?

专家解读:加快构建全国一体化算力网络