液冷技术:AI时代的新革命

发表时间: 2024-07-26 08:52

(报告出品方/作者:华西证券,刘泽晶、孟令儒奇)

液冷已经从“选配”到“必配”

算力在大模型时代迎来爆发,光模块需求高增

大模型参数呈现指数规模,引爆海量算力需求: 根据财联社和OpenAI数据,ChatGPT浪潮下算力缺口巨大,根据OpenAI数据,模型计算 量增长速度远超人工智能硬件算力增长速度,存在万倍差距。运算规模的增长,带动了对AI训练芯片单点算力提升的需求,并对数据传 输速度提出了更高的要求。根据智东西数据,过去五年,大模型发展呈现指数级别,部分大模型已达万亿级别,因此对算力需求也随之 攀升。

大模型参数量的增长,数据中心互联互通成为核心关键:在万亿级大数据的背景下,单卡/单服务器算力已经无法支撑庞大模型的训练, 而芯片与芯片之间的互联成为重中之重,集群的效应显得尤为关键,因此在AI的大背景下,由于叶脊网络架构中的服务器交换流量较大, 因此服务器与交换机互联的统一互联互通的数据中心均使用光模块,而光模块传输速度越高,证明其互联互通的效率也就越高,因此在 整体算力芯片架构升级的大背景下,传输速率较高的光模块成为当下的首选。

液冷已经从“选配”到“必配”,液冷拐点已经到来

为什么说液冷是AI的下一个光模块:电子产品升级迭代规律使然,从上文证实的光模块成长路径,AI高速互联时代,高算力与高效传输 架构相匹配。从40G取代10G,100G取代40G,400G取代100G,800G取代400G,1.6T有望取代800G,升级之路永不停息,全部体 验到从“奢侈”、“尝鲜”到“普及”、“刚需”的过程。同样,散热领域也是相同,相关技术也在提升,先是自然风冷、空调风扇、 散热片,继而是液冷。液冷也有喷淋式、冷板式和浸没式等等。

为什么说液冷已经从“选配”到“必配” :

芯片:环境温度对芯片的影响不容忽视,高温环境下,芯片内部的电子元件会因为长时间工作而受到损耗,从而缩短芯片的使用寿命。 温度升高会引起电容、电阻以及金属线等材料的热膨胀,进而导致它们的机械变形和结构破坏,最终影响芯片的正常运行。根据与非往 消息,而单从芯片来看,风冷的极限芯片散热功率是800W,英伟达部分产品已经突破风冷能力上线。

数据中心:根据与非往消息,自然风冷的数据中心,单机柜密度一般只支持 8-10kW,在机柜功率超过 10kW 后性价比大幅下降。而 根据与非网数据,2025年AI集群算力单机柜密度将有望到20-50kW,也远远超出了风冷的上限。

液冷政策为液冷市场扎入“强心剂”

PUE值(电能利用效率)是衡量数据中心绿色程度的关键指标。PUE(Power Usage Effectiveness),即电能利用效率。PUE是数据中心 消耗的所有能源与IT负载消耗的能源的比值。PUE的值越高,数据中心的整体效率越低。当该值超过1时,表示数据中心需要额外电力开销以 支持IT负载。PUE值越接近于1,说明数据中心的电大部分被服务器、网络设备、存储设备消耗,该数据中心的绿色化程度越高。在数据中心 中,制冷系统能耗占数据中心总体能耗较高。根据中国通信学会通信电源委员会数据,在典型的数据中心能耗构成中,比重最大部分为IT设 备,占比50%,其次为制冷系统设备,占比35%,最后为供配电系统设备以及其他消耗电能的数据化中心设施。在制冷系统中,主要包括空 调设备、提供冷源设备以及新风系统,具体能耗构成如下表所示。

与传统风冷相比,液冷技术PUE值普遍更低。根据CSDN数据,传统风冷的PUE值大概为1.3,而采用液冷技术,PUE值会显著降低。其中, 采用传统冷板技术的PUE值大概为1.2,浸没液冷的PUE值在1.05-1.07之间。

深度绑定英伟达,维谛技术( Vertiv )迈向成长

维谛技术收购CoolTera,强强联合加大强液冷布局:2023年12月11日,根据今日热点网消息,维谛技术子公司将收购购数据中心液冷 技术基础设施提供商CoolTera全部股份和相关资产。CoolTera成立于2016年,是一家总部位于英国的数据中心液冷基础设施解决方案 厂家,具备冷量分配单元、二次侧管路和Manifold的专业原厂研发设计制造能力。此前,Vertiv与CoolTera在液冷技术领域已密切合 作三年,共同部署了全球多个数据中心和超算系统。我们判断,本次收购进一步增强了Vertiv的热管理能力和行业影响力。

深度拆解液冷的核心价值链

液冷的概念及分类及比较

液冷:一种确保计算机在安全的温度下运行的冷却方法。液冷技术通过利用流动液体的高比热容来吸收并迁移计算机内部元件产生的热量到 外部,这种方法的优点在于利用液体传热,相较于空气,液体的高比热容能更高效地传递热量,从而降低能量消耗。

液冷技术根据接触方式不同,分为直接液冷技术和间接液冷技术。间接液冷技术中,冷却液体与发热器件不直接接触,主要包括冷板式。直 接液冷技术中,冷却液体与发热器件直接接触,主要包括浸没式和喷淋式液冷,其中浸没式根据冷却介质是否发生相变又可分为单相浸没式 和相变浸没式。

与传统风冷技术相比,液冷技术节能效果显著提高。根据《绿色高能效数据中心散热冷却技术研究现状及发展趋势》数据显示,风冷散热下 数 据中心的 PUE 值通常在 1.5 左右;根据开放数据中心委员会ODCC数据,冷板式液冷PUE值为1.1-1.2,相变浸没式液冷PUE值小于1.05, 单相浸没式液冷PUE值小于1.09,喷淋式液冷PUE值小于1.1。

液冷市场空间测算: 千亿市场蓄势待发

市场拆分: 根据我们的判断,液冷或风冷的市场规模根据IDC的建设情况来判断,而整个IDC市场基本可以分为云计算、超算、智算市场, 而根据云计算、超算、智算市场下游又可以分成CPU服务器及通用服务器和AI服务器,其中智算中心的AI服务器为液冷的直接增量因素。

渗透率:根据财联社与浪潮信息数据,我国的液冷发展是逐步迭代的过程,2023年渗透率在5%左右,到2025年则有望超20%。

价格/KW:根据知乎的数据,以单kw计价,风冷在6000元左右,冷板在10000元,浸没式液冷在12000元。

AI服务器的液冷测算:根据中商研究院数据,2023年AI服务器出货量为35.4万台,我们假设2024年AI服务器增速为120%,2025年行 业增速增速为80%,其中2023年、2024年、2025年服务器型号分别为DGX A100、DGX H100、DGXB200(不考虑美国禁令因素), 根据英伟达数据,其单个服务器功耗分别为6.5 KW、10.2KW、14.3KW,我们假设平均功耗为巅峰功率的80%,2023年液冷渗透率为 10%,2024年液冷渗透率为30%,2025年液冷渗透率由于芯片工艺原因渗透率为100%。2023-2025冷板式液冷占比分别为95%、 90%、80%其余全为浸没式液冷。

液冷产业生态拆分——二次侧: 冷板式

机柜工艺冷媒供回歧管RCM:安装于液冷机柜内部,功能为分液、集液和排气等,一般由排气阀、分支管路和主管路等组成。分支管路的软 管端部安装有QDC,实现与服务器内冷板组件的连接。主管路接口位于上端或下端,是工艺冷媒供回液冷机柜的接口,与LCM通过软管连接。 冷量分配单元CDU:CDU的作用是将进入服务器冷板组件的工艺冷媒与冷源侧的冷却水进行隔离,并将冷却后的工艺冷媒分配给不同服务器 的冷板的冷却设备。根据布置方式不同,分为机架式CDU和柜式CDU。其比较具体见2.1.1。 环路工艺冷媒供回歧管LCM:LCM一般安装于数据中心地板底部,有时也会安装于机柜顶部,具备分液、集液和排气等功能。LCM一般由排 气阀、分支管路、主管路、阀件等组成。LCM将从CDU冷却的工艺冷媒,通过分支软管输送到RCM处。 工艺冷媒:主要选择纯水液和配方液。纯水液主要为去离子水,配方液主要为乙二醇或丙二醇溶液。

梳理液冷产业链的受益公司

液冷受益产业链——服务器内侧端

我们将液冷产业链的受益公司简单拆解为三类,分别是服务器内侧端、液冷建设端、液冷基础设施提供商。 服务器内侧端: 我们将服务器内侧端的定义为服务器内部的组件,直接受益于高算力、高功率的AI芯片放量,此类公司的代表性产品冷板组 件、快速接头QDC等产品,采购方为华为或华为服务器厂商、英伟达或英伟达服务器厂商。

液冷受益产业链——液冷建设端:全链条式解决方案厂商

液冷建设端,由于建设主体的不同,我们将液冷建设端分为液冷全链条式解决方案厂商、服务器厂商以及IDC厂商。 液冷建设端全链条式解决方案厂商:我们将此类厂商定义成可提供液冷全栈式的解决方案,而此类解决方案厂商由于无法提供服务器,因此 相关产品得与服务器(芯片)厂商进行适配比如华为、英伟达,才能发挥其液冷解决方案的意义,例如维谛技术。

液冷受益产业链——液冷建设端:IDC建设

液冷建设端服务器厂商:我们对于此类厂商的定义为其主业为IDC厂商,由于是数据中心的直接建设方,我们判断其会根据IDC的需求方例 如互联网厂商来建设相关的液冷解决方案,亦或者是进行液冷机房的改造。

液冷受益产业链——液冷基础设施提供商

液冷基础设施提供商: 我们将液冷基础设施提供商定义成可提供相关液冷单独产品,例如CDU、LCM、RCM等产品,产品的需求方可能液冷 建设方或是IDC数据中心。随着液冷的升级换代,其相关产品有望量价齐升。

报告节选:

(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

精选报告来源:【未来智库】。未来智库 - 官方网站