液冷行业专题报告:揭秘算力时代的散热革命

发表时间: 2024-11-25 08:35

(报告出品方/作者:中泰证券,陈宁玉、佘雨晴、杨雷)

算力器件功耗提升,传统风冷受限

AIGC驱动算力高增,芯片功耗大幅抬升

摩尔定律趋缓,芯片算力功耗齐升。IDC测算2022年中国智能算 力规模约260EFLOPS(FP16),2027年将增至1117EFLOPS, 2022-2027年CAGR达34%。算力高需求带动AI芯片加速迭代,性 能升级的同时功耗显著增长,2016年-2022年,CPU平均功耗从 100-130W提升至300-400W,GPU/NPU由250W提升至500W,英 伟达单颗H100的TDP(热设计功耗)最高达700W,最新发布 B200采用Blackwell架构,功耗达1000W,由2个B200 GPU和1个 Grace CPU组成的GB200解决方案功耗高达2700W,散热路线由风 冷转向液冷。TDP 350W通常被认为是风冷和液冷的分水岭,预计 未来3年内大多数最新一代处理器TDP将超过400W,超过风冷散 热能力范围。

国产AI芯片快速发展,提高散热能力要求。国产AI芯片整体处于起步阶段,华为寒武纪海光信息等持续升级芯片性能,完善生态 建设,缩小与国际领先厂商差距,海外供应链不确定性增强背景下,国产算力替代有望加快,华为910B性能可对标英伟达A100。对比 英伟达B200和A100,分别采用4nm和7nm制程,B200算力(FP16)约为A100的7倍,功耗仅为其2.5倍,因此我们认为受制工艺制程与 良率,国内AI芯片能效比或低于海外领先厂商,后续随着芯片算力持续提升,散热需求有望显著增长。

单机柜功率密度增加,数据中心电力消耗加大

AI电力需求高增,推理或为主要来源。随着多模态大模型演进,AI应用场景有望持续拓宽。荷兰数据科学家Alex de Vries研究显示 ChatGPT每天需消耗564MWh电力用于响应1.95亿次请求,GPT-3整个训练阶段耗电量预估为1287MWh,相当于ChatGPT目前4天的消耗 量。谷歌数据同样显示2019-2021年AI相关能源消耗中60%来自推理部分。根据施耐德电气报告,预计AI电力需求2023年为4.5GW,到 2028年将增长至14-18.7GW,5年CAGR达25%-33%,是数据中心总电力需求10%复合增速的2-3倍,AI电力消耗占总消耗比重由8%提升 至15%-20%,其中推理消耗占AI比重由80%提高至85%。

数据中心单机柜功率增加。数据量爆发式增长需要海量服务器 支撑,受限于土地面积和环保政策规定,增加单机柜功率密度 成为调和高增的算力需求与有限的数据中心承载能力的关键解 决方案。Colocation America数据显示2020年全球数据中心单机 柜平均功率约16.5kW,较2008年增长175%,预计2025年进一步 达到25kw。根据CDCC,国内2022年8kw以上机柜占比达到25%, 同比提高14pct。单柜功率超过15kw时风冷方式散热经济性将明 显下降,GPU约占AI集群功耗一半,AI集群单柜功率可达50kw 以上,传统风冷方案制冷技术难度和成本增加。

PUE指标要求趋严,制冷系统升级需求迫切

数据中心成新耗能大户,实际PUE与政策要求仍有差距。2022年全国数据中心耗电量2700亿千瓦时,占社会用电量的约3%,预计到 2025年比重提升至5%。北京上海广东等算力热点地区此前出台数据中心建设及升级改造要求,其中北京要求新建数据中心PUE准 入值达到1.2,上海规定新建数据中心PUE不高于1.25,既有数据中心实施改造后,力争PUE不高于1.4。2024年7月,国家发改委等部门 印发《数据中心绿色低碳发展专项行动计划》,要求到2025年底,新建及改扩建大型和超大型数据中心PUE降至1.25以内,国家枢纽节 点数据中心项目PUE不得高于1.2。截至2023年底全国在用算力中心平均PUE约1.48,较政策要求仍有较大差距,Uptime Institute数据显 示近年来全球数据中心PUE下降趋势逐步平缓,迫切需要更加高效节能的技术及设备以提高能源利用效率

液冷需求放量在即,浸没式或为长期方向

液冷在散热、TCO等方面更具优势

风冷占据主导,液冷加快普及。 数据中心散热技术目前可分为风 冷、水冷(冷冻水、蒸发冷却 等)、液冷及利用自然冷源等, 风冷占比约80%-90%。传统风冷 最高可冷却30kw/r的机柜,对于 30kw/r以上功率密度的机柜难以 做到产热与移热速率匹配,且对 应PUE范围通常为1.4-1.6,高于 当前PUE目标,技术仍需优化。

间接/直接蒸发技术通过缩短制冷 链路,减少过程能量损耗实现数 据中心PUE降至1.15-1.35,液冷 则利用液体的高导热、高传热特 性,进一步缩短传热路径的同时 充分利用自然冷源,能够实现 PUE低于1.25的节能效果。AI算 力带来的数据中心能耗不断抬升 与PUE要求趋严,以及算力器件 功耗持续增长对传统风冷带来挑 战共同倒逼产业对液冷需求升级。

液冷在散热、TCO等方面更具优势

液冷技术优势:低能耗、高散热、低噪声、低TCO 。低噪声:液冷利用泵驱动冷却介质在系统内循环流动散热, 解决全部发热器件或关键高功率器件散热问题;能够降低冷 却风机转速或者采用无风机设计,从而具备极佳的降噪效果。 低TCO:根据施耐德电气测算,对于10kw功率密度,风冷和 液冷数据中心投资成本大致相同,功率密度提升2倍可使初投 资降低10%,提升4倍可节省14%的投资成本,成本节约主要 来自IT系统的压缩,实现高密度紧凑部署。运维支出中,受 益PUE降低,液冷数据中心每年可节省大量电费。参考奕信 通科技测算结果,液冷方案TCO(建设成本CAPEX+运营支 出OPEX)整体优于风冷。

液冷技术:冷板式

液冷主要包括冷板式、浸没式、喷淋式等方案。 根据冷却液与发热源接触方式,可将液冷进一步 划分为接触式及非接触式两种,接触式通过冷却 液与发热器件直接接触将热量循环带走,包括浸 没式和喷淋式液冷等具体方案,非接触式包括冷 板式(单相/两相)等方案。冷板式目前成熟度相 对最高,浸没和喷淋式节能效果更优。

冷板式液冷:将液冷板(通常为铜铝等导热金属 构成的封闭腔体)贴近服务器发热器件 (CPU/GPU/内存等),从而将发热器件的热量间 接传递给封闭在循环管路的冷却液体,进而将热 量带走。冷板式液冷系统主要由冷却塔、CDU、 一次侧&二次侧液冷管路、冷却介质、液冷机柜组 成,其中液冷机柜包括液冷板、设备内液冷管路、 流体连接器、分液器等。一次侧通过冷却液体与 发热部件的热量相互交换以降低冷却液温度,二 次侧完成发热部件与冷却液体热量的交换,液体 升温带走部件热量。

冷板式液冷方案相较传统风冷行间空调方案,减 少了后者主要能耗部件压缩机及室内侧风机数量, 有效降低能耗,优势在于可保持传统机柜方式部 署,对当前机房配套和服务器改造难度和成本较 小,主要局限在于其只对服务器中的高发热元件 采用液冷散热,仍需少量风扇对服务器中的非液 冷元件进行风冷散热,此外需考虑液体泄漏风险。

液冷技术:喷淋式

喷淋式液冷:面向芯片级器件精准喷淋,通过重力或系统压力直接将冷却液喷洒至发热器件或与之连接的导热元件上的液冷形式,冷却 液多采用矿物油、氟化液等不导电、非腐蚀性液体。喷淋式液冷系统主要由冷却塔、CDU、一次侧&二次侧液冷管路、冷却介质和喷淋 式液冷机柜组成;其中喷淋式液冷机柜通常包含管路系统、布液系统、喷淋模块、回液系统等。 喷淋式液冷结构颠覆性由于浸没式,但节能效果相对较差,同样在器件选型、维护等方面存在局限性。

国内外厂商加快布局,产业化进程加速

海外厂商先行,国内液冷产业链初步形成

液冷产业链较长,参与厂商多。液冷数据中心行业上游包括冷却液、CDU、manifold、电磁阀、TANK等零部件,中游为液冷服务器及 基础设施,下游面向泛互联网、电信、泛政府、金融等液冷数据中心用户。其中服务器厂商依托IT核心部件,掌握产业链核心价值控 制点,同时基于服务器产品提供综合性解决方案及服务;由于液冷基础设施涉及零部件较多且市场标准不一,用户更倾向于委托总包 方进行采购部署;液冷数据中心集成方包括数据中心集成商及具有综合建设能力的第三方IDC服务商。

海外AI巨头加快推动液冷创新方案

参与数据中心冷板式液冷市场的主要 欧美温控厂商包括:CoolIT Systems、 Asetek、Motivair、Chilldyne、jetCool 等,其中CoolIT是HPE、戴尔联想、 STULZ等主要服务器/HPC品牌的冷板 式液冷核心合作伙伴,Motivair为英特 尔、AMD等高性能芯片开发定制动态 冷板,并提供CDU、机架内CDU、 HDU散热器、HDU机架内散热单元等 数据中心IT冷却产品组合。

近年来微软、谷歌、Meta等公司及AI 发展带动浸没式液冷加快渗透,主要 为单相浸没,参与的主要欧美温控厂 商包括:GRC、LiquidStack、Midas、 Asperitas、Vertiv等。GRC为数据中心 单相浸没式液冷领先者,其创新的液 冷服务器机架已经通过戴尔、英特尔 和Vertiv等IT巨头审查,机架密度高达 184kw。LiquidStack两相浸没式液冷 行业领先,是3M技嘉、纬颖等业内 知名厂商合作伙伴。Vertiv于2016年成 立,为艾默生网络能源更名独立而来, 客户群包括英伟达、英特尔、微软、 Meta、阿里巴巴、AT&T、Equinix等, 覆盖政府、电信、金融、IT、交通、 能源等行业领域。

GB200 NVL72优先使用液冷

GB200 NVL72采用直接芯片冷却技术(DLC)管理机架 120kw需求,两项关键创新,1)增强型盲配液冷汇流排设 计,提供高效冷却效果;2)新颖的浮动盲配托盘连接方式, 有效将冷却液分配到计算和交换机托盘,显著提高液体快 速插拔接头在机架中对齐和可靠插接的能力。 与Vertiv联合推出GB200 NVL72参考架构,数据中心可以在 全球范围内部署7MW GB200 NVL72集群,实施时间缩短多 达50%,减少电源空间占用,提高冷却能效。 超过40家数据中心基础设施提供商基于英伟达Blackwell平 台进行构建创新,包括英维克工业富联立讯精密、麦 格米特4家中国大陆厂商。

Vertiv:英伟达制冷合作厂商,增强液冷产品组合受益AI发展

收购CoolTera,增强液冷产品组合。23年12 月Vertiv宣布子公司达成正式协议,将收购数 据中心液冷技术基础设施提供商CoolTera Ltd. 全部股份和相关资产,包括CoolTera关联公 司的相关合同、专利、商标和知识产权。 CoolTera成立于2016年,总部位于英国,具 备冷量分配单元(CDU)、二次侧管路 (SFN)和Manifold的专业原厂研发设计制造 能力。双方在液冷技术领域已有3年合作历史, 共同部署全球多个数据中心和超算系统,收 购有望为Vertiv带来高热密度液冷场景前沿技 术、先进的控制功能和系统、专业的生产制 造和测试能力,进一步增强Vertiv热管理产品 体系,同时通过CoolTera液冷生态系统的关 键伙伴关系,进一步扩大自身行业影响力。

液冷技术布局全面,深度合作行业伙伴。 Vertiv液冷方案覆盖一次侧(室外)和二次侧 (室内),从芯片/服务器到室外电网全链条 覆盖,与英伟达、英特尔等行业伙伴合作打 造创新液冷系统。高热密度液冷产品包括 Liebert XD、Liebert VIC等,其中Liebert VIC 浸没式液冷方案包括液冷机柜、分配单元、 冷却液及连接管路,可适用单柜热密度大于 20kW场景,实现机组pPUE小于1.04。

重点公司分析

英维克:精密温控节能设备龙头,全链条液冷方案提供商

产品矩阵全面,客户资源优质。公司目前拥有机房温控节能、机柜温控节能、客车空调、轨道交通列车空调及服务四大产品线,覆盖数 据中心、通信基站、智能电网、储能电站新能源车等行业。公司构建了覆盖全国及全球重点区域的市场和售后服务网络为客户提供及 时高效服务,已为腾讯、阿里巴巴、秦淮数据、万国数据、数据港、中国移动、中国电信中国联通等大型数据中心业主、IDC运营商 及互联网公司的数据中心提供机房温控节能产品与服务,机柜温控节能产品直接销售并服务于华为、中兴、烽火、锐科、迈瑞、阳光电 源等各行业国内外知名设备制造商。

积极布局先进技术,端到端液冷方案量产。公司对冷板、浸没等液冷技术平台长期投入,Coolinside全链条解决方案包括冷板液冷、单相 浸没液冷、相变浸没液冷等多种方案,集成先进技术和智能控制算法,覆盖冷板、管路、快速接头、漏液检测、CDU等多种自主产品, 为客户提供全生命周期服务,2021年规模化商用,截至23年底累计实现900MW液冷项目交付。此外,公司在传统风冷方案基础上,重新 设计气流组织模式,推出XStorm风墙解决方案,温度控制精度更高,整体能效提升15%以上,充分满足中高热大型IDC建设需要。公司 进一步推出组合式风液融合方案,包括冷板液冷+冷冻水列间、冷板液冷+风墙、冷板液冷+风冷列间、冷板液冷+高效蒸发冷多联等。

高澜股份:聚焦全场景热管理,持续拓展数据中心液冷

电力电子装置用纯水冷却设备专业供应商。高澜股份成立于2001年,是国内最早聚焦热管理技术创新和产业化应用的企业之一,聚焦电 力电子、新能源汽车、信息与通信、储能、特种行业及综合能源能效等多场景热管理,产品包括直流输电换流阀纯水冷却设备、新能源 发电变流器纯水冷却设备、柔性交流输配电晶闸管阀纯水冷却设备、大功率电气传动变频器纯水冷却设备、数据中心液冷产品、储能液 冷产品等。为国家电网南方电网许继电气特变电工阳光电源ABB西门子GE宁德时代等各行业领先厂商,以及一线互 联网企业、关键服务器设备厂等国内外知名企业提供配套产品、技术及服务,产品已在全球六大洲、30多个国家或地区稳定运行。

前瞻布局数据中心液冷,开启批量供货。公司在数据中心液冷领域具备深厚技术积累,关键产品涵盖服务器液冷板、流体连接部件、多 种型号和不同换热形式的 CDU、多尺寸和不同功率的 TANK、换热单元。围绕上述产品,公司形成了冷板液冷数据中心热管理和浸没 液冷数据中心热管理的解决方案,具备从散热架构设计、设备集成到系统调试与运维的一站式综合解决方案的能力,可将 PUE 值控制 在 1.1以内,目前相关产品逐步进入批量供货阶段。

报告节选:

(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

精选报告来源:【未来智库】。