液冷服务器:下一代数据中心解决方案

发表时间: 2024-06-06 10:41

电子发烧友网报道(文/周凯扬)随着这几年数据中心算力持续飙升,风冷已经快要cover不住芯片的热功率之际,以液体作为冷却媒介的液冷方案很快就被推到台前。在不同国家对于PUE指标的要求越来越严格的情境下,要想借助GPU密集的计算集群打造智算网络,是肯定不能在散热上马虎的。为此,自19年起组建开展商业化应用的液冷服务器,开始慢慢抢占更多的市场份额。

液冷的必要性

随着英伟达B200 GPU的推出,8路B200的DGX B200接近15kW的最高功耗,已经让不少服务器厂商都已经感受到了全面走向液冷势在必行,尤其是在对比之下,如今的液冷方案已经提供了更多的技术优势。

比如在相同标准的机柜下,相比风冷服务器,液冷服务器可以提供更高的服务器计算密度,从而可以将更多的空间分配给计算资源。其次过热的CPU、GPU和其他加速器抵达热瓶颈后,会显著降低服务器性能。尽管风冷同样可以解决散热问题,但在散热效率和极限效果上,相较液冷还是有一定的差距,所以液冷方案更容易提高服务器的整体性能,并潜在降低失效率。

再者就是在噪声上的优势了,无论是哪一种液冷方案,在噪声控制上都要比风冷方案安静,因为服务器风扇都运行在极低的速度下。不仅如此,比起风冷散热,液冷散热更容易保证均衡的散热表现,从而消灭任何热点的存在。尽管风冷和液冷都有节省能耗的作用,但液冷方案由于液体更高的比热容和密度,更容易实现较低的PUE值,比如传统的风冷数据中心PUE为1.5到1.8,而液冷方案可以做到1.1以下,符合更低的碳足迹要求。

在技术路线上,液冷服务器主要分为浸没式液冷服务器、喷淋式液冷服务器和冷板式液冷服务器,不同的服务器和数据中心往往会根据基础设施的设计,采取不同的液冷方案,比如阿里主要采用浸没式,中科曙光、浪潮和华为等厂商主要采用冷板式液冷方案。目前的主流方案还是以浸没式和冷板式为主,喷淋式在国内外投入实践应用的都比较少。

浸没式液冷

浸没式液冷是一种将服务器组件整个浸入液体中的液冷方式,在浸没式液冷系统中,服务器组件会被放入专有非导电液体中,随后加热的液体再从组件中循环出来。

阿里云单相浸没式液冷 / 阿里巴巴

浸没式冷却又分为单相和双相两种,单相浸没式冷却是指冷却液保持液体状态不蒸发,在捕捉了浸入组件的热量后,液体仍需要通过冷却塔、冷却器或者现有的冷水机组进行冷却。而双相浸没式液冷所用的冷却液在较低温度下会蒸发,所以需要用冷凝管将蒸发的冷却液蒸汽冷凝回液态,而这些冷凝管通常位于机架的顶部。

以服务器液冷方案厂商Asperitas为例,他们采用了壳牌的浸没式冷却液S5X,这是一种碳氢化合物单相流体,具有极高的冷却效率和流动特性。这种单相流体本身不会蒸发,所以不需要加满,也不需要更换液体,只需要定期对冷却液的性能进行测试即可。

考虑到这类冷却液不少都是液体化合物,不少厂商也在担心其是否会带来一定的火灾隐患。然而,对于大部分浸没式液冷厂商采用的冷却液,在保证其高绝缘性、高流动性和高散热效率的同时,也会保证这类材料的高燃点,所以无需担心点燃的情况。

冷板式液冷

冷板式液冷则是采用液体作为传热介质,在冷板内部通道流动,从而实现热传递的非接触式液体冷却技术。这种方式对于整个服务器芯片等各个组件所需要的改动量较小,可操作性更强,所以也是目前更为成熟的液冷散热方案,在整个液冷服务器中的占比高达80%以上。

尽管在改善能效上,液冷技术提供了足够的优势,在各项方案成熟后也势必会得到大量普及。但基于水的冷却方案依然会消耗不少的水资源,尤其是对于一些水资源紧缺的环境而言。因此,如何控制好液冷方案的水循环就成了最大的挑战。

ZutaCore提供了一种闭环的无水液冷解决方案Hypercool,采用了高效的双相沸腾和冷凝工艺,将大量热量从处理器和服务器中转移走。这是一种直连芯片的冷却方案,也是目前芯片冷却方案中最高效的一种,将冷却剂直接施加到芯片上提取和分散热量。但ZutaCore的这套方案中并没有用到水,所以不用担心设备腐蚀之类的威胁。

无水冷板式液冷 / ZutaCore

据ZutaCore声称,这套液冷方案可以支持1500W以上功耗的处理器,且该方案具有可扩展性。在经过该方案改造后的数据中心中,可以支持100kW以上算力集群的冷却,而且这种热量再利用的设计,可以在任何气候条件下都能达到最低的PUE和最高的能效表现。

在近期戴尔举办的科技全球大会上,ZutaCore展示了基于这一方案打造的绝缘冷板,不仅可以直接适用于英伟达最新的GB200,也可以提供最高120kW的机架冷却功率。据了解,ZutaCore已经和戴尔、华硕、和硕和SuperMicro等行业巨头达成合作,并获得了相关服务器的认证。UNICOM Engineering将成为首个用到HyperCool方案的用户,他们将会把该液冷方案部署在戴尔的XE9680服务器上。

未来的液冷市场期望

从当下的趋势来看,冷板式液冷和单相浸没式液冷还是绝大多数数据中心会选择的方案,决心下血本改造或新建的数据中心,有一定可能会选择单相浸没式液冷。而追求尽可能最小改动就能实现降低能效的数据中心,则会选择更为成熟的冷板式液冷。在液冷服务器越来越普及的当下,受益的不仅是浪潮、戴尔、华为、中科曙光等厂商,上游的接头、CDU和冷却液厂商也将迎来新一波的营收增长。