NVIDIA H100 AI服务器性能大解析

发表时间: 2024-08-23 14:11

Supermicro的液冷服务器(SYS-821GE-TNHR),服务器配备了8个NVIDIA H100 GPU,采用了先进的液体冷却技术,能够显著降低冷却成本和功耗。



液冷Supermicro SYS-821GE-TNHR 8x NVIDIA H100 AI服务器,水平机架歧管位于顶部,而Supermicro冷却分配单元(CDU)则位于底部。


水平机架歧管支持五对不同的入口/出口,四对位于顶部托盘,一对位于CPU托盘。

这种设计使得液体冷却过程更加高效,系统的GPU托盘可轻松滑出,这在许多系统中并不常见。

考虑到24x7的HPC或AI集群环境,这一特性非常实用,因为GPU可能需要进行维护或更换。

在托盘内部,我们看到了四组双GPU液冷块和一个NVSwitch块。

所有这些组件都采用循环冷却技术,系统中共有四个循环用于GPU。

这种设计确保了所有关键组件的稳定性和可靠性。

右侧是机箱管理模块,用于 IPMI 和本地管理等功能

服务器还支持定制选项,包括使用Intel Xeon和AMD EPYC CPU托盘,以及各种NIC和其他附件的选择。在服务器的背面,看到了标准的电源、网络和风扇配置,其中风扇和电源都支持热插拔。

DP801扩展模型。有 NIC DP801、PCIe 扩展器 DP801 等

每个电源均为 3kW PSU

Supermicro SYS-821GE-TNHR液冷服务器提供了出色的性能,具备了高度的定制性。自2016/2017年以来,Supermicro一直致力于研发AI GPU训练系统,从最初的8x和10x PCIe GPU训练服务器,发展到如今非常灵活的液冷选项。