数据结构与算法

NVIDIA H100 AI服务器性能大解析

发表时间: 2024-08-23 14:11

Supermicro的液冷服务器（SYS-821GE-TNHR），服务器配备了8个NVIDIA H100 GPU，采用了先进的液体冷却技术，能够显著降低冷却成本和功耗。

液冷Supermicro SYS-821GE-TNHR 8x NVIDIA H100 AI服务器，水平机架歧管位于顶部，而Supermicro冷却分配单元（CDU）则位于底部。

水平机架歧管支持五对不同的入口/出口，四对位于顶部托盘，一对位于CPU托盘。

这种设计使得液体冷却过程更加高效，系统的GPU托盘可轻松滑出，这在许多系统中并不常见。

考虑到24x7的HPC或AI集群环境，这一特性非常实用，因为GPU可能需要进行维护或更换。

在托盘内部，我们看到了四组双GPU液冷块和一个NVSwitch块。

所有这些组件都采用循环冷却技术，系统中共有四个循环用于GPU。

这种设计确保了所有关键组件的稳定性和可靠性。

右侧是机箱管理模块，用于 IPMI 和本地管理等功能

服务器还支持定制选项，包括使用Intel Xeon和AMD EPYC CPU托盘，以及各种NIC和其他附件的选择。在服务器的背面，看到了标准的电源、网络和风扇配置，其中风扇和电源都支持热插拔。

DP801扩展模型。有 NIC DP801、PCIe 扩展器 DP801 等

每个电源均为 3kW PSU

Supermicro SYS-821GE-TNHR液冷服务器提供了出色的性能，具备了高度的定制性。自2016/2017年以来，Supermicro一直致力于研发AI GPU训练系统，从最初的8x和10x PCIe GPU训练服务器，发展到如今非常灵活的液冷选项。

热门阅读

推荐阅读