揭秘特斯拉自研网络协议:性能碾压英伟达的秘密

发表时间: 2024-08-30 12:29

特斯拉发布了自研网络协议

这次是自家的 AI超算Dojo ,在Hot Chips会议上一亮相,就把英伟达的NVLink给踩了。

据投资人Phil Trubey透露,特斯拉正在开发 Dojo V2 ,甚至已经有了V3的计划。看来马斯克是要把AI超算玩出花来啊!

但最让人咋舌的是,特斯拉为了应对视频数据的巨大带宽需求, 自己撸了个网络协议 ——Tesla Transport Protocol over Ethernet (TTPoE)。

这协议一出手就不得了,直接把英伟达的NVLink给比下去了:
  • TCP/IP:0.53毫秒
  • NVLink:0.0023毫秒
  • TTPoE:0.0013毫秒

快了近一倍!

英伟达的工程师们怕是要加班改进NVLink了。

不过,有意思的是,特斯拉自己却还在用10万块英伟达H100。这是咋回事?Phil给出了自己的猜测:

虽然特斯拉的芯片间集成可能比英伟达强,但英伟达的单芯片性能可能还是更胜一筹。

芯片还是硬实力啊!

不过Phil也表示,考虑到英伟达的高价格,特斯拉迟早会转向自家的Dojo。

Google DeepMind的AI专家Tim Zaman也发表了看法:

说LLM的训练单元是一个token,就像说视频模型是按像素训练的一样。关键在于如何处理视频数据的解压缩,最好是尽可能靠近训练硬件。

这也提醒我们, 不能简单地比较LLM和视频模型的数据量 。视频数据虽然大,但冗余也多,压缩后的实际信息量可能并没有想象中那么夸张。

你觉得特斯拉的Dojo能否在未来取代英伟达的地位?

特斯拉网络协议介绍

特斯拉 DOJO Exa-Scale 有损 AI 网络:基于以太网的特斯拉传输协议 (TTPoE)

图1: 特斯拉 Dojo 训练模块布线及安装

在 2024 年 Hot Chips 大会上,我们了解到了 TTPoE,即基于以太网的特斯拉传输协议。这主要涉及 TTP 的 V1 版本,这也是可以在 Hot Chips 上分享的内容。特斯拉决定为其 AI 集群开发自己的网络协议,而非使用 TCP 协议。

由于这是在斯坦福大学的 Hot Chips 大会期间实时完成的报道,可能会有一些拼写错误,请见谅。

针对特斯拉的 DOJO 超级计算机,该公司不仅开发了 AI 加速器,还推出了基于以太网的传输协议,命名为特斯拉传输协议 (TTPoE)。

图2: 特斯拉 Dojo Hot Chips 2024_页面01

特斯拉认为 TCP/IP 速度太慢,而基于优先级流控 (PFC) 的无损 RDMA 影响了网络性能。

图3: 特斯拉 Dojo Hot Chips 2024_页面02

TTPoE 是一种在硬件中执行的点对点传输层协议。其优势之一是,特斯拉不需要特殊的交换机,因为它主要用于二层传输。

图4: 特斯拉 Dojo Hot Chips 2024_页面03

这是 DOJO 的 OSI 层结构。我们可以看到,特斯拉正在替换传输层。

图5: 特斯拉 Dojo Hot Chips 2024_页面04

这里展示了 TTP 在 TTP 链路上的传输示例。

图6: 特斯拉 Dojo Hot Chips 2024_页面05

这是 TCP 状态机与 TTP 状态机的对比。

图7: 特斯拉 Dojo Hot Chips 2024_页面06

这是基于 Ethernet-II 框架构建的 TTP 头帧。

图8: 特斯拉 Dojo Hot Chips 2024_页面07

与无损的 RDMA 网络不同,TTPoE 预计会丢包并重试数据包传输。这不像 UDP,更类似于 TCP。

图9: 特斯拉 Dojo Hot Chips 2024_页面08

拥塞管理由本地链路通道处理,而不是在网络或交换机级别完成。特斯拉表示 TTP 支持服务质量 (QoS),但目前已被关闭。

图10: 特斯拉 Dojo Hot Chips 2024_页面09

特斯拉将此 IP 模块嵌入 FPGA 和硅中,设计用于在电缆上高速传输数据包。

图11: 特斯拉 Dojo Hot Chips 2024_页面10

这是 TTP 的微架构。一个独特之处在于,它看起来很像三级缓存。1MB 的发送缓冲区被描述为“属于这一代”,因此在新一代中很可能已经发生了变化。HBM2HBM 布局的内存线是非常受欢迎的功能。

图12: 特斯拉 Dojo Hot Chips 2024_页面11

Dojo 的 100Gbps 网卡名为 Mojo,功耗低于 20W,配备 8GB DDR4 内存以及 Dojo DMA 引擎。我们在 Tesla Dojo Custom AI Supercomputer at HC34 [1] 中详细介绍过这个网卡。

图13: 特斯拉 Dojo Hot Chips 2024_页面12

特斯拉现在回顾了 2022 年的演讲,展示了 D1 芯片的设计。

图14: 特斯拉 Dojo Hot Chips 2024_页面13

特斯拉展示了 5×5 阵列封装在一起的 D1 芯片。

图15: 特斯拉 Dojo Hot Chips 2024_页面14

还有一个 32GB HBM Dojo 接口处理器,它的 TTPoE 接口速率为 900GB/s,TTPoE 被封装在以太网帧中。

图16: 特斯拉 Dojo Hot Chips 2024_页面15

特斯拉展示了 Dojo 的连接方式。

图17: 特斯拉 100G 网卡连接到 V1 Dojo 接口卡,再连接到 Dojo

连接从封装在一起的 D1 模块组件开始,采用 SerDes 电缆连接。

图18: 特斯拉 Dojo 训练模块布线及安装

这些电缆连接到接口卡。

图19: 特斯拉 V1 Dojo 接口处理器卡 2

然后这些接口卡连接到低成本的 100G 网卡。

图20: 特斯拉 Dojo 100G 网卡

这是桌面上展示的另一视角。

图21: 特斯拉 Dojo Hot Chips 2024_页面16

这是位于纽约的 Mojo Dojo 计算大厅 (MDCH)。我们可以看到 2U 计算节点没有任何前置 2.5 英寸存储,这非常有趣。

图22: 特斯拉 Dojo Hot Chips 2024_页面17

这是一个具有 40PB 本地存储的 4 ExaFLOP 工程系统,具有大量带宽和计算能力。拥有 4EF (BF16/FP16) 工程系统也有点疯狂。

图23: 特斯拉 Dojo Hot Chips 2024_页面18

Arista 提供了交换机。当网络扩大到更大规模时,增加的跳数会对带宽产生影响。

图24: 特斯拉 Dojo Hot Chips 2024_页面19

特斯拉正在加入 UltraEthernet Consortium (UEC) 并公开提供 TTPoE。非常酷!

图25: 特斯拉 Dojo Hot Chips 2024_页面20

图26: 特斯拉 Dojo Hot Chips 2024_页面21

图片中似乎也使用了 Arista

交换机。

图27: 特斯拉 Dojo Hot Chips 2024_页面22

这是有趣的一点。特斯拉还表示,TTPoE 在经过交换机时的单向写入延迟可以更低,这包括 NVLink。

图28: 特斯拉 Dojo Hot Chips 2024_页面23

特斯拉的结论是,他们已经进入了微秒级别的领域。

总结

这是一个非常有趣的演讲,但如果这个系统能超越 Dojo 以外的应用场景,那就更酷了。特斯拉在为一个系统打造定制网卡、定制协议等方面进行了大量工作,却没有尝试利用规模经济带来的好处。不过,看到特斯拉将其引入 UltraEthernet Consortium,确实令人兴奋。

参考资料

[1]

Tesla Dojo Custom AI Supercomputer at HC34: https://www.servethehome.com/tesla-dojo-custom-ai-supercomputer-at-hc34/


本文同步自于知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

  • 每天约监控6000 条消息,可节省约800+ 小时的阅读成本。

  • 每天挖掘出10+ 热门的/新的 github 开源 AI 项目

  • 每天转译、点评 10+ 热门 arxiv AI 前沿论文

星球非免费。 定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)

  • 一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;

  • 二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。

欢迎你的加入!