揭秘特斯拉自研网络协议：性能碾压英伟达的秘密

发表时间: 2024-08-30 12:29

特斯拉发布了自研网络协议！

这次是自家的 AI超算Dojo ，在Hot Chips会议上一亮相，就把英伟达的NVLink给踩了。

据投资人Phil Trubey透露，特斯拉正在开发 Dojo V2 ，甚至已经有了V3的计划。看来马斯克是要把AI超算玩出花来啊！

但最让人咋舌的是，特斯拉为了应对视频数据的巨大带宽需求， 自己撸了个网络协议 ——Tesla Transport Protocol over Ethernet (TTPoE)。

这协议一出手就不得了，直接把英伟达的NVLink给比下去了：

TCP/IP：0.53毫秒
NVLink：0.0023毫秒
TTPoE：0.0013毫秒

快了近一倍！

英伟达的工程师们怕是要加班改进NVLink了。

不过，有意思的是，特斯拉自己却还在用10万块英伟达H100。这是咋回事？Phil给出了自己的猜测：

虽然特斯拉的芯片间集成可能比英伟达强，但英伟达的单芯片性能可能还是更胜一筹。

芯片还是硬实力啊！

不过Phil也表示，考虑到英伟达的高价格，特斯拉迟早会转向自家的Dojo。

Google DeepMind的AI专家Tim Zaman也发表了看法：

说LLM的训练单元是一个token，就像说视频模型是按像素训练的一样。关键在于如何处理视频数据的解压缩，最好是尽可能靠近训练硬件。

这也提醒我们， 不能简单地比较LLM和视频模型的数据量 。视频数据虽然大，但冗余也多，压缩后的实际信息量可能并没有想象中那么夸张。

你觉得特斯拉的Dojo能否在未来取代英伟达的地位？

特斯拉网络协议介绍

特斯拉 DOJO Exa-Scale 有损 AI 网络：基于以太网的特斯拉传输协议 (TTPoE)

图1: 特斯拉 Dojo 训练模块布线及安装

在 2024 年 Hot Chips 大会上，我们了解到了 TTPoE，即基于以太网的特斯拉传输协议。这主要涉及 TTP 的 V1 版本，这也是可以在 Hot Chips 上分享的内容。特斯拉决定为其 AI 集群开发自己的网络协议，而非使用 TCP 协议。

由于这是在斯坦福大学的 Hot Chips 大会期间实时完成的报道，可能会有一些拼写错误，请见谅。

针对特斯拉的 DOJO 超级计算机，该公司不仅开发了 AI 加速器，还推出了基于以太网的传输协议，命名为特斯拉传输协议 (TTPoE)。

图2: 特斯拉 Dojo Hot Chips 2024_页面01

特斯拉认为 TCP/IP 速度太慢，而基于优先级流控 (PFC) 的无损 RDMA 影响了网络性能。

图3: 特斯拉 Dojo Hot Chips 2024_页面02

TTPoE 是一种在硬件中执行的点对点传输层协议。其优势之一是，特斯拉不需要特殊的交换机，因为它主要用于二层传输。

图4: 特斯拉 Dojo Hot Chips 2024_页面03

这是 DOJO 的 OSI 层结构。我们可以看到，特斯拉正在替换传输层。

图5: 特斯拉 Dojo Hot Chips 2024_页面04

这里展示了 TTP 在 TTP 链路上的传输示例。

图6: 特斯拉 Dojo Hot Chips 2024_页面05

这是 TCP 状态机与 TTP 状态机的对比。

图7: 特斯拉 Dojo Hot Chips 2024_页面06

这是基于 Ethernet-II 框架构建的 TTP 头帧。

图8: 特斯拉 Dojo Hot Chips 2024_页面07

与无损的 RDMA 网络不同，TTPoE 预计会丢包并重试数据包传输。这不像 UDP，更类似于 TCP。

图9: 特斯拉 Dojo Hot Chips 2024_页面08

拥塞管理由本地链路通道处理，而不是在网络或交换机级别完成。特斯拉表示 TTP 支持服务质量 (QoS)，但目前已被关闭。

图10: 特斯拉 Dojo Hot Chips 2024_页面09

特斯拉将此 IP 模块嵌入 FPGA 和硅中，设计用于在电缆上高速传输数据包。

图11: 特斯拉 Dojo Hot Chips 2024_页面10

这是 TTP 的微架构。一个独特之处在于，它看起来很像三级缓存。1MB 的发送缓冲区被描述为“属于这一代”，因此在新一代中很可能已经发生了变化。HBM2HBM 布局的内存线是非常受欢迎的功能。

图12: 特斯拉 Dojo Hot Chips 2024_页面11

Dojo 的 100Gbps 网卡名为 Mojo，功耗低于 20W，配备 8GB DDR4 内存以及 Dojo DMA 引擎。我们在 Tesla Dojo Custom AI Supercomputer at HC34 [1] 中详细介绍过这个网卡。

图13: 特斯拉 Dojo Hot Chips 2024_页面12

特斯拉现在回顾了 2022 年的演讲，展示了 D1 芯片的设计。

图14: 特斯拉 Dojo Hot Chips 2024_页面13

特斯拉展示了 5×5 阵列封装在一起的 D1 芯片。

图15: 特斯拉 Dojo Hot Chips 2024_页面14

还有一个 32GB HBM Dojo 接口处理器，它的 TTPoE 接口速率为 900GB/s，TTPoE 被封装在以太网帧中。

图16: 特斯拉 Dojo Hot Chips 2024_页面15

特斯拉展示了 Dojo 的连接方式。

图17: 特斯拉 100G 网卡连接到 V1 Dojo 接口卡，再连接到 Dojo

连接从封装在一起的 D1 模块组件开始，采用 SerDes 电缆连接。

图18: 特斯拉 Dojo 训练模块布线及安装

这些电缆连接到接口卡。

图19: 特斯拉 V1 Dojo 接口处理器卡 2

然后这些接口卡连接到低成本的 100G 网卡。

图20: 特斯拉 Dojo 100G 网卡

这是桌面上展示的另一视角。

图21: 特斯拉 Dojo Hot Chips 2024_页面16

这是位于纽约的 Mojo Dojo 计算大厅 (MDCH)。我们可以看到 2U 计算节点没有任何前置 2.5 英寸存储，这非常有趣。

图22: 特斯拉 Dojo Hot Chips 2024_页面17

这是一个具有 40PB 本地存储的 4 ExaFLOP 工程系统，具有大量带宽和计算能力。拥有 4EF (BF16/FP16) 工程系统也有点疯狂。

图23: 特斯拉 Dojo Hot Chips 2024_页面18

Arista 提供了交换机。当网络扩大到更大规模时，增加的跳数会对带宽产生影响。

图24: 特斯拉 Dojo Hot Chips 2024_页面19

特斯拉正在加入 UltraEthernet Consortium (UEC) 并公开提供 TTPoE。非常酷！

图25: 特斯拉 Dojo Hot Chips 2024_页面20

图26: 特斯拉 Dojo Hot Chips 2024_页面21

图片中似乎也使用了 Arista

交换机。

图27: 特斯拉 Dojo Hot Chips 2024_页面22

这是有趣的一点。特斯拉还表示，TTPoE 在经过交换机时的单向写入延迟可以更低，这包括 NVLink。

图28: 特斯拉 Dojo Hot Chips 2024_页面23

特斯拉的结论是，他们已经进入了微秒级别的领域。

总结

这是一个非常有趣的演讲，但如果这个系统能超越 Dojo 以外的应用场景，那就更酷了。特斯拉在为一个系统打造定制网卡、定制协议等方面进行了大量工作，却没有尝试利用规模经济带来的好处。不过，看到特斯拉将其引入 UltraEthernet Consortium，确实令人兴奋。

参考资料

[1]

Tesla Dojo Custom AI Supercomputer at HC34: https://www.servethehome.com/tesla-dojo-custom-ai-supercomputer-at-hc34/

本文同步自于知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容，并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

每天约监控6000 条消息，可节省约800+ 小时的阅读成本。
每天挖掘出10+ 热门的/新的 github 开源 AI 项目
每天转译、点评 10+ 热门 arxiv AI 前沿论文

星球非免费。 定价99元/年，0.27元/天。(每+100人，+20元。元老福利~）

一是运行有成本，我希望它能自我闭环，这样才能长期稳定运转；
二是对人的挑选，鱼龙混杂不是我想要的，希望找到关注和热爱 AI 的人。

欢迎你的加入！

揭秘特斯拉自研网络协议：性能碾压英伟达的秘密

特斯拉网络协议介绍

特斯拉 DOJO Exa-Scale 有损 AI 网络：基于以太网的特斯拉传输协议 (TTPoE)

总结

本文同步自于知识星球《AGI Hunt》

热门阅读

推荐阅读