这次是自家的 AI超算Dojo ,在Hot Chips会议上一亮相,就把英伟达的NVLink给踩了。
据投资人Phil Trubey透露,特斯拉正在开发 Dojo V2 ,甚至已经有了V3的计划。看来马斯克是要把AI超算玩出花来啊!
但最让人咋舌的是,特斯拉为了应对视频数据的巨大带宽需求, 自己撸了个网络协议 ——Tesla Transport Protocol over Ethernet (TTPoE)。
快了近一倍!
英伟达的工程师们怕是要加班改进NVLink了。
不过,有意思的是,特斯拉自己却还在用10万块英伟达H100。这是咋回事?Phil给出了自己的猜测:
虽然特斯拉的芯片间集成可能比英伟达强,但英伟达的单芯片性能可能还是更胜一筹。
芯片还是硬实力啊!
不过Phil也表示,考虑到英伟达的高价格,特斯拉迟早会转向自家的Dojo。
Google DeepMind的AI专家Tim Zaman也发表了看法:
说LLM的训练单元是一个token,就像说视频模型是按像素训练的一样。关键在于如何处理视频数据的解压缩,最好是尽可能靠近训练硬件。
这也提醒我们, 不能简单地比较LLM和视频模型的数据量 。视频数据虽然大,但冗余也多,压缩后的实际信息量可能并没有想象中那么夸张。
你觉得特斯拉的Dojo能否在未来取代英伟达的地位?
图1: 特斯拉 Dojo 训练模块布线及安装
在 2024 年 Hot Chips 大会上,我们了解到了 TTPoE,即基于以太网的特斯拉传输协议。这主要涉及 TTP 的 V1 版本,这也是可以在 Hot Chips 上分享的内容。特斯拉决定为其 AI 集群开发自己的网络协议,而非使用 TCP 协议。
由于这是在斯坦福大学的 Hot Chips 大会期间实时完成的报道,可能会有一些拼写错误,请见谅。
针对特斯拉的 DOJO 超级计算机,该公司不仅开发了 AI 加速器,还推出了基于以太网的传输协议,命名为特斯拉传输协议 (TTPoE)。
图2: 特斯拉 Dojo Hot Chips 2024_页面01
特斯拉认为 TCP/IP 速度太慢,而基于优先级流控 (PFC) 的无损 RDMA 影响了网络性能。
图3: 特斯拉 Dojo Hot Chips 2024_页面02
TTPoE 是一种在硬件中执行的点对点传输层协议。其优势之一是,特斯拉不需要特殊的交换机,因为它主要用于二层传输。
图4: 特斯拉 Dojo Hot Chips 2024_页面03
这是 DOJO 的 OSI 层结构。我们可以看到,特斯拉正在替换传输层。
图5: 特斯拉 Dojo Hot Chips 2024_页面04
这里展示了 TTP 在 TTP 链路上的传输示例。
图6: 特斯拉 Dojo Hot Chips 2024_页面05
这是 TCP 状态机与 TTP 状态机的对比。
图7: 特斯拉 Dojo Hot Chips 2024_页面06
这是基于 Ethernet-II 框架构建的 TTP 头帧。
图8: 特斯拉 Dojo Hot Chips 2024_页面07
与无损的 RDMA 网络不同,TTPoE 预计会丢包并重试数据包传输。这不像 UDP,更类似于 TCP。
图9: 特斯拉 Dojo Hot Chips 2024_页面08
拥塞管理由本地链路通道处理,而不是在网络或交换机级别完成。特斯拉表示 TTP 支持服务质量 (QoS),但目前已被关闭。
图10: 特斯拉 Dojo Hot Chips 2024_页面09
特斯拉将此 IP 模块嵌入 FPGA 和硅中,设计用于在电缆上高速传输数据包。
图11: 特斯拉 Dojo Hot Chips 2024_页面10
这是 TTP 的微架构。一个独特之处在于,它看起来很像三级缓存。1MB 的发送缓冲区被描述为“属于这一代”,因此在新一代中很可能已经发生了变化。HBM2HBM 布局的内存线是非常受欢迎的功能。
图12: 特斯拉 Dojo Hot Chips 2024_页面11
Dojo 的 100Gbps 网卡名为 Mojo,功耗低于 20W,配备 8GB DDR4 内存以及 Dojo DMA 引擎。我们在 Tesla Dojo Custom AI Supercomputer at HC34 [1] 中详细介绍过这个网卡。
图13: 特斯拉 Dojo Hot Chips 2024_页面12
特斯拉现在回顾了 2022 年的演讲,展示了 D1 芯片的设计。
图14: 特斯拉 Dojo Hot Chips 2024_页面13
特斯拉展示了 5×5 阵列封装在一起的 D1 芯片。
图15: 特斯拉 Dojo Hot Chips 2024_页面14
还有一个 32GB HBM Dojo 接口处理器,它的 TTPoE 接口速率为 900GB/s,TTPoE 被封装在以太网帧中。
图16: 特斯拉 Dojo Hot Chips 2024_页面15
特斯拉展示了 Dojo 的连接方式。
图17: 特斯拉 100G 网卡连接到 V1 Dojo 接口卡,再连接到 Dojo
连接从封装在一起的 D1 模块组件开始,采用 SerDes 电缆连接。
图18: 特斯拉 Dojo 训练模块布线及安装
这些电缆连接到接口卡。
图19: 特斯拉 V1 Dojo 接口处理器卡 2
然后这些接口卡连接到低成本的 100G 网卡。
图20: 特斯拉 Dojo 100G 网卡
这是桌面上展示的另一视角。
图21: 特斯拉 Dojo Hot Chips 2024_页面16
这是位于纽约的 Mojo Dojo 计算大厅 (MDCH)。我们可以看到 2U 计算节点没有任何前置 2.5 英寸存储,这非常有趣。
图22: 特斯拉 Dojo Hot Chips 2024_页面17
这是一个具有 40PB 本地存储的 4 ExaFLOP 工程系统,具有大量带宽和计算能力。拥有 4EF (BF16/FP16) 工程系统也有点疯狂。
图23: 特斯拉 Dojo Hot Chips 2024_页面18Arista 提供了交换机。当网络扩大到更大规模时,增加的跳数会对带宽产生影响。
图24: 特斯拉 Dojo Hot Chips 2024_页面19
特斯拉正在加入 UltraEthernet Consortium (UEC) 并公开提供 TTPoE。非常酷!
图25: 特斯拉 Dojo Hot Chips 2024_页面20
图26: 特斯拉 Dojo Hot Chips 2024_页面21
图片中似乎也使用了 Arista
交换机。
图27: 特斯拉 Dojo Hot Chips 2024_页面22
这是有趣的一点。特斯拉还表示,TTPoE 在经过交换机时的单向写入延迟可以更低,这包括 NVLink。
图28: 特斯拉 Dojo Hot Chips 2024_页面23
特斯拉的结论是,他们已经进入了微秒级别的领域。
这是一个非常有趣的演讲,但如果这个系统能超越 Dojo 以外的应用场景,那就更酷了。特斯拉在为一个系统打造定制网卡、定制协议等方面进行了大量工作,却没有尝试利用规模经济带来的好处。不过,看到特斯拉将其引入 UltraEthernet Consortium,确实令人兴奋。
参考资料
Tesla Dojo Custom AI Supercomputer at HC34: https://www.servethehome.com/tesla-dojo-custom-ai-supercomputer-at-hc34/
星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。
每天约监控6000 条消息,可节省约800+ 小时的阅读成本。
每天挖掘出10+ 热门的/新的 github 开源 AI 项目
每天转译、点评 10+ 热门 arxiv AI 前沿论文
星球非免费。 定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)
一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;
二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。
欢迎你的加入!