亚马逊自研二代芯片对决战英伟达:深度解析背后的技术大战

发表时间: 2024-11-25 13:31

图片来源:Unsplash

在奥斯汀北部一个充斥着匿名企业办公楼的平淡社区里,亚马逊公司的工程师们正全力投入科技行业最雄心勃勃的“登月计划”之一:削弱英伟达公司在逾千亿美元的人工智能芯片市场上的主导地位。

亚马逊的工程实验室简单实用,长长的工作台排成一列,可以俯瞰德州首府不断扩展的郊区。这里显得有些凌乱:印刷电路板、散热风扇、电缆和网络设备散布在各种组装状态的工作站上,有些还沾着用于连接芯片和散热组件的导热膏。这个地方更像是一个初创公司的车间,而不是一个市值超过2万亿美元的企业的实验室。

这里的工程师对去家得宝买钻床这种事毫不在意,他们也乐于学习自己领域外的知识,只要这能加快进度。在这场从零开始研发机器学习芯片的多年奋战中,他们肩负着尽快推出一款能够对抗英伟达的产品的重任。这并非为了追求单纯的算力,而是要构建一个简单可靠的系统,能快速将亚马逊的数据中心转变为庞大的AI机器。

拉米·辛诺(Rami Sinno),一位性格开朗的黎巴嫩裔工程师,负责芯片设计与测试。他在芯片行业已有数十年经验,帮助设计了亚马逊前两代AI芯片,目前正加紧确保最新版本Trainium2在年底前能可靠运行于数据中心。他坦言:“让我夜不能寐的是如何尽快达成目标。”

过去两年间,英伟达从一个小众芯片制造商转型为支持生成式AI硬件的主要供应商,凭借这一地位成为全球市值最高的公司。英伟达的处理器单价达数万美元,由于需求旺盛,供应紧张。上周,英伟达在公布财报后向投资者表示,对其最新硬件的需求将在数个季度内持续超过供应,进一步加剧短缺。

英伟达最大的客户——亚马逊AWS、微软Azure和谷歌云平台等云服务提供商——渴望减少对英伟达芯片的依赖,甚至取而代之。这三家公司都在研发自家芯片,但亚马逊作为最大的云计算服务商,已部署了最多的自研芯片。

亚马逊在许多方面都具有成为AI芯片领域强者的潜力。15年前,公司发明了云计算业务,逐渐建立起支撑业务的基础设施。亚马逊通过不断减少对现有供应商的依赖,例如英特尔,在数据中心用定制硬件替代了许多服务器和网络交换机。10年前,时任高级副总裁的詹姆斯·汉密尔顿(James Hamilton)说服杰夫·贝佐斯让亚马逊自己研发芯片。

图片来源:Unsplash

然而,两年前,当OpenAI的ChatGPT掀起生成式AI热潮时,亚马逊被普遍认为是反应迟缓的“追赶者”,未能及时推出像ChatGPT或Claude那样有竞争力的大语言模型。不过,亚马逊构建的云计算基础设施——定制服务器、交换机、芯片——却使首席执行官安迪·贾西有能力开设一个AI“超级市场”,为希望使用其他机构模型的企业提供工具,同时为开发自家AI服务的公司提供芯片。

尽管面临困难,汉密尔顿和亚马逊的工程团队在预算有限的情况下,一再证明了他们解决重大技术难题的能力。他坦言:“英伟达是一家非常优秀且能力出色的公司,未来很长一段时间都将为许多客户提供好的解决方案。但我们坚信能够打造出一款与之旗鼓相当的产品。”

汉密尔顿2009年加入亚马逊,此前曾效力于IBM和微软。这位行业标志性人物最初在加拿大从事豪华汽车维修,后来搬到了一艘54英尺长的船上通勤。他加入亚马逊正值AWS推出三年后,这一服务创造了云计算产业,并迅速带来了大量资金,为亚马逊支持多项重大投资奠定了基础。

彼时,亚马逊虽然自己建造数据中心,但却使用其他公司生产的服务器和网络交换机。汉密尔顿领导了一项将这些设备替换为定制硬件的计划,从服务器开始。由于亚马逊需要采购数百万台设备,汉密尔顿推测通过为数据中心量身定制设备,并剔除AWS不需要的功能,可以降低成本并提高效率。

这一计划非常成功,后来贾西(当时负责AWS业务)询问还有哪些硬件可以自行研发。汉密尔顿提议研发芯片,这些芯片逐渐承担起原本由其他组件完成的更多任务。同时,他还建议亚马逊采用用于智能手机的高效能Arm架构,因为这种技术的普及性和开发者对其的熟悉程度可能有助于亚马逊取代长期以来主导服务器市场的英特尔芯片。

“所有路径都指向我们需要一个半导体设计团队。”汉密尔顿在2013年8月向贝佐斯递交的提案中写道。一个月后,汉密尔顿在西雅图的一家酒吧与奈费亚·比沙拉(Nafea Bshara)碰面。比沙拉是以色列芯片行业的资深人士,他曾在2000年代初搬到旧金山湾区,并创立了名为Annapurna Labs的公司,名字来源于尼泊尔的一座山峰。(比沙拉和他的联合创始人原计划在创业前征服这座山,但投资人催促他们尽早开始工作,因此未能成行。)

当时,这家神秘的初创公司致力于为数据中心设计芯片,而大部分行业却专注于手机芯片。亚马逊向Annapurna Labs订购了处理器,并在两年后以3.5亿美元收购了这家公司。事实证明,这一举动十分具有前瞻性。

比沙拉和汉密尔顿从小处着手,反映了他们对实用工程的共同追求。当时,每台数据中心的服务器都需要留出部分算力用于运行控制、安全和网络功能。Annapurna与亚马逊的工程师共同开发了一种名为Nitro的卡片,将这些功能完全从服务器中剥离出来,让客户能充分利用其算力。

随后,Annapurna又实现了汉密尔顿的Arm通用处理器设计。这款名为Graviton的产品成本低于竞争对手英特尔的设备,使亚马逊成为台湾积体电路制造公司(台积电)十大客户之一,而台积电是行业内众多芯片生产商的供应商。

图片来源:Unsplash

到此时,亚马逊高层对Annapurna的能力已非常有信心,甚至认为它可以在陌生领域表现优异。比沙拉表示:“你会发现很多公司在某一领域非常擅长,比如CPU,或者网络领域,但很少有团队能在两三个甚至四个不同领域都表现出色。”

在Graviton开发期间,贾西再次询问汉密尔顿亚马逊还可以自行制造什么。2016年底,Annapurna指派四名工程师探索制造机器学习芯片。这再次是一个及时的决定。几个月后,谷歌研究团队发表了一篇开创性论文,提出了使生成式AI成为可能的处理方式。

这篇题为《Attention is All You Need》的论文提出了一种名为“Transformer”的软件设计原理,可以帮助人工智能系统识别训练数据中最重要的部分。这一方法成为了生成文本系统的基础。

大约在这个时候,拉米·辛诺(Rami Sinno)在奥斯汀为Arm Holdings公司工作,同时辅导他的儿子参加一个机器人比赛。比赛团队开发了一款应用程序,利用机器学习算法分析照片,检测奥斯汀湖泊夏季常见的藻华现象。辛诺对孩子们仅凭一台笔记本电脑就能做到的事情感到惊讶,意识到一场革命正在到来。2019年,他加入亚马逊,协助领导AI芯片的研发。

亚马逊的第一款AI芯片旨在支持“推理”功能,即训练好的计算机根据数据模式做出预测,比如判断一封电子邮件是否是垃圾邮件。这款芯片名为Inferentia,于2019年12月投入亚马逊数据中心使用,后来被用于帮助Alexa语音助手处理指令。亚马逊的第二款AI芯片Trainium1面向希望训练机器学习模型的企业,同时也被重新设计为适用于推理场景的Inferentia2。

最初,亚马逊的AI芯片需求较低,因此客户可以立即使用它们,而无需像英伟达硬件那样等待数周才能获得大批量产品。一些希望迅速参与生成式AI革命的日本公司抓住了这个机会。例如,电子制造商理光公司利用亚马逊的帮助,将基于英语训练的大语言模型转换为日语。

随着需求的增加,情况发生了变化。据Annapurna早期员工之一、现负责亚马逊芯片客户合作的加迪·赫特(Gadi Hutt)表示:“我手上已经没有闲置的Trainium芯片等待客户使用了,全都在被充分利用中。”

Trainium2是亚马逊第三代AI芯片。按照行业惯例,这是一场成败攸关的关键时刻。如果第三代产品销量足够多,能够证明投资的价值,那将是成功;否则,亚马逊将不得不重新审视方向。Databricks公司负责AI工作的芯片行业资深人士纳文·拉奥(Naveen Rao)指出:“我从未见过任何产品偏离‘三代规则’——要么在第三代成功,要么就失败。”

图片来源:Unsplash

今年10月,Databricks与AWS签订了一份广泛协议,承诺使用Trainium芯片。虽然该公司的AI工具目前主要运行在英伟达硬件上,但计划用Trainium替代部分工作。亚马逊声称,Trainium可以在价格上提供30%的性能提升。拉奥表示:“这一切归结于经济性和可用性,这正是战场所在。”

Trainium1包含八颗芯片,被整齐排列在一个深钢盒中,盒子提供充足空间散热。AWS租赁给客户的完整组件由两个这样的阵列组成。每个盒子内部布满电线,并被包裹在网状保护层中。

对于性能提升四倍、内存增加三倍的Trainium2,工程师们移除了大部分电缆,改用印刷电路板传输电信号。他们还将每盒芯片数量减少到两颗,以便维护时减少对其他组件的影响。辛诺将数据中心视为一个巨大的计算机,这种思路与英伟达CEO黄仁勋倡导的行业方向一致。他表示:“简化设计至关重要,这也确实让我们加快了进度。”

亚马逊并未等待台积电生产出Trainium2的工作版本再开始测试,而是将两个前代芯片固定在电路板上,利用这段时间优化控制软件并测试电磁干扰。这种做法堪称半导体行业的“边飞行边造飞机”。

目前,亚马逊已开始向俄亥俄州等地的数据中心交付Trainium2,并计划将多达10万颗芯片串联在一起进行部署。更大范围的推广将涵盖亚马逊的主要数据中心枢纽。

亚马逊的目标是大约每18个月推出一款新芯片,这部分归功于减少了硬件向外部供应商往返的次数。在实验室中,工程师使用示波器测试芯片和卡片的连接质量或设计缺陷。而在另一个实验室,为未来版本做准备的迹象已开始显现:为测试单元降温的嘈杂风扇旁边,四对管道从天花板垂下,目前被封闭,但它们将在AWS芯片未来产生过多热量时转为冷却液系统。

其他公司也在不断突破极限。英伟达形容市场对其芯片的需求“疯狂”,正在努力实现每年推出一款新芯片的节奏。这种高频率的推出虽然导致了即将发布的Blackwell产品在生产中遇到问题,但也给行业其他参与者带来了更大的压力。而与此同时,亚马逊的两大云计算竞争对手——谷歌和微软——正在加速推进自己的芯片计划。

谷歌大约十年前开始研发AI芯片,以加速其搜索产品背后的机器学习工作。后来,该公司向云客户提供这些产品,包括Anthropic、Cohere和Midjourney等AI初创公司。最新版本的谷歌AI芯片预计将在明年广泛上市。今年4月,谷歌还推出了首款通用处理器,与亚马逊的Graviton类似。谷歌负责芯片和其他基础设施工程的副总裁阿明·瓦赫达特(Amin Vahdat)表示:“通用计算是一个非常大的机会。我们的终极目标是让AI芯片与通用计算芯片无缝协作。

微软进入数据中心芯片市场的时间比AWS和谷歌晚得多。直到去年年底,微软才宣布了AI加速器“Maia”和CPU“Cobalt”。像亚马逊一样,微软意识到,通过为自己的数据中心定制硬件,可以为客户提供更好的性能。微软负责芯片开发的副总裁拉尼·博卡尔(Rani Borkar),在英特尔有近30年的经验。她领导的团队本月初向微软的产品组合新增了两款产品:一款安全芯片和一款数据处理单元(DPU),用于加速CPU和GPU之间的数据流。英伟达也有类似产品。

微软已经开始在其AI硬件中测试这些芯片,并与其现有的英伟达芯片配合使用,用于运行客户基于OpenAI模型创建应用程序的服务。尽管微软的努力被认为比亚马逊落后两代,但博卡尔对当前的成果表示满意,并正在开发其芯片的更新版本。她说道:“起步时间并不重要,我关注的是客户需要什么。如果你走在前面,却制造出客户不需要的产品,那么投资芯片的成本巨大,可能最终只会成为失败案例。”

尽管三家云计算巨头都在积极竞争,但它们对英伟达的产品仍高度依赖。当像Blackwell这样的新芯片面世时,它们都争相购买,以确保能够满足客户需求。

对于亚马逊来说,Trainium2芯片若能在满足公司内部AI需求的同时吸引AWS的大客户参与一些项目,可能就算成功了。这样一来,可以释放亚马逊宝贵的高端英伟达芯片资源,用于更专业的AI任务。然而,要让Trainium2成为彻底的成功产品,工程师必须克服软件开发方面的巨大挑战。英伟达的强大之处在于其全面的软件工具套件,这使得客户可以轻松地启动机器学习项目,而无需进行大量定制。相比之下,亚马逊的软件工具(Neuron SDK)仍处于初级阶段。

即便公司能够相对容易地将项目迁移到亚马逊的芯片上,验证切换过程没有出现任何问题,可能仍需耗费数百小时的工程师时间。据一位亚马逊和芯片行业的资深人士(匿名)透露,这种复杂性是亚马逊AI硬件潜在用户的主要顾虑。AWS的一位合作伙伴高管(也匿名)表示,虽然亚马逊成功让其通用芯片Graviton变得易于使用,但AI硬件的用户仍面临额外的复杂性。

“英伟达之所以主导市场,是因为你无需担心这些细节,”Gartner公司副总裁齐拉格·德卡特(Chirag Dekate)表示。他专门研究人工智能技术

因此,亚马逊正在寻求外部帮助——鼓励大型客户和合作伙伴在签订新合同或续约时使用其芯片。这种策略旨在让最前沿的团队彻底“磨练”芯片并发现改进空间。

其中一家合作公司是Databricks,该公司预计将在数周或数月内完成配置工作,希望最终看到承诺中的成本节约效果。AI初创公司Anthropic接受了亚马逊去年40亿美元的投资后,同意在未来的开发中使用Trainium芯片,但同时也在使用英伟达和谷歌的产品。上周五,Anthropic宣布再次获得亚马逊40亿美元的注资,并加深了双方的合作。

图片来源:Unsplash

Anthropic的首席计算官汤姆·布朗(Tom Brown)表示:“我们对亚马逊Trainium芯片的性价比印象深刻,正在将其逐步扩展到更广泛的工作负载中。

汉密尔顿认为,Anthropic的合作正在帮助亚马逊快速进步,但他清楚地认识到挑战所在。他强调,开发出优秀的软件,使客户能轻松使用AWS的芯片,是“必不可少的”。他说:“如果你无法弥合复杂性的鸿沟,那就注定会失败。”

来源:

[1] Amazon’s Moonshot Plan to Rival Nvidia in AI Chips, https://www.bloomberg.com/news/features/2024-11-24/amazon-plans-to-rival-nvidia-with-its-own-ai-chips?srnd=phx-technology

欢迎扫码加群参与讨论

---------END--------

我们相信认知能够跨越阶层,

致力于为年轻人提供高质量的科技和财经内容。

投稿邮箱:zfinance2023@126.com

稿件经采用可获邀进入Z Finance内部社群,优秀者将成为签约作者,00后更有机会成为Z Finance的早期共创成员。

? 我们正在招募新一期的Z Explorer