三只眼"视角下的OpenAI芯片规划策略

发表时间: 2024-01-24 20:31

在盛世隐忧和图腾规划下,OpenAI的芯片规划攻守棋局正在进一步浮出水面。

其中,OpenAI的“守”主要在于面对全球科技巨头在AI大模型赛道上的激烈围剿和加速追击守住阵地,而底层算力芯片供应紧张和相关成本居高不下已成为其当前首要痛点。相较而言,OpenAI的“攻”着重体现在致力于引领大模型技术迭代和突破,而将大模型算法能力与芯片深度整合愈发成其卡位加速进阶的关键节点。

攻守之间,芯片越发成为OpenAI的阿喀琉斯之踵。面对致命性的弱点,OpenAI试图兵分三路以大举“渡江”,其中路径包括自研AI芯片、加强与半导体企业合作以及投资布局多元化供应。公开面上,OpenA此举意在缓解AI芯片供应不足、成本过高,但这背后还有更大的商业模式图谱。目前,这场棋局正初步展开,最终否能否“夺帅”还需时间证明。

自研路线优势亮眼

无论是出于自身降本增效需求,还是为摆脱芯片公司掣肘等,自研AI芯片都已成为主流趋势,谷歌、亚马逊和微软等均已下场造芯。对OpenAI而言,自研AI芯片愈显势在必行,毕竟其CEO山姆·阿尔特曼(Sam Altman)不少次强调,为OpenAI软件提供动力的先进处理器“严重紧缩”,以及为其工作和产品提供动力所需的硬件运行成本"令人瞠目"。

由于软件技术的发展依赖于硬件技术,芯片短缺和相关高昂成本便成为OpenAI迈进下一个台阶的拦路虎。据悉,OpenAI已经开始训练包括GPT-5在内的超大模型,而训练GPT-5需要5万张H100。目前,一台使用八卡英伟达H100 GPU的服务器采购成本约为30万美元,加上云服务商的溢价使用服务器三年的总成本为100万美元左右。如果OpenAI能用自研芯片把其八卡服务器的成本降低到10万美元以下,将会大大降低成本。

一旦OpenAI自研芯片成功,大模型的运营成本将随着算力成本的下降而减少,同时这会直接反映到普通用户和企业用户对模型的API调用上,使得新增用户和付费用户数量大幅提升,进而形成“降本增效”的良性循环。但如果只从成本侧考量,自研芯片并非是OpenAI “控制成本”的最优路径,而且算力成本未来会随着需求供给的变化动态降低。

显然,OpenAI还有着更多战略权衡,包括将领先的大模型算法能力和自研芯片整合,成为“芯片-模型”解决方案的提供商,进而开拓全新的商业化模式;以及聚焦AI大模型专用芯片,探索出革新传统用AI芯片常规复杂做法的新路径等。更重要的或是,OpenAI对于未来几年生成式大模型的路线图有着明确规划,即便自研芯片需要数年的时间也能跟上模型迭代。

进一步来看,OpenAI的独特优势在于基于对大模型的深入理解,OpenAI自研芯片若以提升大模型的推理性能为核心目标,其设计将会有极高的针对性,即有足够的能力和积累做”芯片-模型”协同设计,能够根据芯片特性去设计相应的模型,同时也可以根据模型需求去明确芯片设计指标,包括如何在计算单元、存储和芯片间互联之中做最优化的折中等。

但作为没有任何硬件研发和生产经验的企业,OpenAI一头扎进完全陌生领域面临的挑战依然巨大,包括高算力芯片设计的复杂度、巨额成本,如何确保软件和硬件协同工作,以及芯片生产制造的良率、封装技术、材料供应和产能稳定等各类难点都是极大考验。同时,英伟达GPU+CUDA生态的“组合”仍让一众云厂商欲罢不能。由此,如果OpenAI剑指通过自研AI芯片重构大模型商业模式和生态,势必需要强烈的AGI信仰和海量资源等投入。

定制芯片推进商用

比起自研芯片,现阶段外包定制芯片或对OpenAI而言更具可行性。正如阿尔特曼所言,“对于是否采用定制硬件(芯片),我们还在评估中,正努力确定如何扩大规模以满足世界的需求。虽然有可能不会研发芯片,但我们正在与做出卓越成果的伙伴保持良好合作。”

随着AI芯片短缺的担忧加剧,阿尔特曼近期密集推进内部代号为“Tigris”的项目,即正在通过向阿联酋互联网平台G42和日本的软银等全球投资者寻求筹集数十亿美元,以及拉拢台积电、三星和英特尔等“顶级芯片制造商”合作,进而建成覆盖全球的制造工厂网络。目前,该谈判仍处于早期阶段,参与该项目的合作伙伴和投资者的完整名单尚未确定。

根据OpenAI当前的财务、资源、人才和经验等整体状况,迅速建立起尖端半导体制造工厂是一件极具挑战的事。无论是直接购买成熟代工厂制造芯片,还是与芯片制造商合作生产都需要大量的资金和时间。进一步来看,不难判断OpenAI与制造商合作生产芯片的概率更大,毕竟庞大如亚马逊、谷歌和微软等巨头均是专注于AI定制芯片,然后将制造外包。

据悉,OpenAI的“Tigris”项目实体为一家“芯片合资企业”,而且有意与英伟达在AI芯片领域展开竞争。但根据行业格局和技术演进可以预判,OpenAI并不会选择与英伟达“正面刚”,技术路径的大方向将是与大模型算力深度整合的AI专用芯片。不过,在大模型加速向端侧“迁移”的趋势下,其商业模式上将与云服务厂商在云端提供服务的方式不同。

目前,由于用户使用模型的场景、软件栈和训练模型等不够明确,谷歌、亚马逊和微软等云服务厂商需要在芯片设计上充分考虑兼容性的需求,但这不免会牺牲训练任务的部分效率和性能。相比之下,OpenAI专用定制AI芯片训练的模型目标更为明确,即以Transformer为基本组件的大语言模型,而且使用的软件栈也控制在自身手里,因此可以确保设计的高针对性和软硬件协同。同时,通过与代工厂深度合作,也能设计制造出更专用的AI芯片。

如今,随着越来越多AI大模型诞生,如何让这些模型实现商业化落地成为至关重要的议题。业界专家普遍认为,大模型将在垂直领域率先取得突破。可以预见,除了通用大模型ChatGPT,OpenAI通过专用AI芯片打造出更适合垂直领域商用落地的定制版GPT未来发展空间想象巨大,甚至或将再次推动引领行业变革。但在项目谈判、技术团队和生产问题没有完全解决之前,OpenAI或可以选择与微软等重要合作伙伴开发半定制化类芯片方式。

投资布局多元供应

除了自研和合作生产AI专用芯片,OpenAI获得芯片能力的最快方式其实是投资并购。在这一方面,OpenAI和阿尔特曼也几番出手投资了多家芯片企业,包括Cerebras、Rain Neuromorphics和Atomic Semi。有分析称,阿尔特曼可能会考虑把OpenAI及其个人参与投资的芯片企业纳入麾下,从而保障公司的多元化供应和增强其大模型的竞争力。

其中,Cerebras是一家美国芯片初创公司,曾以推出超大芯片而引发关注,2023年一口气开源了7个不同百亿级参数以内的GPT模型,同时也提供大模型训练推理等云服务;Rain AI是一家神经拟态芯片(NPU)初创公司,产品基于谷歌、高通等支持的RISC-V开源架构开发。这种AI芯片模仿人脑的工作方式,特点是快速、完全并行和超可扩展;Atomic Semi由“车库造芯”红人山姆·泽洛夫(Sam Zeloof)和工业界大佬吉姆·凯勒(Jim Keller)共同创立,旨在让芯片生产加工更加简化,以及在数小时内生产出高性比发仍芯片。

相较而言,OpenAI对Rain AI的投资已成为行业焦点,其于2019年与Rain AI签订了一份价值5100万美元的意向书,会在Rain AI的芯片上市后购买芯片。此外,阿尔特曼作为Rain AI的股东也亲自投入了100万美元,但这也疑似成为OpenAI宫斗的导火索之一。当前,Rain AI正在研发一种“类脑”NPU芯片,能大幅降低AI算力的成本,预计在去年12月流片,并于2024年10月开始供货。该芯片号称比GPU高出100倍计算能力,而在训练方面的能效比GPU高出达10000倍,将“重新定义AI计算的极限”。

目前,Rain AI已经推出首个AI平台,可进行AI推理和训练,还宣称“类脑”芯片(NPU)将允许AI模型根据周围环境实时定制或微调。对此,阿尔特曼曾公开表示,“这种神经拟态方法能大幅降低AI开发成本,并有望为实现真正的AGI提供帮助。”

不过,OpenAI的投资布局并非一帆风顺。虽然Rain从百度风险投资部门获得的小额种子投资没有遭遇问题,但沙特阿拉伯的较大投资引起了美方所谓重要担忧。此前,在Rain的领导层变动改组时,美国外国投资委员会(CFIUS)要求沙特阿拉伯附属基金Prosperity7 Ventures出售其持有的Rain股份,之后由硅谷的Grep VC接手。这一变动可能会增加Rain将新芯片推向市场的难度,也使OpenAI的5100万美元订单兑现日期变得模糊。

总体上,拟自研芯片、与产业界合作定制芯片以及投资布局超大芯片、类脑芯片和高性价比芯片,OpenAI的芯片规划棋局正在阿尔特曼的“加速主义”引领下不断铺开。但OpenAI的野心不止于通过布局AI芯片降本增效和重塑商业模式,还将进一步向下游延伸至制造侧等,以在未来打造一个自给自足的半导体供应链,进而为其大模型生态王朝筑牢根基。