万卡集群算力竞争,服务器市场展开激烈角逐

发表时间: 2024-05-06 15:14

图片来源@pixabay

“预训练大模型的发展为实现通用人工智能提供了可能。其中算力一定要有比较大的进步,才可能有下一代。但短期内不太可能是GPU架构本身的明显跨越,而是需要千卡、万卡来适应大模型。”2021年末的一次交流中,某NLP创企CEO对钛媒体表达。

在当时,这家企业已经遇到不少在算力层面的挑战,他们与高校、英伟达、云厂商都在保持密切沟通,希望对方能给予一些技术支持。但对于这些算法领域的专家或创企而言,由于之前的工作并不太涉及硬件领域,“做模型的不懂算力,做算力的不懂模型”的现象非常常见。

“很多情况下需要双方一线面对面沟通,才可能把真正的需求痛点解决掉。”该CEO表示。

三年后,类似于ChatGPT、Sora的大量生成式AI杀手级应用出现,也正在倒逼更强的算力基础设施进一步升级。上述CEO所面临的问题不仅依然存在,且受到了更上游英伟达等供应商对于GPU及相关专用芯片的限制,带来了一系列连锁反应。对于该NLP企业而言,如果有必要采购国产芯片,那么不同性能、不同场景下的异构芯片“组合”方案将变得日常,而真正挑战在于“怎么组合”。

多位专家近来反复也提及,大模型对算力需求增长已远高于单颗AI芯片性能的增长速度。因此,需要通过芯片的互联组成万卡、甚至数万卡的集群,来提供更高算力。但问题是,建设下一代数据中心,对卡间的网络互联,集群间的互联要求会变得更高,受绿色算力目标的牵制也会更明显,就连英伟达自身也无法回避这一问题。

浪潮信息高级副总裁刘军的观点是,实现更大的算力已经不在芯片,而是在算法层面做创新,比如怎么把算力分布到系统层面上,怎么解决卡间互联问题,怎么让更多的GPU高效协同。

钛媒体注意到,在大模型算法、云、芯片这些对算力基础设施产生不同推力的角色之外,像浪潮信息、新华三等处于产业链中游的主要服务器供应商,纷纷发力生成式AI,围绕算力、算法、数据、互联等范畴布局。

万卡集群军备赛

万卡集群是个什么概念?即使用数万个GPU构建大型人工智能集群,用以训练基础大模型。这种集群有助于大幅压缩大模型训练时间,以实现模型能力的快速迭代。

目前看来,包括电信运营商、互联网企业等服务器采购的头部客户在内,他们对AI算力集群的设计起点已经到了千卡级别,蚂蚁集团在去年透露已建成万卡异构算力集群,中国移动不久前透露今年将商用哈尔滨、呼和浩特、贵阳三个自主可控万卡集群,总规模近6万张GPU卡。

但别看万卡集群似乎成为大模型基建军备赛的目标,其建设和维护仍面临诸多挑战。

钛媒体此前分析,大模型场景下,算力需要大规模集中式训练,服务器也无法被切分成单个虚机,单个GPU无法完全容纳整个模型训练,采用分布式训练是必然。这也同时导致了GPU通信问题,由于卡与卡之间存在的通信开销,增加一倍卡并不能带来线性的性能加速。在实际的AI集群环境中,会存在GPU之间的互联带宽受限或AI服务器之间的网络互联带宽有限。

此外,卡数量增多后,过热、故障就会一定比例出现,这往往会导致训练中断、梯度爆炸、算法重跑一遍等,模型训练成本也会居高不下。即便单卡算力再强,不考虑带宽的优化,也会带来极大的算力资源浪费。

在字节跳动年初公布的一份论文中也列举了基于万卡集群训练大模型的挑战,即高效率、高稳定性,并提出将MegaScale系统部署到数据中心。

能够看到,为了解决这些问题,各大科技公司纷纷投入研发,提出各种在万卡集群上用于训练大模型的方案。浪潮信息董事长彭震在近日与媒体沟通中指出,今天想要建一个能承载万卡集群的机房还是很难的事情,它对基础设施要求非常高。

因而,对于服务器厂商而言,当其身量已不再局限于提供单一硬件产品时,而是综合性解决方案,这些解决方案可能包括服务器、存储、网络、安全等方面,同时还需要针对下游客户的具体需求,提供定制方案。服务器作为算力资源的重要载体,也正成为企业构建万卡集群的核心一环。

当前中国市场局面则是,国家将数字基础设施建设上升到战略层面,全国一体化算力网络建设的布局拉开,服务器的潜力已经引发新一轮的市场热潮。而随着生成式AI的浪潮袭来,通用型服务器已难以满足其带来的日益增长的算力需求,面向AI场景的专用服务器也应运而生,围绕计算能耗的服务器液冷等技术创新日渐成熟,也在驱动客户主动布局该类方案。

根据IDC此前公布的两组数据:预计2023年中国人工智能服务器市场规模将达到91亿美元,同比增长82.5%,五年年复合增长率达21.8%;2023全年中国液冷服务器销售额为101亿元,同比增长48.0%,其中95%以上均采用冷板式液冷解决方案。

刘军指出,AI时代只卖算力服务器是不够的,还需要其他手段去承载时代下的用户需求。

迈向万卡集群,要靠生态

不过,能设计并有效运行万卡集群的企业,仍掌握在少数人手中。

举一个最近的合作样板:中国电信天翼云点亮规模达15000卡的算力集群,很快得到人工智能研究院、稀宇科技、百川智能、思必驰科技、亿熵智能科技、澜码科技、赛陇生物科技、天壤智能科技8家国内合作伙伴的入驻。

目前看来,不同芯片在不同场景下取得的效果和效率仍有差别,浪潮信息更希望从算力层提供一个平台,支撑多元算力入驻。对于芯片企业而言,只需要专注在芯片本身而不需要研究互联带宽问题。彭震强调,芯片算力并非是AI发展不起来的直接原因,更多的其实是系统问题。

浪潮信息在将目光聚焦到与其他产业链伙伴,如芯片供应商、软件开发商、系统集成商等合作,以应对当前GPU及相关专用芯片出口限制的影响。以EPAI品牌下的大模型计算框架TensorGlue为例,它针对多种模型,与多款深度学习框架和异构芯片适配,降低算法与应用向异构算力设备迁移的框架适配成本,帮助用户在多模多元算力场景下的试错和适配成本,推进大模型应用研发能力。

近期举办的IPF生态伙伴大会上,浪潮信息公布了几项最新进展:算法方面,发布企业大模型开发平台EPAI“元脑企智”,加速企业大模型落地应用;算力方面,面向大模型推理场景,联合英特尔发布AI通用服务器;存储方面,发布分布式全闪存储AS13000G7,解决大模型训练数据挑战;互联方面,发布超级AI以太网交换机X400,加速大模型训练推理。

从2021年推出“源”大模型为初始,出于对计算的理解,对市场价值创新的探索,以及企业内部数字化转型的考虑,经过多年筹备,浪潮信息形成了从算力、算法、数据、场景的从研发到产品线的全面战略布局。如今,“以应用为导向,以系统为核心”,表达出浪潮信息接下来想要做的事情。

钛媒体还注意到,英伟达的NVlink,正在被服务器厂商提及甚至对标。NVlink提供一种高效可扩展的芯片通信间协议,允许所有GPU同时全速实时通信,就好像整个系统是单个GPU一样。在今年4月的GTC大会上,英伟达也宣布NVlink更新到第五代,包括可扩展至576个GPU,能够解决万亿参数混合专家模型通信瓶颈。

正如钟摆理论的核心是围绕某个中心值有规律摆动。刘军告诉钛媒体,无论是算力、算法,还是数据,浪潮信息在不同时间节点可能都会有不同的侧重,“关键是要走在钟摆的前面,而不是走在后面。”(本文首发于钛媒体APP, 作者|杨丽,编辑 | 盖虹达)