华为与摩尔线程在国产万卡系统领域占据领先地位

发表时间: 2024-05-16 15:21

大模型去年还是百亿级参数，今年就干到了千亿级，而AI算力去年才出现的千卡集群，今年已然成了大厂标配，并将很快迎来万卡时代。

攒算力这个事，大厂小厂是各显神通。全世界的AI大厂都在疯狂囤N卡，也有亚马逊、特斯拉、微软这样的巨头在自研芯片。在国内，除了字节跳动是出了名的N卡收集狂，阿里百度有部分自研芯片外，绝大多数的大中小厂都在疯狂的寻找国产AI算力的替代方案。

毕竟H100、A100再强，阉割两次后——只比国产单卡的性能强一丢丢，主要还是CUDA这个庞大的软件生态托底。

于是，留给国产AI算力的机会，就在千卡以上的集群，以及背后的软件生态了。正像中国工程院院士郑纬民所说：“构建国产万卡系统，虽然很难，但很必要。人工智能的模型研发、模型训练、模型精调、模型推理都需要算力，算力存在于大模型生命周期的每一环。”

在4月28日的中国移动算力网络大会上，郑纬民指出：“国产AI芯片与业界领先水平存在一定差距，但如果生态做好了，大多数任务不会因为芯片性能的微小差异而有明显感知。别人要用1万块卡，我们用9000块卡就可以了。”

华为和摩尔线程，可用的国产千卡集群

万卡集群是远方和田野，做好千卡集群才是眼前的生活。目前，国内具备部署全国产AI千卡集群的公司只有华为和摩尔线程这两家。

华为在去年发布了全新达芬奇架构的昇腾AI计算集群——Atlas900 SuperCluster，据了解该AI集群支持超万亿参数的大模型训练，采用全新的智算交换机以及超节点架构。在软件生态层面，华为推出了openEuler开源OS以及配套的数据库、中间件，涵盖从硬件、架构、框架、应用、开发运维工具等全产业链条，成为国产AI芯片的一支生力军。华为董事、ICT产品与解决方案总裁杨超斌在华为中国合作伙伴大会2024上表示，鲲鹏、昇腾逐步成为数智化转型升级的首选算力，昇思成为成长最快的开源AI框架。

如果说华为是国产AI专用芯片的代表，摩尔线程作为全功能GPU芯片头部创企，则是有望在功能上对标英伟达，成为大模型国产算力当下最佳选择。

摩尔线程率先推出了首个全国产千卡千亿模型训练平台——摩尔线程夸娥智算集群，可以为大模型训练提供稳定、高效、高兼容的算力支撑。以全功能GPU为算力底座，摩尔线程夸娥提供从卡（MTT S4000）、服务器（MCCX D800）到千卡集群（K1、K2、K3）的完整智算产品组合，通过软硬一体化的服务，将成为大模型企业的最佳选择之一。摩尔线程已经布局了从硬件集群、集群管理调度平台到大模型服务等软硬一体的全栈集群解决方案，具备了千卡甚至万卡的集群能力，在集群落地方面上走在行业前列。

软硬一体，端到端的千卡万卡集群

中国工程院院士郑纬民在“中国移动算力网络大会”上，强调了全栈软硬件一体化的重要性。

他认为国产算力支撑大模型训练，国产软件生态需要做好几件事：支持PyTorch 、TensorFlow等编程框架，多机多卡下的并行加速，跨机跨卡的通讯库，以及算子库、编译器、编程语言、调度器。

以摩尔线程的夸娥千卡集群为例，国产AI算力正在从GPU显卡到服务器，最后组成集群，包括了硬件的网络、存储、软件，再到大模型调度，实现了全栈式的工程、端到端的交钥匙方案。

夸娥智算集群全栈方案有8大核心优势：

1）模型覆盖：目前，摩尔线程支持包括LLaMA、GLM、Aquila、Baichuan、GPT、Bloom、玉言等业界主流大模型的训练和微调。

2）主流生态兼容，包括CUDA：摩尔线程代码移植Musify工具，可快速将现有的主流迁移至MUSA，零成本完成CUDA代码自动移植，可以复用PyTorch开源社区的大量模型算子。

3）断点续训：可以实时监测训练任务集群，分钟级发现故障并自动恢复训练；框架集成检查点（checkpoint）备份及恢复；综合提升训练效率15%-50%之间。

4）大模型语言分布式训练：摩尔线程KUAE支持包括DeepSpeed、Megatron-DeepSpeed、Colossal-AI、FlagScale在内的业界主流分布式框架。

5）推理加速：包含四个部分KUAE-ModelStudio、MUSA Serving 、MT Transformer 、TensorX，包含了大语言模型开放工具、推理服务软件、分布式推理加速框架。

6）高性能通信：MT-Link高速片间互联， MT-Link带宽 112GB/s、支持双环拓扑结构，支持典型的ring allreduce算法通讯。

7）高性能存储：夸娥吞吐量提升50%以上，时延降低75%。大规模训练下降低训练耗时约 28 个小时；每存储单元读取性能 90GB/s，写入性能 50GB/s，可横向扩容。

8）集群可靠性与性能：支持万卡以上大规模GPU集群可靠、高性能运行。能高效获取服务器、GPU、集合通信组件、RDMA网络、异构架构、分布式训练任务等状态数据采集，无人值守的连续训练时长大于30天。

结语：郑院士认为：构建基于国产AI卡的万卡大模型训练平台，要考虑网络平衡设计、体系结构感知的内存平衡设计、IO子系统平衡设计，需要支持检查点、增加SSD。

摩尔线程的夸娥千卡集群，正是在软硬件一体化实现了全局突破，成为了国产AI算力第一梯队的一员。随着摩尔线程3家千卡集群智算中心的落地，未来万卡集群将更值得国产大模型期待。

华为与摩尔线程在国产万卡系统领域占据领先地位

热门阅读

推荐阅读