作者 | 三北
编辑 | 漠影
随着OpenAI的视频生成模型Sora爆火,国内大模型同行正在铆足劲加速追赶,同时面临的算力瓶颈及对应的成本压力日益凸显。
软件优化方法是破解算力瓶颈的一条捷径。今年3月,国内知名AI公司潞晨科技开源的Sora复现架构方案Open-Sora,据称可降低46%复现成本,背后就得益于潞晨科技的Colossal-AI软件系统。
Colossal-AI是潞晨科技自研的面向大模型的通用深度学习系统,可用于大模型训练、微调、推理部署的全流程。该系统在圈内与微软DeepSpeed和英伟达的Megatron分庭抗礼,并凭借GitHub上三万六千多颗星,被一众开发者视为细分赛道世界第一。
今年2月,潞晨科技更进一步联合华为推出Colossal-AI云平台——ColossalAI Platform,以此解决大模型从业者国产化迁移难问题,为用户提供开箱即用的高性能算力及开发部署全流程工具。与此同时,潞晨昇腾训推一体机已经上线,据称性能最高可达对应A800机器性能的92%。
▲ColossalAI Platform网站截图
ColossalAI Platform地址:
https://platform.luchentech.com/
当下正值AI成两会热门话题,高层首次将开展“人工智能+(AI+)”行动写进政府工作报告,AI算力瓶颈问题备受关注。那么适合中国的AI算力解决方案应该是什么样的?
潞晨科技与华为联合推出的算力解决方案,为产业提供了一个典型新范本。
“进入2024年,我们观察到大模型相关算力需求明显增加。”潞晨相关负责人告诉智东西,“特别是视频生成大模型如Sora的爆发,以及对话机器人的广泛应用,推动了大模型在不同行业的落地应用。”
在这种背景下,客户的需求特征变化主要体现在对更大规模、更高性能的计算资源的迫切需求,以满足复杂任务的训练和推理。各地算力中心如雨后春笋般落成,一方面有望在启用后承接大量AI算力需求,另一方面则在落地场景中面临严峻的应用挑战。
算力中心只有靠提供额外服务,才能形成吸引客户的卖方优势。
业内人士称,不少算力中心有硬件却很难卖出去,因为无法帮客户真正把算力用起来。算力中心的客户在大模型开发过程中面临重重挑战,涉及多样化的⼯具和框架、复杂的开发和部署过程、资源管理和调度、数据管理、扩展、监控和调试、安全性和权限管理等多方面,成为传统行业“AI+”转型的路障。
潞晨科技与华为最新的合作,为算力中心及传统行业“AI+”转型提供了新解法。今年2月,潞晨科技与华为推出了两类联合解决方案:
一是ColossalAI Platform独立部署版,这是个⼀体化的AI开发和部署平台,可以助用户在昇腾上像做PPT一样训练/微调/部署大模型。用户可通过华为云云商店下单,进行ColossalAI Platform私有化部署,从而在本地以更低门槛、更低成本、更高速度通过私有数据训练/微调出效果更好的私有垂类大模型。
▲ColossalAI Platform独立部署版网站截图
ColossalAI Platform独立部署版地址:
https://marketplace.huaweicloud.com/contents/b0fa0a48-b4b5-4651-8277-a14430a8b4d0#productid=OFFI967630942413742080
二是潞晨昇腾训推一体机,也就是潞晨昇腾超级工作站,用户购买机器后可零成本迁移,开箱即用地获得与英伟达机器媲美的高性能算力,用上与ColossalAI Platform类似的功能及服务。
潞晨相关负责人告诉智东西,对于自有昇腾硬件算力的客户或算力中心来说,他们只需要在华为云云商店下单Colossal-AI Platform独立部署版,就能够获得类似“千元半日训出70亿参数大模型”、“万元训出媲美GPT大模型”的体验。
几个月前,Colossal-AI团队仅利用8.5B tokens数据、15小时、数千元的训练成本,成功构建了性能卓越的70亿参数中文Llama 2版本模型,在多个评测榜单性能优越。
▲Colossal-LLaMA-2-7B测试媲美同规模SOTA模型
在此基础上,1月,Colossal-AI再次迭代,利用25B tokens数据,仅花费数万元成本,打造了效果更佳的130亿参数的 Llama 2模型,在CMMLU、AGIEVAL、GAOKAO与C-Eval多个榜单上表现优异,比肩花费上千万元的主流大模型。这些大模型在很多场景中能媲美OpenAI的GPT-3.5甚至是GPT-4模型。
▲Colossal-LLaMA-2-13B测试超同规模主流模型
对于用户来说,ColossalAI Platform上手简单。平台提供统⼀的接⼝和⼯具,底层技术难题已经被屏蔽了,使得开发大模型变得像做PPT一样容易。
根据潞晨官方测试,通过灵活的计算资源、可扩展性和高度可定制的环境,ColossalAI Platform能助大模型预训练成本降低50%,大模型基础设施成本降低10倍,大模型硬件需求成本降低10倍,大模型项目上线时间缩短10倍。
从功能模块来看,ColossalAI Platform主要包括基础设施层、服务层-AI服务中台、应⽤层-AI解决⽅案三层架构。
▲ColossalAI Platform的主要架构
其中,基础设施层包括计算节点、存储和⽹络几个模块,提供硬件与框架⽀持、原⽣集成ColossalAI的预制镜像、预制镜像⾥AI代码框架版本的定期更新、AI算⼒资源管理等功能。
服务层-AI服务中台主要提供AI算⼒资源管理、AI云主机、模型训练、训练任务模版、模型部署、模型管理、数据集管理、算法管理等功能。
应⽤层-AI解决⽅案主要提供AI应⽤市场、镜像管理、⽂档中⼼等功能。
总的来说,Colossal-AI Platform的主要优势如下:
1、ColossalAI Platform和Colossal-AI通过在⼤型集群上提供“低代码零代码开发体验”,显著提⾼复杂应⽤程序的开发速度。
2、ColossalAI Platform原⽣集成⾼效分布式开发基础设施Colossal-AI,进⼀步优化⼤模型的训练和推理过程。
3、ColossalAI Platform预置⾃动化算⼒和存储资源的解决⽅案,⾃动为⽤户配置最优集群,并确保数据安全。
4、ColossalAI Platform显著降低企业研发成本,将⼤模型项⽬上线时间缩短10倍。
Colossal-Al云上大模型高效解决方案去年底获得了华为云联合CNCF、中国通信院等颁发的“2023年度云原生技术创新奖”,Colossal-AI大模型开发系统也在同时期入选中国信通院可信开源大模型产业推进方阵。
▲潞晨科技获“2023年度云原生技术创新奖”
对于一些尚未采购算力的客户,潞晨昇腾超级工作站是优选路径。
潞晨昇腾超级工作站具有两大核心优势,0成本实现到昇腾机器的无缝迁移,并从性能上媲美英伟达高端训练卡。
潞晨Colossal-AI系统作为亚洲AI系统细分赛道排名第一的选手,凭借其在AI系统软件的工作首先帮助国内企业解决了昇腾机器适配难题,仅需安装Colossal-AI便可实现原先PyTorch项目到昇腾机器上的无缝迁移。
▲潞晨昇腾超级工作站实现0成本适配
在性能方面,在Colossal-AI的加持下,昇腾性能则可直接媲美甚至超越英伟达在原生PyTorch框架下的性能,弥补了国内在AI系统上的空缺,为国内众多有落地大模型计划的企业提供了可靠的全国产替代方案。
▲潞晨昇腾超级工作站获昇腾技术认证书
当下正值“人工智能+”上升为国家打造新质生产力的战略行动,同时美国OpenAI推出的Sora对国内AI产业造成更大的压力,这都要求智能算力产业给出更高性能、更高效率的算力解决方案,助大模型产业打破瓶颈,打造适合中国的大模型算力方案。
“华为昇腾+潞晨Colossal-Al”组合为中国大模型发展提供了一个强大参考,其开创性在于将华为昇腾先进AI芯片技术与潞晨高性能计算相结合,为国内客户提供了全面、高效、可定制的解决方案,形成推动中国大模型技术和产业演进的更大能量。