云原生"引领智算时代,先装备好工具

发表时间: 2024-03-12 09:19

2023 年,随着 ChatGPT 的一炮而红,生成式 AI 暴露在大众的聚光灯下。AI 大模型表现出超强的自然语言理解能力、推理泛化能力和多模态处理能力,给延伸人类能力带来更多可能,其能以更低的成本提供更多个性化服务,满足用户需求,创造更高的业务价值,这将为实现更高维度的商业成功提供重要推动力。AI 大模型带来的颠覆式创新,为经济发展打开了数智化“金矿”的大门。

把握机遇 把准脉搏

日前,国务院国资委召开“AI 赋能产业焕新”中央企业人工智能专题推进会。专题推进会认为,加快推动人工智能发展,是国资央企发挥功能使命,抢抓战略机遇,培育新质生产力,推进高质量发展的必然要求。会议明确,中央企业要把发展人工智能放在全局工作中统筹谋划,深入推进产业焕新,加快布局和发展人工智能产业,把主要资源集中投入到最需要、最有优势的领域,加快建设一批智能算力中心,开展 AI+ 专项行动。

智能算力作为“淘金”必备的“铲子”,是实现“挖掘”的核心生产要素,而智算中心发挥着发动机的作用,为人工智能大模型的研发、实施和运行提供源源不断的动力。在政策、市场的双重驱动下,智算中心应用前景及赋能潜力逐步凸显,成为进一步夯实产业发展基础,开启我国人工智能万亿市场、抢占全球新一轮科技竞争制高点的关键所在。

硬件建设,只是智算中心的组成之一

需求激增 建设维艰

作为数智化时代提供 AI 算力服务的关键基础设施,中国通信协会认为,智算中心是以“高质量网络”为关键支撑,“以数据资源、算法框架、算力资源”为核心能力要素,以“开放平台”为主要赋能载体,能够长期提供公共普惠智能化服务的新型基础设施。显而易见,“离散封闭、计划供给” 的传统软件技术体系和计算模式,已远远无法满足智算中心的建设需求。而生成式 AI 带来的大模型算力风暴席卷速度远超预期,突破高性能算力瓶颈迫在眉睫。

一方面,面对摩尔定律失效导致芯片工艺瓶颈突破难、高端芯片寡头垄断威胁自主发展等挑战,GPU、CPU、FPGA、ASIC 等混合异构的芯片技术架构成为解决算力资源稀缺问题的重要解决方案,但给智算中心的建设带来了异构资源调度与编排的技术挑战,以及高性能算力场景的软硬件融合挑战。另一方面,人工智能技术发展迅速,不断有新的算法和应用场景涌现。这意味着智算中心的建设需要不断进行技术更新和升级,以满足快速变化的人工智能应用需求,这要求智算中心拥有快速迭代的能力和开放的技术体系。

同时,当前在构建算力体系时,往往更加注重硬件资源的汇集,而对算力效率的优化重视不足,导致算力资源利用效率低下,这不仅增加运营成本,还进一步加剧算力短缺的矛盾。此外,在算力跨区域协同发展的背景下,算力资源需要能够跨区域灵活调配,以满足不同地区业务的需求。这都给智能算力中心的建设和运营提出了更高的挑战,面对井喷的、更高要求的算力需求,不仅要建好,更要用好算力基础设施,才能更好迎接数智化新时代的到来。

那么,如何建设一个拥有大规模弹性异构算力、高算力效率、低算力成本、运维方便、能够快速迭代升级的智算中心呢?以云原生为代表的 “聚合开放、弹性供给” 下一代软件技术体系,为解决这一系列挑战带来了解题思路。

时代呼唤 原生进化

在数字化时代,云原生作为一项基础设施软件技术,在帮助企业实现快速的应用开发和部署,提高业务敏捷性和可扩展性,提供更好的资源利用率和弹性伸缩能力,降低企业的 IT 成本和资源消耗等方面的优势,已经得到行业的普遍认可。面对当前阔步而来的数智化时代,云原生也已被 OpenAI、Nvidia 等核心厂商作为其算力调度的关键技术。云原生“吞噬世界”的步伐早已迈入人工智能领域。

在2021年,OpenAI公开发表通过将 Kubernetes 集群扩展到 7500 个节点,为诸如 GPT-3、CLIP 和 DALL-E 这类大型模型建立了一个可扩展的基础设施,同时还支持诸如神经语言模型的缩放等迭代研究。同年,公开报道显示,英伟达积极采用容器和Kubernetes,使云原生开发人员易于访问及使用GPU。Kubernetes和GPU这对组合为AI工作负载提供了无与伦比的规模优势。

2022年,“DaoCloud道客”公司的技术团队在维护Kubernetes上游代码的开源社区中,就与开源项目Ray的团队进行了深入交流。双方共同探讨了数据分析的大规模分布式架构、AI训练的调度优化模型等问题。Ray正是OpenAI驱动ChatGPT所使用的分布式人工智能框架。同时,Google和“DaoCloud 道客”作为核心贡献者的开源项目Kueue,在OpenAI的底层技术架构中被用于计算调度增强,是非常重要的能力模块之一。并且,“DaoCloud 道客”自主开源的大规模集群模拟测试项目KWOK也被OpenAI所采用。

2023年10月DaoCloud举办云原生大模型产业生态大会

当前,“DaoCloud 道客”已经与大型政企、科研机构、运营商等智算中心建设方与运营方相互配合,建设算力枢纽中心,致力为企业提供拥有无限扩展能力、极致灵活性的云原生AI云服务。当前,算力服务范围已辐射长三角、粤港澳大湾区、京津冀等核心经济地带。此外,DaoCloud AI算力平台提供软硬一体的AI智算体验,整合异构算力,优化GPU性能,实现算力资源统一调度和运营,最大化算力效用并降低算力开销,同时还提供优化的AI开发框架,简化AI开发和部署,加速推动各行业的AI应用场景落地。

入选中国信通院《2023大模型落地应用案例集》优秀案例企业

风起于青萍之末,浪成于微澜之间。面对奔涌而来的数智化浪潮,要打好智算中心这张牌,破解算力“偏科”,实现算力融合,底层软硬协同、多元一体化的异构算力架构是智算中心发挥核心能力的关键基础设施。人工智能大模型的大浪已起,智算中心作为重要的算力载体,正在引领新一波的基建浪潮。云原生作为承上启下的算力调度与优化技术,与两大势头的结合,必将触发更多奇妙的浪潮效应。(来源:中国新闻报)