钛媒体 App 4月16日消息,Create 2024 百度AI开发者大会在深圳召开。期间,百度集团执行副总裁、百度智能云事业群总裁沈抖正式发布新一代智能计算操作系统——万源。
沈抖表示,“传统的云计算系统依然重要,但不再是主角,我们需要一个全新的操作系统,对新的计算平台,也就是智能计算做好抽象和封装,重新定义人机交互,为开发者提供更简单、更流畅的开发体验。”
万源通过对AI原生时代的智能计算平台进行抽象与封装设计,为用户屏蔽掉云原生系统与异构算力的复杂性,提升AI原生应用开发效率与体验。
沈抖首先回顾了操作系统的发展历史,他提到,80年前,第一代“程序员”手动插拔电缆、转动旋钮,用布线板来操作计算机,难度大、效率低,还容易出错。后来,汇编语言和汇编器出现,开发者可以用一种相对自然的方式告诉机器如何工作,大大提高了开发效率。这种让程序代替人工、让软件管理硬件的方式,就是操作系统的雏形。
但这还远远不够。高级编程语言和编译器随后诞生,计算平台进一步进化,开发者可以用更接近人类的表达方式去开发应用,无需关心底层软硬件的复杂性。大多数的应用可以在不修改任何代码的情况下,在不同硬件上跑起来。与之相对应地,软件越来越复杂,硬件越来越强大,随之升级的是快速迭代的操作系统。
本质上,操作系统就是管理硬件和软件,往下一层层屏蔽底层的复杂性、往上抽象成简单的交互界面。对开发者来说,只需要关注业务本身的逻辑,使用简单的开发语言和工具,开发相应的软件功能。
随着软件规模和复杂度的提高,单台机器已经不能满足需求,集群成为主导。这时候,操作系统管理的对象不再是单台机器和运行在上面的“进程”,而是整个集群和上面运行的各种“微服务”,管理的对象和复杂性有了质的变化。
云计算应运而生,集群管理的复杂性从此被隐去,开发者可以按需扩缩容,灵活响应市场的变化。当大模型出现,情况又发生了新的变化。
“机器和系统第一次不再是人类的提线木偶,而是具备了理解、生成、逻辑、记忆的能力。这将彻底改变人和机器的关系,这其中最重要的一点就是软件开发的范式。 编程不再是少数经过专业训练的程序员的特权,相反,人人都是开发者; 编程不再需要从c/c++学起,而是从自然语言开始; 编程不再是面向过程、面向对象,而是面向需求,以后,编程的过程,就是一个人表达愿望的过程。”沈抖表示。
他认为,大模型会彻底颠覆原有的操作系统。在操作系统的内核中,底层的硬件从以CPU算力为主变成以GPU算力为主,而且第一次增加了硬件和软件以外的资源,也就是被大模型压缩的世界知识。操作系统管理的对象也因此发生了本质的变化,从管理进程、管理微服务,变成了管理智能。
图片系AI生成
AI时代的系统需要能管理万卡规模的集群,需要极致发挥GPU、CPU的性能,需要高速互联。它需要有强大的大模型作为核心引擎,不仅是语言大模型,还有视觉大模型,这些构成了操作系统的内核。
在内核层之上,还需要构建起强大的大模型服务能力,提供全面的模型精调、评估、部署、调用等工具链。还需要有好的应用开发工具去做工作流编排、插件管理,让应用开发像搭积木一样简单。
作为企业服务,安全和运维也必不可少。它还要隐藏掉上一代云原生系统的复杂性。当然,最终,它要能够加速AI原生应用的爆发。
“有一种说法叫软件定义世界,万源就是来帮助人类用自然语言定义软件。”沈抖说道。
具体来看,万源主要由Kernel(内核)、Shell(外壳)、Toolkit(工具)三层构成,首先是内核层,在算力资源管理方面,百度百舸·AI异构计算平台针对大模型训练、推理等任务,对智算集群的设计、调度、容错等环节进行了专项优化。目前,百舸能够实现万卡集群上的模型有效训练时长占比超过98.8%,线性加速比、带宽有效性分别高达95%,算力效能业界领先。
此外,百舸还兼容昆仑芯、昇腾、海光DCU、英伟达、英特尔等国内外主流AI芯片,支持用户以最小代价完成算力适配。相比模型推理,“一云多芯”在模型训练场景中是极难攻坚的难题,主要包含两类细分场景:
1、智算集群中存在多个训练任务,单一厂商芯片只服务单一任务;
2、在每个独立的模型训练任务中同时使用不同厂商芯片。这就需要解决不同厂商芯片算力均匀切分、芯片间通信效率优化等问题,难度极高。
目前,百舸已经实现了单一训练任务下不同厂商芯片的混合训练,且百卡规模性能损失不超过3%,千卡规模性能损失不超过5%,业界领先。最大程度上屏蔽硬件之间差异,帮助用户摆脱单一芯片的依赖,实现更优成本,打造更具弹性的供应链体系。
万源内核中的另一个重要组成部分是大模型。大模型能够将巨量的世界知识进行高效压缩,并将自然语言的理解、生成、逻辑、记忆能力进行封装。目前,万源内核中既包含了业界领先的ERNIE 4.0、ERNIE 3.5大语言模型,也包括ERNIE Speed/Lite/Tiny等轻量级模型、文心视觉大模型和各具特色的第三方大模型,充分满足用户在不同业务场景下的多样化需求。
在内核层之上是Shell层,通过百度智能云千帆ModelBuilder解决内核中模型的管理、调度、二次开发等问题,屏蔽掉模型开发的复杂性,帮助更多人只投入少量的数据、资源和精力,就能快速精调出适合自己业务的模型。同时,在实际应用中,ModelBuidler提供的模型路由服务,能够自动为不同难度的任务选择合适参数规模的模型,给出平衡效果与成本的最优模型组合。经测算,在模型效果基本持平的情况下,模型路由平均降低推理成本多达30%。
在Shell层之上,千帆AppBuilder和AgentBuilder共同构成了工具层,为开发者提供AI原生应用开发能力。尤其是AppBuilder提供的工作流编排功能,支持开发者使用预置的模板和组件,定制自己的业务流程,还能够集成、扩建自己的特色组件,在不同节点上选用适合的模型编排实现业务逻辑。
在AppBuilder上开发AI原生应用的过程中,还可以直接调用通过ModelBuilder精调过的模型,优化开发体验。在应用开发完成后,可以一键发布到百度搜索、微信公众号等平台,也可以通过API或SDK的方式直接集成到用户自己的系统中。
沈抖提到,万源的发布是一个起点。未来,百度智能云将进一步开放操作系统层面的生态合作。向上,开放更多的能力和接口,开发者可以非常简单地开发应用;向左,大家可以用万源做基础、打造适合自己的垂直行业的操作系统;向右,可以把万源直接部署在自己的智算中心,享受稳定、安全、高效的智能计算平台;向下,我们会适配更多的芯片,为开发者进一步隐去异构集群的复杂性,让不同的芯片都能发挥最大的效能。
大模型技术与AI原生应用的结合,正在推动云服务向以AI为核心的新一代智能计算操作系统方向发展,万源是百度智能云的一个答案。
(本文首发钛媒体APP 作者|张帅,欢迎添加作者mr3right爆料、交流)