探索AI原生时代:云上理想操作系统的构想

发表时间: 2024-04-17 19:24

文 | kiki

在全世界都为大模型和AI兴奋与疯狂的当下,一场关于中间层的隐秘战争却在悄悄打响。

微软已将OpenAI的大模型技术和自身AI能力加速整合进Windows系统和Microsoft Azure中。在推出多种AI功能集成的Android 14后,谷歌又在近日发布Android 15 beta版。另一边的造车失败的苹果也被曝出iOS 18将推出首批AI功能。

一个AI原生时代的操作系统应该长什么样?全球科技巨头们都开始围绕这一问题给出自己的答案。

纵观科技史的发展,软硬件相互协同是核心主线。而被称为“软件之魂”的操作系统,向上连接开发者,为其提供接口与环境,向下连接底层软硬件资源,始终发挥基石作用,因此其创新与迭代也一直都备受关注。

但摆在各大科技公司面前的是一道“既要又要”的全新OS难题:一方面,面向开发者,如何将自身的底层技术能力进行抽象与封装,提升开发者的开发效率;另一方面,面向行业和产业,又如何进一步让全新OS发布基石作用,激活产业生态,让大模型真正落地千行百业?

1、AI原生时代,所有操作系统都值得用AI重做一遍

早在2017年,“Android之父”安迪·鲁宾就曾放出预言:“AI是下一个重要操作系统。”

从PC年代到移动互联网时代再到以大模型技术为引领的AI原生时代,类似的预言并不在少数。百度集团执行副总裁、百度智能云事业群总裁沈抖也有类似的观点:“我们需要一个全新的操作系统,对新的计算平台,也就是智能计算,做好抽象和封装,重新定义人机交互,为开发者提供更简单、更流畅的开发体验。”

换句话说,当下,在AI原生时代,所有的操作系统都值得用AI重做一遍。

这并非是“科技暴论”,背后的原因有三点:

一是人机交互的方式变了,未来人人都是开发者。操作系统与编程语言紧密联系,如Unix系统与C语言的相互成就。但在大模型时代,变成不需要从C语言学起,而只需要从自然语言开始,编程不再是面向过程、面向对象,而是直接面向一个人的个性化需求。在软件开发范式的变革下,操作系统当然也需要变得更懂人心。

二是操作系统的“内核层”变得更加复杂。如果将操作系统比作飞机,“内核”就是发动机。在过去“发动机”的底层硬件主要以CPU通用算力为主,但在AI浪潮下,逐步转变为GPU主导的智能算力,同时在软硬件外,“发动机”还多了一项新资源——大模型压缩世界知识。资源越发复杂下,自然需要操作系统新的内核创新。

三是大模型技术的加速进化也在呼吁操作系统自身的迭代。

从操作软件发展历史来看,Unix系统的出现是因为通用计算机,Winodws的出现则是因为VGA图像显示卡,Android/iOS的出现则是因为智能手机,硬件技术的发展是操作系统技术更新换代的根本原因。

但如今,大模型浪潮下,开发门槛的降低,利用大模型不需要写代码完成软件的开发已不再是“童话故事”,未来随着AI原生应用的爆发,“软件定义一切”步伐加速,人们站在软件创新引领硬件创新的一个时代性的拐点上,行业也在见证和呼唤作为“软件之魂”的操作系统自身的快速迭代。

新的时代变化、新的编程交互、新的内核变化,无疑呼唤全新的操作系统。作为大模型训练和推理的基础设施,最先受益这股浪潮的云厂商们也在争抢这张船票。不久前的2024百度CreateAI开发者大会上,百度智能云也发布了全新一代智能计算操作系统——“万源”,掀起了AI原生时代的OS新革命。

2、智能时代的OS,万源有“两变”

但操作系统的研发从来不是一场简单的游戏。

AI原生时代,对操作系统的创新,其难度不亚于是一次重构,对云厂商而言,其最大挑战往往集中在两个方面:

一是相较于传统云计算,算力资源正在从以CPU为主走向以GPU为主,操作系统需要超大规模的异构算力集群上部署与管理大模型或AI原生应用,如何更好地屏蔽底层云原生系统与异构算力的复杂性,保证操作和运行环境的安全性、灵活性和稳定性,这是一大挑战。

二是对开发者而言,特别在大模型时代,如何降低模型调用的成本,提升开发体验,真正实现“模型灵活调用-应用极简开发”的正向飞轮,这无疑考验技术厂商们的综合实力。

并非所有云厂商都具备掀起变革的能力,变革者必须具备两个基础条件:第一,在“AI+云”有足够深的沉淀。二是,是大模型时代头部阵营的玩家。

百度智能云符合上述两大条件,一方面,百度是国内最早落地大模型技术科技企业,另一方面,区别与其他云厂商,“AI原生云”也是百度智能云的差异化优势。

在此土壤上诞生的“万源”是如何破局的?

“万源”所做的第一个改变,就是让系统内核这一“发动机”由重变轻,将模型和算力资源发挥到极致。

“万源”内核包含算力和模型两部分,其中在模型侧充分发挥百度“模型超级工厂”的能力。“万源”既包括了百度强大的基础模型ERNIE 4.0和ERNIE 3.5,还有轻量级模型ERNIE Speed、Lite、Tiny等,除此以外,还提供了文心视觉大模型和各具特色的第三方大模型。丰富的模型,可满足用户在不同业务场景下多元化的模型需求。

而在算力层,高效算力不是堆卡堆出来的,尽管如今业内动辄千卡、万卡集群训练大模型,但也存在着大量的算力浪费。比如,OpenAI训练GPT-4在大约25000个A100上训练了90到100天,利用率也仅仅在30%左右。

在算力利用率方面,百度百舸AI异构计算平台交出了一份领先行业的答卷。目前,百舸在万卡集群上提供有效训练时长达到98%,带宽有效利用率达到了95%。

除此以外,在芯片供应充满不确定性的特殊背景下,“万源”还做到了“一云多芯”。

想要实现“一云多芯”并不容易,特别是在模型训练环节,“一云多芯”是极难攻克的问题,对云厂商的技术能力、工程化能力、生态能力等提出了很高的要求。一位业内人士称:“云OS对于不同芯片、芯片架构和应用软件的兼容,是一个庞大的全生态的工程。”

有业内人士告诉「硅基研究室」,在模型训练上,“一云多芯”的部署和落地难点主要体现在两个细分场景上:一是,在智算集群中,往往存在多个训练任务,但单一厂商芯片只服务单一任务,实现异构资源的统一调度和互联互通,难度很大。二是,在每个独立的模型训练任务中,如果想要同时使用不同厂商的芯片,这就需要解决各家厂商芯片算力均匀切分、芯片间通信效率优化等问题。

凭借在“一云多芯”的多年投入,目前百舸不仅兼容了昆仑芯、昇腾、海光DCU、英伟达、英特尔等国内外主流AI芯片,还实现了单一训练任务下不同厂商芯片的混合训练。而在备受关注的资源效率利用上,百舸也领先行业,百卡规模性能损失不超过3%,千卡规模性能损失不超过5%。

不难看出,“一云多芯”将是未来成为云厂商的核心能力,一方面帮助用户减少了对单一芯片的依赖,能为用户在复杂应用场景及业务需求下,提供更精准的算力供给,节约成本。另一方面,“一云多芯”其实最大程度降低了用户在算力选择上的风险,这本质上也是提升了业务的稳定性与灵活性。

在此基础上,万源所做的第二个改变,就是面向广大开发者,让应用开发由复杂到简单。AWS CTO Werner Volgels曾提过一个有趣的观点:“All The Code You Ever Write Will Be Business Logic(你编写的所有代码都将是业务逻辑)”。

某种程度上,这其实揭示了操作系统未来发展的一个方向——所有的操作系统都应是以人为本的,开发者他们只需要关心业务逻辑,不用关心基础设施,也不用关心开发工具链。

将复杂留给自己,将更优的体验留给开发者,万源的Shell层的百度智能云千帆 ModelBuilder和工具层的千帆AppBuilder和AgentBuilder正延续了这一底层逻辑。

Shell层中的千帆ModelBuilder可屏蔽模型开发的复杂性,更多的人可以低成本、高效能的方式快速精调出适合自己业务的模型。ModelBuilder同样关注实际应用中的“效价比”,以ModelBuidler提供的模型路由服务为例,能自动为不同难度的任务选择合适参数规模的模型,在模型效果基本持平的情况下,模型路由平均降低推理成本多达30%。

在工具层,AppBuilder和AgentBuilder是开发者开发 AI 原生应用的两大利器,前者面向App快速开发,后者则是贴近普通人生活场景的智能体开发工具

以AppBuilder为例,最快只需三步,开发者不需输入代码,就可以用自然语言开发出一个AI原生应用,而且能够便捷地发布,直接集成到自己的系统和业务环境中,真正做到极速开发、轻松上市。

3、生态之战,应用优先

生态,是操作系统最重要的竞争要素。

纵观全球操作系统巨头,无不是依靠“生态之战”构建,发挥协同优势,无论是产业上下游间的联合,如Windows和Intel的绑定,还是软硬件的协同,如iOS 和 iphone 的绑定, 抑或是选择开源战略吸引用户,如Android 和 Redhat。

用最直接的话来说,AI原生时代,操作系统做得再好,如果不能落地具体应用,没有生态伙伴和开发者的支持,用不起来,也就发展不起来。

百度是国内大模型玩家中对“应用落地”最重视的企业,百度创始人李彦宏曾多次强调,大模型本身并不直接创造价值,基于大模型开发出来的AI应用才能满足真实的市场需求。

百度智能云无疑也是最关注企业和行业大模型落地场景和应用效果的云厂商之一。沈抖曾明确表示:“大模型时代,真正给企业带来价值的,是使用大模型的深度和打磨AI原生应用的速度。”

强调应用落地,让大模型用起来,生态成了不可忽视的一环。

百度智能云的解法是,携手行业头部伙伴,探索大模型应用的新范式。

百度智能云就和荣耀在MagicOS上做了一次“端云协同”的新尝试。在AI大模型的浪潮下,手机已成为AI落地的主要战场之一。但如何既能准确理解、分析用户的复杂任务需求,同时又提供高效灵活的用户体验?

荣耀和百度智能云的“端云协同”提供了答案。

在云侧,百度文心大模型为荣耀YOYO助理打造更专业的用户服务,带来本地化的文本创作、知识问答、生活建议等。同时,云上的“文心大模型”与荣耀平台级端侧AI大模型“魔法大模型”的能力互补,端侧大模型负责理解用户意图,将需求转化成更专业的提示词,再由更强大的云端大模型给出更深入和更全面的解答。同时,在隐私保护上,“端云协同”下,端侧大模型也可以做本地化防护,确保个人隐私不上云。

举个例子,比如,当用户在手机上提出“帮我制定健康计划”这一需求时,荣耀“魔法大模型”会先分析用户健康信息,自动生成具象化提示词,再调度云端百度文心大模型的能力,为用户生成更全面的个人定制健身计划。

不止是与荣耀的强强联合。截至2024年3月,百度智能云千帆大模型近6个月的合作伙伴数量增长超过500%,朋友圈不断扩容,智能时代的云平台生态正在快速发展,产业价值也正在加速显现。

从这一点来看,百度智能云发布“万源”并非是偶然,而是智能时代下云厂商迭代自身的必然。

在百度智能云的设想中,“万源”未来将释放更大的潜能。向上通过开发更多的能力和接口,连接赋能更多的开发者;向左,企业行业可以用“万源”为基础,打造垂直行业的操作系统;向右,“万源”也可部署在企业自己的智算中心里,提供稳定、安全、高效的智能计算环境;向下,则将适配更多的芯片,为开发者隐去异构集群的复杂性,让不同的芯片发挥最大的效能。

云计算行业发展至今,中国云厂商从卷价格、卷产品到卷服务,究竟还有没有新创新?这是一个时常会被问的问题。百度智能云“万源”从一个新角度回答了这一问题:一个新的时代,需要一个新的操作系统,一个新的技术体系,也唯有如此,才能为行业带来新可能与新想象。