文 | 坚白鸣
落地端侧被认为是大模型走向普及的关键。个人PC和智能手机是当前受众最为广泛的两大终端品类。2023年下半年以来,全球范围内各大PC、手机厂商纷纷通过硬件扩容,尝试将大模型在物理意义上融入终端。
直到近期,大模型融入终端真正迎来关键节点。5月,微软发布Copilot + PC, 紧接着6月,苹果发布Apple Intelligence。
系统级玩家着眼于全局的重塑,相比硬件玩家接近单点出击式的改造,显然不可同日而语。大模型落地终端或将迎来新的范式。但大方向趋同之下,微软与苹果在路径上的差异,也预示着演化路径仍将分叉而行。
而与此同时,技术演进正在逐步消解端侧部署大模型的必要性,这又为路径演化注入了更大的不确定性。
5月21日,微软发布Copilot + PC, 重新定义AI PC;而6月11日,苹果发布Apple Intelligence,则试图重新定义AI。发布会上,两大系统级玩家分别展示了一系列AI加持之下的新功能、新产品。虽然同样都是聚焦AI,但各自在产品设计、议程设置上不同的着力点,清晰地体现着两者对于端侧AI落地路径有着截然不同的设想。
微软仍在追求杀手级应用。它全新发布的植根于 Windows 11 操作系统的“Recall”功能,仿佛能让时光倒流。借助于PC本地端大模型的加持,电脑能够“记住”此前进行过的所有操作,然后在用户需要时,简单一句话即可立即召回。
尽管这并不是一种全新的产品概念——类似的回溯功能早已存在,但这确实是一种基于硬件升级的全新尝试。“Recall”功能的的原理是在电脑运行期间,每隔几秒钟捕捉一次屏幕快照,并持续堆积至电脑硬盘,以备用户在以后某个时间根据模糊的记忆找到它们。由于有PC本地端大模型的加持,召回的过程超越了常规精准检索,从而更加便捷高效。
一系列操作的实现,都建立在更为强大的硬件性能基础上上。微软为Copilot + PC设置了硬件门槛,在传统的CPU、GPU之外,还需要配置NPU,且AI算力需要超过40 TOPS,同时内存要达到16G、固态硬盘达到256GB。无论是算力还是内存,都远超市面上绝大多数已有PC产品。
抢先接入OpenAI GPT-4o,让同样根植于Windows 11 操作系统的Copilot具备令人惊艳的“读屏”能力,是微软打造杀手级应用的另一种尝试,尽管这并不属于端侧原生功能。根据现场演示,新款PC中的Copilot能够“看懂”屏幕上正在显示的游戏画面,并可基于自身理解实时提供操作建议,这相当于在电脑中内置了一个永远不厌其烦的游戏专家,而且所能提供的建议是开放式的,远远超出了只有固定剧本的NPC(非玩家控制角色)概念。
与微软形成鲜明对比,苹果则显然没有打造杀手级应用的执念。Apple Intelligence是苹果的AI首秀,它为准备首秀花费的时间最长,但它发布的产品却最为平淡。
Apple Intelligence所提供的一系列功能,比如文本修改校对、归纳总结、图片生成等等,不仅并未超出其它大模型的能力范畴,而且相比安卓友商们已经实现的功能,也并无出彩之处。与微软Copilot一样,新版Siri同样接入了GPT-4o,但在Apple Intelligence的体系中,GPT-4o的地位相当边缘化,仅在遇到复杂问题时,Siri才会经用户同意调用GPT-4o。让功能强悍的GPT-4o扮演可有可无的外挂角色,清晰地表明,苹果并不打算像微软那样倚重OpenAI以打造更具冲击力的功能。
苹果也没有像微软那样将硬件门槛陡然拔高。苹果为Apple Intelligence设定的硬件门槛是A17 Pro(手机端)以及 M 系列芯片(平板和电脑端)。A17 Pro 的 AI 算力为35 TOPS,内存为8 GB,目前仅有iPhone 15 Pro 和 15 Pro Max两款手机配备A17 Pro。M系列芯片以下限M1为例,AI算力约为11TOPS,内存为8GB,近几年发布的iPad及Mac电脑普遍都达标。结合iPhone 15配备A16芯片AI 算力、内存分别为17TOPS、6GB,但不能支持Apple Intelligence,有分析认为苹果为端侧AI设置的门槛,其实仅仅是内存8GB。
在苹果看来,炫技式的单点功能突破以及硬件性能的堆叠,都不是端侧AI的核心。苹果更愿意强调的,是基于现有的硬件条件,将AI融入已有的应用形态。它为此构建了一个略显复杂的三层大模型架构,分别是本地端30亿参数级的小模型、未公布参数量的云端大模型,以及外挂大模型GPT-4o。
虽然据发布会后苹果官方技术博客披露,苹果自研大模型性能相当出色——30亿参数级小模型相比主流几个70亿级模型能力上基本都能胜出、云端模型性能能够达到GPT-4 Turbo级别,但在苹果看来,这些单纯的大模型能力,同样不足以成为发布会的核心看点之一。苹果 CEO 蒂姆·库克(Tim Cook)在发布会上提出了Apple Intelligence的五大开发原则,其中第三条是“整合”(Integrated),意思是AI必须集成到产品体验中。
苹果的“整合”不仅仅停留在自有App,还面向所有第三方App。苹果专门设计了一套全新的框架,并公布了第一批配套的开发工具,包括App Intents API、Image Playground API等,未来第三方开发者可以直接调用Apple Intelligence,将AI功能融入自己的App。
事实上,这同样是微软的选择。微软为其Copilot + PC设置了一个两层的大模型架构,其中本地端与苹果不同,微软选择了多模型方案,Copilot + PC内置的大模型数量多达40个,而云端则直接接入GPT-4o。与发布Copilot + PC同步,微软推出了"Windows Copilot Runtime"工具套件,支持开发者利用Windows内建的这40多个AI模型,催生全新的应用程序体验。
这或许是两大系统级玩家关于大模型落地端侧最为重要的共识之一。微软是全球最大的PC操作系统厂商,市占率高达70%;苹果横跨PC、手机端,软硬一体,是全球最大的闭源操作系统厂商,全球 80 亿人里,有超过 10 亿人使用 iPhone,还有数亿人使用苹果的个人电脑、耳机、手表。
在操作系统层面提供AI基础设施,或许才是更为长远也更为务实的考量。距离2022年11月ChatGPT震撼出世,已经将近20个月,各大科技公司的天量资源投入仍在继续,但大模型的进化速度呈现放缓迹象。以点燃这波生成式AI热潮的大模型文本处理能力为例,OpenAI 在 5月13日推出了最新模型GPT-4o,据官方公布的评测数据,相比此前的GPT-4 Turbo,GPT-4o文本处理能力提升不大,MMLU(本科生水平的知识)得分提升 2.5%,HumanEval(编程能力)提升 3.6%,MGSM(跨语言数学能力)提升 2.3%,而DROP(文本段落分析推理)则下降了 3%。
但与此同时,杀手级应用仍未出现。根据第三方网站SimilarWeb的监测数据,早在去年6月,ChatGPT流量即已见顶,当月其网站与移动客户端的全球流量(PV)环比下降9.7%,独立访客数量(UV)下降了5.7%,访客在网站上花费的时间也下降了8.5%。而国内轰轰烈烈的“百模大战”之后,大模型玩家们已推出数十款AI产品,但表现最好的头部大模型APP日活跃量也仅在百万级别。
在云端大模型尚不足以催生杀手级应用的局面下,要想在受限于硬件短板的端侧构建基于本地大模型能力的杀手级应用,显然更为困难。相比之下,在操作系统层面提供AI基础设施,对于真正推动大模型在端侧落地,或许是更为务实的选择。这不仅能够更有成效地推动大模型技术与现有应用融合,而且也可以建立系统级的AI生态,让杀手级应用自然而然地生长出来。
但从技术演进来看,大模型落地端侧本地的驱动力开始衰减。
一直以来,成本考量及隐私保护,是推动大模型从云端落地终端的两大因素。
云端大模型普遍千亿级的参数,意味着高昂的推理成本。将推理环节下放至终端,则相当于让终端用户平摊成本,其中包括服务器成本和电力成本。
但5月份以来,经过一轮激烈的价格战,大模型调用价格已经大幅下降,甚至部分被打至白菜价。OpenAI新模型GPT-4o的 API价格降至上一版本GPT-4 Turbo的一半,处理100 万 Token的输入仅需5美元,谷歌同样将其主力模型Gemini 1.5 Pro的调用价格打5折,处理 100 万 Token的费用降至3.5美元。
而国内模型的降价幅度更为夸张。字节豆包大模型将处理输入文本的价格定在 0.8 元 / 百万 Tokens,阿里则把对标 GPT-4 的 Qwen-Long API 输入价格降到 0.5 元 / 百万 Tokens,百度更是宣布主力模型文心一言 ERNIE Speed 和 Lite 模型免费使用。
大幅降价背后,除了短期的市场竞争因素之外,技术演进是支撑降价的趋势性力量。在硬件层面,大模型算力的硬通货英伟达GPU的性价比在快速提升。英伟达年初宣称,靠着改进推理框架等方法,一年时就把大模型推理成本减少到了原本的四分之一。今年 3 月,英伟达发布新产品 GB200 ,宣称它能把大模型推理性能再提高 30 倍。在训练及推理层面,技术的优化也带来降本。比如字节在宣布大模型降价时透露,通过调整模型架构、把在单个设备上做推理改成在多个设备上分布式推理,集中处理模型调用任务,可以提升芯片的利用率,从而将成本降低。
伴随大模型推理成本的持续下降,从成本出发要求大模型落地端侧的必要性也将随之减弱。此外,从隐私保护、数据安全出发的必要性,似乎也开始动摇。
对于如何在调用云端大模型的过程中保障用户的数据安全,一向注重用户隐私的苹果,提出了新的解决方案——私有云计算。私有云计算位于Apple Intelligence三层大模型架构中的第二层,介于本地端大模型以及外挂大模型之间,发挥承上启下作用。按照苹果的解释,私密云计算更像是一个加密协议,具体而言,Apple Intelligence在处理AI相关任务时,首先会评估任务是否能够由本地端大模型完成,如果不能,Apple Intelligence则会通过加密的方式打包一个请求,其中包含与任务相关的提示信息以及需要动用的云端模型,与之相应的是,只有要使用的特定 AI 模型才会拥有正确的密钥。而且这些私密性数据“阅后即焚”, 任何传输到云端的个人数据将仅用于手头的人工智能任务,在模型完成请求后,苹果不会保留或访问这些数据,即使是用于调试或质量控制。
苹果的方案是否行之有效并成为一种新的范式,还有待时间检验。但可以肯定的是,微软苹果等端侧系统级玩家的入场,将为大模型的端侧生态带来巨大影响,叠加技术演进开始动摇大模型落地本地端的必要性,端侧AI的实现路径或将迎来重大切换。