智能AI新时代:Arm终端CSS平台的未来展望

发表时间: 2024-06-18 10:36

AI技术加持下,包括智能手机、PC、可穿戴设备以及数字电视等在内的终端设备,其“智能性”正在被重新定义。 面向全新计算需求,Arm日前推出了终端计算子系统 (CSS),为旗舰系统级芯片(SoC) 提供基础计算要素,包括最新的 Armv9.2 CPU、Arm Immortalis GPU、基于3nm工艺生产就绪的 CPU和GPU 物理实现,以及最新的 CoreLink系统互连和系统内存管理单元 (SMMU)。此外,还有同步推出的 Arm Kleidi 软件库,有助于软件开发者无缝获得Arm CPU的最佳性能,包括面向AI工作负载的KleidiAI 和面向计算机视觉应用的 KleidiCV。

Arm创历史新高的CPU 、GPU 性能和效率提升

据介绍,Arm 终端 CSS 是迄今速度最快的 Arm 计算平台,提升了 30% 以上的计算和图形性能,以应对要求苛刻的实际用例中的安卓工作负载,同时也提高了 59% 的 AI 推理速度,适用于更广泛的 AI/机器学习 (ML) 和计算视觉工作负载。 据Arm 终端事业部产品管理副总裁 James McNiven介绍,Cortex-X925 作为Cortex-X系列的最新 CPU,实现了前所未有的性能飞跃,其IPC(每周期指令数)增幅创历史新高。而这是通过一系列创新的微架构改进和频率优化实现的,在 Geekbench 单线程测试中取得了 36% 的性能提升,显著超越前代产品。

Arm 终端事业部产品管理副总裁 James McNiven

AI 性能方面,Cortex-X925 取得了41%的性能提升,可显著提高大语言模型 (LLM) 等设备端生成式 AI 的响应能力。这主要得益于 Cortex-X925 的微架构演进,包括迄今为止最宽的解码器和矢量处理单元,使得 TOPS性能提升了 50%。

此外,Cortex-X925通过增强的可配置性和更大的私有 L2 缓存,有效提升了指令和数据的处理效率。同时,RTL和物理设计团队针对3nm工艺进行了紧密合作,进一步优化了 CPU 的频率和能效表现。 针对 AI 和手游用例,Arm Cortex-A725 CPU性能效率提高了 35%。这一改进也得益于更新后的 Arm Cortex-A520 CPU 和更新后的 DSU-120,使得采用最新 Armv9 CPU 集群的消费电子设备可提升能效和可扩展性。 CSS平台中还包括最新的Immortalis-G925 GPU,这是 Arm 目前性能最强、效率最高的 GPU,在各款领先的手游应用中实现了 37% 的性能提升,并在多个 AI 和 ML 网络上提升了 34% 的性能。在应用方面,Immortalis-G925 面向旗舰智能手机市场,而包括 Arm Mali-G725 和 Mali-G625 GPU 在内的全新高可扩展性 GPU 系列,面向从高端手机到智能手表、XR 、可穿戴设备等广泛的消费电子设备市场。

针对AI特性的软件优化

为了使开发者能以更高性能快速实现AI应用创新,Arm 推出了Kleidi软件,其中包括面向 AI 工作负载的 KleidiAI 和面向计算机视觉应用的 KleidiCV。 KleidiAI 是一套面向 AI 框架开发者的计算内核,使他们能够在各种设备上轻松获得 Arm CPU 上的最佳性能,并支持 Neon、SVE2 和 SME2 等关键 Arm 架构功能。KleidiAI 与 PyTorch、Tensorflow、MediaPipe 等热门 AI 框架集成,旨在加速 Meta Llama 3、Phi-3 等关键模型的性能,并且还可前后兼容,以确保 Arm 在引入更多技术时依然能适用未来市场的需求。

James McNiven认为,CPU作为核心计算引擎,在驱动未来网络方面发挥着不可替代的作用。Arm致力于将KleidiAI技术集成到多样化的框架中,包括通用框架TensorFlow、PyTorch等,它们能够支持各种设备上任意网络的运行,以及针对特定任务设计的点对点解决方案,例如MediaPipe和Llama 3。他强调,Kleidi不仅确保开发者能够充分利用Arm终端CSS的最新Armv9特性,如可伸缩矢量扩展(SVE),也能确保在现有CPU核心上实现更佳性能,并为未来CPU创新,如可伸缩矩阵扩展(SME)等做好准备。 以Cortex-X925为例,Kleidi在运行最新版的Llama 3和Phi-3时,其速度比参考实现快2.9倍,且能在不到24小时内完成。此外,针对计算机视觉与AI技术日益紧密结合的趋势,Arm还推出了KleidiCV,并通过将其集成到广泛使用的OpenCV库中,实现显著的性能提升。据透露,Arm今年还将与OpenCV.ai合作,简化安卓开发者将OpenCV集成到项目的工作,并使他们能够从KleidiCV的性能改进中受益。 Am 终端 CSS还致力于提高安卓设备用户的性能体验。在Cortex-X925带来30%的性能提升基础上,针对包括Chrome在内的网页浏览器进行了改进,实现了23%的性能提升。这些改进也被中国手机厂商应用于浏览器中。同时,Arm继续与Google合作,推动了安卓动态性能框架的发展,新版本框架实现了高端内容每帧能耗降低25%、帧速率提高35%。

Arm注重系统级设计

谈到半导体工艺演进带来的技术挑战时,James McNiven指出,随着工艺节点的缩小,IP设计面临新挑战,尤其是在性能、功耗和面积(PPA)的优化上。Arm在设计新一代Cortex-X和Immortalis产品时,针对特定工艺节点进行优化,并且与代工厂合作伙伴保持了密切沟通。 此次推出的终端CSS,也是Arm首次在终端领域为CPU和GPU交付物理实现。对此,James McNiven解释,以往大多数IP的交付形式是RTL(寄存器传输级),类似于软件的形式。而从RTL到 芯片还需要很多 EDA 工具的辅助,才能把这套描述转变成实际的芯片布局。当然,所谓的物理实现,并不是指交付物理形态,是指Arm的设计完成了这些工具流,通过优化和工具产出物理交付,可以将整体的设计完整地呈现出来,包括晶体管的布局、线路部署等,从而进一步帮助合作伙伴节省开发时间。 在终端CSS的实现过程中,可以看出“系统级的分析和目标设定方法”贯穿始终。针对不同的用例或测试基准,Arm会确定整体性能目标,并将其分解到各个单一IP上。以游戏《原神》为例,Arm首先从系统层面进行深入分析,然后为GPU、图形性能、CPU等关键组件设定具体的性能提升目标,通过这种方式将游戏机制和计算能力推向极限。 James McNiven强调,每个单一IP的性能提升都是构建终端CSS整体性能的重要基石。通过将前沿的CPU和GPU技术、生产就绪的物理实现和持续的软件优化相结合,Arm 终端 CSS 加之 Kleidi 软件,将为未来 AI计算平台奠定基石。