未来计算基石:Arm终端与AI普及的协同发展

发表时间: 2024-06-24 14:22

AI的风正在从数据中心吹向终端。

作为新质生产力的代表,人工智能已经深刻地改变了人们的工作、学习和生活方式,但如果想要实现真正的AI普惠,还需要克服AI个性化服务、效率、成本及安全性等多方面的挑战。在可预见的未来,混合架构AI势必会成为主流,云端的AI可以用来解决极其复杂的问题,而终端侧的AI则能为广大用户提供更加个性化和智能化的服务。

于是我们也看到,近两年发展迅猛的生成式AI正在成为推动手机、PC发展的关键力量,但更加智能化的本地AI需求也对终端的芯片性能提出了更高的要求。

长久以来持续推动AI和移动计算技术创新与发展的Arm,也在近期举办了2024技术媒体分享日,并分享了于近期推出的面向消费电子设备的全新计算子系统:Arm终端计算子系统,该平台包括最新的Armv9.2 CPU集群、Arm Immortalis GPU、Arm Mali GPU以及CoreLink互连系统IP,并首次在终端领域实现了基于3nm工艺生产就绪的CPU和GPU物理实现。

如同Arm终端事业部智能手机市场高级总监Steve Raphael所说的那样,多年以来,移动设备驱动创新,从生产力到娱乐应用的方方面面都在实现AI集成,新的用例和产品正在推动人与人之间跨越语言障碍进行互动,这无疑预示了未来的发展方向,而Arm正是实现这些的基石。

Arm终端事业部智能手机市场高级总监Steve Raphael

面向消费电子设备的全新计算子系统:Arm终端CSS

Arm终端CSS采用最新Armv9.2 CPU集群,其中集成了Arm目前最高性能的Arm Cortex-X925 CPU、最高效的Cortex-A725 CPU和更新后的Cortex-A520 CPU。这为AI和其他实际用例计算工作负载提供出色的性能和效率。

Arm终端事业部产品管理总监Steve Hopper表示,Arm在2021年推出了专为性能和AI而设计的Armv9架构,并在过去几年中提高了在矢量加速、机器学习(ML)等领域的计算能力;增强系统的安全性和稳健性;更重要的是,增加了面向AI的功能。在去年Armv9.2取得成功的基础上,现在Arm正通过全新的Cortex-XCPU和卓越的全新Arm Immortalis GPU来提供全球领先的高性能,并以效率为核心,终端CSS能够为其合作伙伴生态系统带来所需的性能,并且加速其产品上市进程。

Arm终端事业部产品管理总监Steve Hopper

性能表现方面,新一代超高性能核心Cortex-X925的主频达到了3.6GHz。单线程性能较上一代提高了36%,并且带来了46%的AI性能提升,特别是在AI推理性能方面,Cortex-X925的提升达到了59%,在采用双颗Cortex-X925核心设计的情况下,终端CSS的CPU集群在推理性能上最高可以得到170%的性能提升。

作为效率核心的Cortex-A725表现同样突出,与去年的产品相比,能效提高了25%,同时借助更好的预取器和更大的L2缓存,L3流量也减少了20%。众所周知,LLM对带宽的要求十分之高,在减少对L3和DDR内存压力的前提下,LLM模型可以拥有更高的性能。

此外,Cortex-A520和DSU-120也通过Arm终端CSS进行了全面的更新。与2023 Arm全面计算解决方案(TCS23)中的Cortex-A520相比,得益于更新的实现与先进的三纳米物理实现,新一代Cortex-A520能效提升了15%。DSU-120保留了为高性能用例扩展到14个核心的选项,其典型工作负载的功耗显著降低50%,并且整个CPU集群的缓存未命中功耗降低60%,从而减少漏电并延长设备的电池寿命。

Arm终端事业部高级产品经理Manish Pandey表示,Arm的目标之一是为Arm技术所触及的每个细分市场都提供可信且出色的解决方案,并确保Arm为各类市场和解决方案做好迎接AI的准备。Arm专注于大幅提升AI性能。Cortex-A925实现了一流的IPC,卓越的单线程核心性能;Cortex-A725则能提供出色的持续性能。与此同时,Arm帮助解决实际应用的复杂性和多维度问题,以提升用户体验。总之,这是Arm迄今为止面向AI和UI的性能最强大的CPU集群。

Arm终端事业部高级产品经理Manish Pandey

除了Armv9.2 CPU集群之外,Arm终端CSS中也包括了Immortalis-G925 GPU,作为Arm目前性能最强,效率最高的GPU,Immortalis-G925 GPU与Immortalis-G720相比,在各种图形应用中的性能提高了37%,在AI/ML网络方面的性能提升达到了36%,在提供与2023年参考平台相当的游戏性能的同时,Immortalis-G925GPU能够节省30%的能耗,而在对复杂对象进行光线追踪时,性能提升则高达52%。

安谋科技(Arm China)市场总监王刚表示,终端用户最关心的是实际环境用例和工作负载,也就是日常游戏玩家或用户使用设备带来的工作负载,因此,Arm对Immortalis-G925 GPU设计上的关注点主要集中在实际环境中的游戏性能、AI/ML性能以及与生态系统合作伙伴协作三方面。

安谋科技(Arm China)市场总监王刚

具体到游戏性能方面,主流手游运行在采用Immortalis-G925 GPU的Arm终端CSS参考平台时,性能平均提升达到了46%,其中《原神》的性能提高了49%,《绝地求生手游》的性能提升了36%,《Roblox》的性能提升则达到了46%。

AI性能方面,虽然目前很多的AI应用是可以运行在CPU之上的,但对于图像分割、物体检测这样的负载来说,在GPU上运行往往能得到更好的效果,与去年的全面计算解决方案相比,Immortalis-G925 GPU在图像处理方面的提升达到了41%,在超级采样任务中,使用神经网络放大图像时,性能提升达到了将近30%,而在自然语言处理和语音转文本方面,更是达到了50%的性能提升。

为了让最终用户获得更加卓越的体验,Arm也与Unity这样的生态合作伙伴展开了密切合作,从而更大限度地提升其性能表现。

此外,Arm Mail系列新推出的Mail-G725和Mail-G625则专门面向中高端手机和入门级移动设备,Mail-G725支持在6-9个核心之间扩展,而Mail-G625则支持在1-5个核心之间扩展,为移动设备的处理器设计提供了更多的选择。

Arm Kleidi:助力开发者加速创新

除了硬件平台之外,Arm也面向开发者推出了Arm Kleidi。作为一项广泛的软件和软件社区参与计划,Arm Kleidi推出的初衷就是为了加速AI的创新和发展。其中,Kleidi软件库包含面向AI工作负载的Kleidi AI和面向运行于ArmCPU上出色的计算机视觉工作负载的Kleidi CV。该软件库可以被直接嵌入到热门的AI框架中,开发者无需进行任何操作,就能够轻松地启用Arm CPU的AI功能,从而快速构建AI应用,并在尽可能广泛的设备上实现最出色性能。

安谋科技(Arm China)开发者生态高级经理李陈鲁表示,Kleidi AI是一套面向AI框架开发者的计算内核,开发者可以在各种设备上轻松获得ArmCPU的最佳性能,并支持Neon、SVE2和SME2等关键Arm架构功能。Kleidi AI与PyTorch、Tensorflow、MediaPipe等热门AI框架集成,旨在加速Meta Llama 3、Phi-3等关键模型的性能,并且还可前后兼容,以确保Arm在引入更多技术时依然能适用未来市场的需求。

安谋科技(Arm China)开发者生态高级经理李陈鲁

对于那些需要用到计算机视觉解决方案的开发者而言,Kleidi CV的引入则能带来巨大的性能提升,现如今,计算机视觉与AI紧密相连,真正意义上纯粹的ML影像管线并不存在,即便相关的ML任务是由NPU来运算完成的,大量数据仍需要被在不同的阶段进行封装与转换,以保证这些部分不会成为整体的瓶颈,这也是Arm推出Kleidi CV的重要原因。在今年,Arm还与OpenCV.ai合作,力求让安卓开发者可以更轻松地将OpenCV纳入到他们的项目中,并从Kleidi CV带来的改进中受益。Kleidi AI和Kleidi CV的结合,使得Arm生态的开发者在智能终端上轻松部署AI应用与功能,为AI生态的搭建提供有力支持。

性能分析工具领域,此前Arm推出的用于帮助移动游戏开发者管理并优化性能的免费分析工具Arm Mobile Studio正式更名为Arm Performance Studio,并增加了对Arm Linux的支持。

如今AI已经无处不在,凭借Arm终端CSS平台优秀的性能表现,以及Arm在软件层面构建的丰富开发工具,Arm正在将前沿的CPU和GPU技术、生产就绪的物理实现和持续的软件优化相结合,为未来的AI计算平台构建基石。

(8793830)