Intel全新显卡系列:Arc B580与Arc B570震撼登场

发表时间: 2024-12-27 20:10

​​

英特尔发布了 Arc B580 和 B570“Battlemage”GPU,由于前代产品销量惨淡,这次发布新产品的消息鲜有人关注。虽然英特尔表示不会对未来产品发表评论,但预计他们最终将成为 Battlemage 母系列中首批全部是独立 GPU 的子系列产品,专为台式机和移动市场而设计。配备 12GB VRAM 的 Arc B580 售价约1800元,而配备 10GB VRAM 的 B570 售价约1600元。

很久以前就正式存在 Battlemage 这个名字了。另外,有消息指出英特尔计划在未来几年发布的下两个 GPU 系列:Celestial 和 Druid。但这是英特尔首次正式透露规格、价格、功能等信息。大多数细节与最近的泄露一致,但英特尔也给出了一些具体的性能预期。让我们从性能比较开始,因为这是公告中大家最关心的方面。

英特尔对 Arc B580 的发布做了两个重要的比较。首先是它与现有的 Arc A750 相比如何,其次是它与 Nvidia RTX 4060 相比如何。测试是在 1440p 下进行的,因为英特尔表示这是其新 GPU 的目标分辨率。Nvidia 表示 RTX 4060 的目标是 1080p 游戏,尽管我们认为这更多的是关于只为 GPU 配备 8GB VRAM,而不是可用的原始计算。

从自己的 A750 开始,英特尔在 47 款游戏的广泛测试套件中平均显示性能提升了 24%。其中 20 款游戏支持 XeSS,该功能在测试中已启用,但由于这是英特尔自家两代产品之间的较量,因此这应该不会对销量产生重大影响。性能提升范围从 0%(英雄联盟和 DOTA 2 几乎完全受到 CPU 限制)到 Fortnite 的 78%,其中 31 款游戏显示出 18-42% 的提升。

与 RTX 4060 相比,英特尔在同样的 47 款游戏测试套件中表现出 10% 的性能优势,但这次没有启用 XeSS 或 DLSS 升级。可以认为这是一个公平的比较,因为升级算法在工作方式和产生的图像质量上有所不同。RTX 4060 的比较也存在更多的变化,差异从 -17% 到 +43%。其中六款游戏的性能损失轻微到适中,而十款游戏的性能提升超过 20%。

值得注意的是,笔者自己的 GPU 基准测试层次结构将 RTX 4060 置于 Arc A750 14% 之上(在 1440p 超高测试中),而 Arc A770 16GB 则置于 A750 11% 之上。按照这个指标,英特尔的数据与笔者自己的相符。这意味着可以相当肯定地说,B580 的性能将与 RX 7600 XT(比 A750 快 23%)或 2019 年的 Nvidia RTX 2080 Super 大致相当。

早先有传言称 B580 将与 RTX 4060 Ti 匹敌,但实际测试显示该 GPU 比 A750 领先 41%。当然,测试套件确实很重要,目前正在为此次发布和 2025 年的所有 GPU 测试进行改进。相当多的新游戏可能会在 8GB 卡(如基础 4060 Ti)上显示出更大的性能损失。


也许和性能同样重要的是预期价格。笔者已经在前文说了这一点,但现在,有了性能数据,1800元的发布价看起来更加令人印象深刻。这使得 Arc B580 与 AMD 的 RX 7600 8GB 卡直接展开价格竞争,而 Nvidia 没有低于 4060 的当前一代部件——你必须转向上一代 RTX 30 系列,这在当今作为比较点没有多大意义,因为除了 RTX 3050 之外的所有产品实际上都不再有库存了。

但同样,我们必须在这里保持至少一些谨慎。RTX 4060 于 2023 年中期推出,大约 18 个月前。它将于 2025 年中期更换。这是否会发生还有待观察,但击败可以说是最受欢迎的 40 系列中低端 GPU 并不难。这就是我们了解英特尔新款 Arc B580 和 B570 的规格。


Battlemage 的 GPU 时钟频率将更高,B580 最高可达 2670 MHz,B570 最高可达 2500 MHz。不过,与 Alchemist 一样,这些是理论的时钟频率,实际时钟频率可能会更高。例如,Arc A770 的图形时钟频率为 2100 MHz,这是基于运行大量工作负载的保守估计。最大加速时钟频率为 2400 MHz;在实际的测试中,可以看到平均时钟频率为 2330-2370 MHz。

在内存子系统方面,有一些值得注意的变化。B580 将使用 192 位接口和 12GB GDDR6 内存,而 B570 将其降低到 160 位接口和 10GB GDDR6 内存。无论哪种情况,内存都以 19 Gbps 的有效时钟运行。这导致总带宽相对于 A580 和 A750(均为 512 GB/s)略有减少,而 A770 为 560 GB/s。好消息是,这些新的 GPU 都将拥有超过 8GB 的 VRAM,要知道显存已成为不少新游戏的限制因素。

部分能效改进来自于转向台积电的 N5 节点,而不是 Alchemist 上使用的 N6 节点。N5 提供了显着的密度和功率优势,这也反映在总芯片尺寸上。A770 中使用的 ACM-G10 GPU 在 406 平方毫米的芯片中拥有 217 亿个晶体管,而 BMG-G21 在 272 平方毫米的芯片中拥有 196 亿个晶体管。Battlemage 的总密度为 72.1 MT/平方毫米,而 Alchemist 的总密度为 53.4 MT/平方毫米。

了解了核心规格后,让我们深入了解各种架构升级。首款 Arc GPU 标志着英特尔在缺席二十多年后重返专用 GPU 领域,而搭载 Xe Graphics 的英特尔 DG1 则作为限量版先驱,为英特尔铺平了道路。英特尔长期以来一直占据显卡市场主要份额,但制作集显和独显是两件不同的事情,看看上一代 ARC GPU 惨淡的市场表现就知道。

Intel Arc Alchemist 是首次真正尝试将基础架构扩展到更高的功率和性能。这带来了许多成长的烦恼,无论是在硬件方面,还是在软件和驱动程序方面。Battlemage 吸收了英特尔从上一代学到的所有经验,并进行了改进,从而显著提高了某些方面的性能。英特尔的图形团队着手提高 GPU 核心利用率,改善工作负载分配,并降低软件开销。

上图概述了所有变化。英特尔增加了对 Execute Indirect 的本机支持,显著提高了某些任务的性能。因特尔之前已经提到了从 SIMD32 到 SIMD16 ALU(算术逻辑单元)的变化。与 Alchemist 相比,每个渲染切片的顶点和网格着色性能提高了三倍,并且在 Z/stencil 缓存、更早的图元剔除和纹理采样方面也有其他改进。

光线追踪单元也得到了一些重大升级,现在每个单元都有三个追踪管道,能够每周期计算 18 个盒子交点和两个三角形交点。作为参考,Alchemist 有两个 BVH 追踪管道,每周期可以计算 12 个盒子交点和 1 个三角形交点。这意味着每个 Battlemage RT 单元的光线追踪性能在盒子交点上提高了 50%,光线三角形交点的数量增加了一倍。Battlemage 中还有一个 16KB 专用的 BVH 缓存,是 Alchemist 中 BVH 缓存的两倍。

Battlemage 还更新了内存子系统的缓存层次结构。每个 Xe-core 都带有一个共享的 256KB L1/SLM 缓存,比 Alchemist 的 192KB 共享 L1/SLM 大 33%。L2 缓存也会增加,但增加的程度因所选的比较点而异。BMG-G21 的 L2 缓存高达 18MB,而 ACM-G10 的 L2 缓存高达 16MB。然而,A580 将其削减至 8MB,并且可能任何未来的 GPU(如 B770/B750 的 BMG-G20)都会增加 L2 缓存的数量。这对有效内存带宽意味着什么还有待观察。

大多数支持的数字格式与 Alchemist 相同,支持 INT8、INT4、FP16 和 BF16。Battlemage 的新功能是原生 INT2 和 TF32 支持。对于非常小的整数,INT2 可以再次使吞吐量翻倍,而 TF32(张量浮点 32)似乎提供了比 FP16 和 BF16 更好的精度选择。它使用 19 位格式,指数为 8 位,尾数为 10 位(数字的小数部分)。最终结果是,它具有与 FP32 相同的动态范围,但精度较低,但它在 XMX 核心(不支持 FP32)上的运行速度是 BF16/FP16 的一半。TF32 已被证明对某些 AI 工作负载有效。


Battlemage 现在支持 3 路指令共同发布,因此它可以在每个周期独立发布一个浮点、一个整数/扩展数学和一个 XMX 指令。Alchemist 也支持指令共同发布,似乎也有相同的 3 路共同发布,但在我们的简报中,英特尔表示 Battlemage 在这方面更强大。

完整的 BMG-G21 设计有五个渲染切片,每个都有四个 Xe 核心。这提供了 160 个矢量和 XMX 引擎以及 20 个光线追踪单元和纹理采样器。它还有 10 个像素后端,每个后端能够处理八个渲染输出。有传言称,英特尔也在开发更大的 BMG-G10 GPU,这将扩大渲染切片的数量和内存接口。它会像 Alchemist 一样达到 8 个渲染切片和 32 个 Xe 核心吗?这完全是可能的,尽管目前还没有关于其他 Battlemage GPU 的官方消息。

除了核心硬件之外,英特尔还对其 XeSS 升级技术有很多话要说。英特尔现在将为 XeSS 添加帧生成和低延迟技术,这并不令人意外。它将所有这些都归入 XeSS 2 品牌,并设有 XeSS-FG、XeSS-LL 和 XeSS-SR 子品牌(分别代表帧生成、低延迟和超分辨率)。

XeSS 继续遵循与 Nvidia 的 DLSS 类似的路径,但也存在一些显着差异。首先,XeSS-SR 通过 DP4a 指令(基本上是优化的 INT8 着色器)支持非英特尔 GPU。但是,XeSS 在 DP4a 模式下的功能与在 XMX 模式下的功能不同,XMX 需要 Arc GPU——基本上是 Alchemist、Lunar Lake 或 Battlemage。

XeSS-FG 帧生成在两个已经渲染的帧之间插入中间帧,方式与 DLSS 3 和 FSR 3 帧生成插值相同。但是,Nvidia 需要 RTX 40 系列及其较新的 OFA(光流加速器)来进行帧生成,而英特尔通过其 XMX 核心进行所有必要的光流重新投影。它还进行运动矢量重新投影,然后使用另一个 AI 网络将两者融合以获得“最佳”输出。


XeSS 继续遵循与 Nvidia 的 DLSS 类似的路径,但也存在一些显着差异。首先,XeSS-SR 通过 DP4a 指令(基本上是优化的 INT8 着色器)支持非英特尔 GPU。但是,XeSS 在 DP4a 模式下的功能与在 XMX 模式下的功能不同,XMX 需要 Arc GPU——基本上是 Alchemist、Lunar Lake 或 Battlemage。

XeSS-FG 帧生成在两个已经渲染的帧之间插入中间帧,方式与 DLSS 3 和 FSR 3 帧生成插值相同。但是,Nvidia 需要 RTX 40 系列及其较新的 OFA(光流加速器)来进行帧生成,而英特尔通过其 XMX 核心进行所有必要的光流重新投影。它还进行运动矢量重新投影,然后使用另一个 AI 网络将两者融合以获得“最佳”输出。


XeSS-LL 可与 framegen 配对,将有助于减少 framegen 插值造成的额外延迟。简而言之,它将某些工作移到额外的游戏逻辑计算之前,以减少用户输入和该输入反映在显示器上之间的延迟。原则上,它大致相当于 Nvidia 的 Reflex 和 AMD 的 Anti-Lag 2,尽管确切的实方法现不一定相同。

就像带有 Reflex 的 DLSS 3 和带有 Anti-Lag 2 的 FSR 3 一样,英特尔表示,使用运行 SR、FG 和 LL 的 XeSS 2 可以获得与标准 XeSS-SR 相同的延迟。它举了一个使用 F1 24 的例子,其中原生渲染的基本延迟为 57 毫秒,使用 XeSS-LL 下降到 32 毫秒。打开 XeSS-SR 升级会将延迟降低到 28 毫秒,而 SR 加 LL 导致延迟为 19 毫秒。最后,XeSS SR + FG + LL 的延迟与仅执行 SR 相同,均为 28ms,但 fps 为 152 fps,而不是 93 fps。因此,玩家可能会获得相同级别的响应能力,但帧速率更高(更流畅)。

自 2022 年首次推出以来,XeSS 就得到了游戏开发商的广泛采用。现在有超过 150 款游戏支持某些版本的 XeSS 1。但是,与 FSR 3 和 DLSS 3 一样,如果开发人员想要添加帧生成和低延迟支持,他们将需要转向 XeSS 2。一些已经支持 XeSS 的现有游戏几乎肯定会升级,而且英特尔还列出了未来几个月将拥有 XeSS 2 的八款游戏——未来还会有更多游戏。

遗憾的是,玩家不能通过交换 GPU 在支持 XeSS 1的游戏中获得 XeSS 2,因为 XeSS 2 还有其他游戏不支持的要求。但实际结果应该会像在 FSR 3 和 DLSS 3 中看到的那样,模组制作大佬们通过发挥创造力来破解支持。

英特尔还花了一些时间谈论其更新的 XMX 引擎、AI 总体情况、其他软件更改以及超频。本文不会过多地介绍这些内容,因为其中大部分内容已在英特尔发布会上进行了解释,对 AI 感兴趣的人应该已经熟悉这个快速发展的领域正在发生的事情。

英特尔确实展示了一件事,即通过多个文本生成模型,它在每秒字符输出数量方面获得了更好的 LLM 性能。根据模型,英特尔表示 Arc B580 的 AI 性能比 RTX 4060 高出约 40-50%。这是在追逐一个相当容易实现的目标,因为 RTX 4060 并不是真正的 AI 强者,尽管至少 Battlemage 应该在 AI 领域超越 AMD 的 RDNA 3 产品。

在软件方面,英特尔将为其驱动程序添加一些新设置,用于显示器、3D 图形配置文件(每个游戏/应用程序)和超频。可以从超频信息中看到一个有趣的信息,那就是游戏时的典型加速时钟看起来大约为 2800 MHz,因此比官方图形时钟高约 150 MHz。但即使这样,有时也会受到功率限制,超频控制将允许应用时钟偏移、更高的功率限制和更高的电压。

仅将时钟偏移增加 200 MHz 会导致时钟比原厂高出约 125 MHz。将功率限制提高到 120% 会产生额外的约 125 MHz。最后,在时钟偏移和功率限制的同时增加电压会导致平均 GPU 时钟在 3150 MHz 范围内。当然,与任何超频一样,稳定性和结果都无法保证,如果过度使用可能会使玩家的保修失效。

总而言之,我们有英特尔自己的 Arc B580 限量版显卡。与 Alchemist A750/A770 设计相比,它有一些明显的变化,特别是后风扇吹的风可以顺利地通过散热器的散热片。在最近的 AMD 和 Nvidia GPU 上也有类似的设计,它有助于降低温度,同时降低噪音水平。

虽然英特尔将生产 Arc B580 显卡,但不会生产 B570 型号。所有 B570 卡都将来自英特尔的 AIC(附加卡)合作伙伴。该领域有几个新名字。宏碁、华硕、Gunnir、Sparkle 已经创建了 Arc Alchemist GPU,现在 Maxsun 和 Onix 也将加入 Arc 阵营。这一切都说明ARC虽然现状堪忧,但未来可期。

以前,在 250 美元的显卡上配备 12GB VRAM 并不是一个真正的选择,至少在全新硬件上不是。AMD 的 RX 6700 XT/6750 XT 最低价格在 300 美元左右,而 Nvidia 的 RTX 3060 12GB 也大多保持在 300 美元以上。Arc B580 的性能应该可以轻松击败 Nvidia 的旧款 3060,尽管它看起来通常会比 RTX 4060 Ti 差——但同样,价格要低得多。

总体而言,包括光线追踪和光栅化游戏,B580 应该会给 GPU 领域带来一些急需的竞争。大约十天后再回来查看我们的完整评论。完整的英特尔幻灯片在下面,供那些想查看我们可能忽略的更多细节的人使用。