揭秘集成芯片与芯粒技术白皮书背后的秘密

发表时间: 2024-11-08 17:26

集成芯片技术对于集成电路产业具有更加重要意义。由于我国在集成电路产业的一些先进装备、材料、EDA 以及成套工艺等方面被限制,导致我国短期内难以持续发展尺寸微缩的技术路线。集成芯片技术提供了一条利用自主集成电路工艺研制跨越 1-2 个工艺节点性能的高端芯片技术路线。同时,我国集成电路产业具有庞大市场规模优势,基于现有工艺制程发展集成芯片技术可以满足中短期的基本需求,并可借助大规模的市场需求刺激集成芯片技术的快速进步,走出我国集 成电路产业发展特色,并带动尺寸微缩路径和新原理器件路径的共同发展。

一、集成芯片与芯粒的定义

集成芯片(Integrated Chips)是指先将晶体管集成制造为特定功能的芯粒(Chiplet),再按照应用需求将芯粒通过半导体技术集成制造为芯片。其中,芯粒(Chiplet)是指预先制造好、具有特定功能、可组合集成的晶片(Die), 也有称为“小芯片”,其功能可包括通用处理器、存储器、图形处理器、加密引擎、网络接口等。

硅基板(Silicon Interposer),是指在集成芯片中位于芯粒和封装基板(Substrate)之间连接多个芯粒且基于硅工艺制造的载体,也有称为“硅转接板”、“中介层”。硅基板通常包含多层、高密度互连线网络、硅通孔 (Through Silicon Via, TSV) 和微凸点 (Micro Bump)保证了电源、数据信号在芯粒之间和封装内外的传输,而且可以集成电容、电感等无源元件和晶体管等有源电路。

集成芯片与芯粒的定义

集成芯片设计对比传统的集成电路单芯片设计可实现如下突破 :

1、可实现更大的芯片尺寸,突破目前的制造面积局限,推动芯片集成度和算力持续提升。

2、通过引入半导体制造工艺技术,突破传统封装的互连带宽、封装瓶颈

3、通过芯粒级 的 IP 复用 / 芯粒预制组合,突破规模爆炸下的设计周期制约,实现芯片的敏捷设计。

集成芯片还能获得成本上的收益:

1、传统的单一芯片制造尺寸越大,制造过程中的缺陷率和成本越高。而芯粒技术允许将一个大尺寸的芯片拆分为多个小尺寸的芯粒,每个芯粒独立进行制造。由于芯粒尺寸相对较小,可以更好地控制制造过程,减少制造缺陷率和成本

2、不同芯粒可用不同的工艺制程完成,突破单一工艺的局限。

例如,可以将传统的电子芯片与光电子器 件集成在同一芯片上,实现光电混合芯片。这种光电混合芯片结合了电子和光子的优势,可以在高速数据传输、光通信、光计算等领域发挥重要作用。上述技术也能够实现更多种类的新型芯片。例如, 集成传感器、处理器、无线通信模块和人工智能加速器等多种功能,可以构建出具备感知 - 存储 - 计算 - 通信 - 控制一体的智能芯片。

集成芯片是自上而下的构造设计方法,芯粒的功能是由应用分解得到的,而不是基于现有模组、通过堆叠设计方法实现性能和功能的扩展。集成芯片基于半导体制造技术实现集成,无论连接和延迟,都接近于芯片而不是 PCB 或者有机基板,因此最早做集成芯片工作的是台积电等芯片制造厂商。另外,我国科学家也提出了晶上系统集成系统等概念,在技术理念上与集成芯片有很多类似之处,相比而言,集成芯片更侧重于综合性和面向芯片形态。

二、集成芯片是集成电路性能提升的第三条路径

从技术上看,目前主要有三条提升芯片性能的发展路径,三条技术路径从不同维度共同推动集成电路的发展。

提升芯片性能的三条路径

第一条路径,是通过将晶体管的尺寸不断微缩实现集成密度和性能的指数式提升,也被称为遵循“摩尔定律”的发展路径。集成电路的晶体管数目大约每18-24个月增加一倍。 摩尔定律、登纳德缩放定律、以及同时期的体系架构创新,包括指令级并行、多核架构等,共同推动了芯片性能随工艺尺寸微缩的指数式提升。

随着集成电路工艺进入 5nm 以下,尺寸微缩接近物理极限,单纯依靠缩小晶体管尺寸提高芯片 性能的空间变小,同时带来了成本与复杂度的快速提高。芯片散热能力、传输带宽、制造良率等多种因素共同影响,形成了芯片功耗墙、存储墙、面积墙等瓶颈,限制了单颗芯片的性能提升。可以说, 摩尔定律的放缓已成为国际和我国集成电路发展的重大挑战。

提升芯片性能的第一条路径 : 摩尔定律

第二条路径,是通过发展新原理器件,研发新材料,实现单个晶体管器件的性能提升。随着铁电 存储器 FeRAM、阻变存储器 RRAM、磁存储器 MRAM、相变存储器 PCM、铁电晶体管 FeFET 等 多种新原理器件的发展,结合宽禁带半导体、二维材料、碳纳米管等新材料的研究,探索超越传统 CMOS 器件性能 / 能效的新型器件和突破冯诺依曼架构的新型计算范式成为一个重要的研究领域。然而,新原理器件是面向未来的芯片性能提升发展路径,从科学研究到实际应用的周期通常较长,难以在短时间内解决当前高性能集成电路芯片受限的挑战。

提升芯片性能的第二条路径 : 新原理器件

第三条路径,集成芯片。芯片的性能主要取决于芯片集成的晶体管规模,而晶体管规模又取决于芯片制造面积。集成芯片路径能够有效突破芯片制造的面积墙瓶颈。芯片的“面积墙”,是指单颗芯片的制造面积受限于光刻机可处理的极限尺寸和良率。一方面,最先进的高性能芯片(如 NVIDIA H100GPU 等)面积正在接近光刻面积极限。 同时,单芯片良率随面积增长快速下降,在高成本的先进工艺下,该问题更加具有挑战性。

集成芯片能够通过多颗芯粒与基板的 2.5D/3D 集成,突破单芯片光刻面积的限制和成品率随面积下降的问题, 成为进一步提升芯片性能的可行路径。另外一方面,集成芯片技术是一条不单纯依赖尺寸微缩路线提升芯片性能的重要途径,在短期内难以突破自主EUV光刻机和先进节点制造工艺的情况下,可以提供一条利用自主低世代集成电路工艺实现跨越 1-2 个工艺节点的高端芯片性能的技术路线。

三条路径分别从不同的维度提升芯片性能,并能够相辅相成。集成芯片能够根据应用的性能、功耗、成本等需求进行合理的功能划分,最优化各个芯粒的工艺节点。尺寸微缩路径为集成芯片中单个芯粒的性能提升和芯粒间互连带宽的提升提供了一个重要的设计维度;在制造工艺较为成熟之后,基于新原理器件的特定功能芯粒也可以引入到集成芯片中,为进一步的性能和功能提升提供发展驱动力。

三、集成芯片将引导集成电路设计的新范式

集成芯片采用系统工程学的原理,发展自上而下构造法的集成电路设计新范式。芯片结构适配应用特征,自上而下采用“分解 - 组合 - 集成” 的方法。根据应用特征,抽象分解成若干标准的芯粒预制件,将众多芯粒预制件,按照结构组合成不同应用领域的芯片,将芯片制造分解为芯粒预制件的制造和多芯粒集成。

下例展示了处理器芯片采用集成芯片范式后的新流程:

自上而下的“分解 - 组合 - 集成”设计范式在处理器芯片上的示例

现有的物端芯片的设计方法,是将大量第三方 IP 与专有 IP 整合形成 SoC,并在采用同一个制程工艺进行制造。 典型的 IP 包括 CPU、模拟传感器、存储器、加速器、接口驱动等。

集成芯片:除了具有核心优势的专用“芯粒”外,集成芯片设计厂商可以选择第三方的“芯粒” 预制件形式提供的 IP,通过半导体集成工艺将芯粒在一个封装体内相连接。上述方案能够降低芯片设计难度,提升灵活性和效率,适应各种碎片化应用场景

商业上,上述方案仅对芯粒预制件的出货量提出需求,如 CPU,蓝牙 /Wifi 模组等核心模块,可以大大降低商业成本,并规避单一芯片厂商可能造成的垄断风险。集成芯片为碎片化的万物智能、万物互连的人机物三元融合时代提供一种新的设计范式。

集成芯片设计新范式

四、集成芯片的现状和趋势

最早的集成芯片原型是由台积电与美国赛灵思(Xilinx)公司共同完成的一款大容量 FPGA 芯片 V7200T,它将四个大规模的 FPGA 芯粒在一块硅基板(Interposer)上连接在一起,形成一个超过 2000 个可编程逻辑门的系统。借助这一芯片的开发,台积电也完成了基于半导体工艺的芯片互连封 装技术,称为 Chip-on-Wafer-on-Substrate(CoWoS)。目前这一技术作为 2.5D 集成芯片的代表性工艺,广泛的应用于高性能处理器芯片产品中。

第一个采用 CoWoS 技术的处理器集成芯片是英伟 达公司的 GP100 GPU 芯片,它的结构是通过 CoWoS 工艺将 GPU 芯粒和多个 HBM 芯粒在一个封装体内集成,最大化处理器与存储之间的通信带宽,硅基板尺寸超过 1 个光罩(858mm2)。我国华为海思公司设计的昇腾 910 芯片,也是基于这一技术将 3 种、6 个芯粒的集成,实现了高算力的人工智能处理器。

集成芯片朝向更多数量和种类的大规模方向

近年来,随着 TSV、铜 - 铜混合键合等工艺的成熟,3D集成芯片成为了高性能处理器领域新的 发展趋势。美国 AMD 和 Intel 公司均基于 3D 集成芯片技术,设计了面向超算的高性能超算处理器芯片。将6-8种,超过 20 个芯粒的芯粒集成在一个系统中,最终实现了更大规模(千亿以上规模数量级晶体管)、更复杂的集成。在 2.5D 集成上,基于重分布层(Re-Distribution Layer) 的扇出工艺(FanOut)可以实现更大规模的芯粒集成,

美国 Tesla 公司基于 FanOut 工艺开发面向人工智能的训练处理器集成芯片 DOJO,RDL 基板的总面积达到 20000mm2,包含 25 个 D1 多核处 理器芯粒和光电融合的通信芯粒。

2022 年中科院计算所智能计算机中心和之江实验室联合开发了“之江大芯片一号”,该芯片成果集成了 16 个芯粒,每个芯粒含 16个 CPU 核,验证了利用集成芯片突破单处理器芯片的算力极限技术途径。

之江大芯片 1 号

2022 年,复硅旦基板大学集成芯片与系统全国重点实验室基于集成扇出封装工艺实现了存算一体2.5D 芯片。采用片间按层流水的可扩展架构实现了系统算力与存储规模的按芯粒比例的线性增长,避免了“一系统一设计”的高复杂度问题。

阿里达摩院联合紫光国芯研发基于 3D 混合键合工艺的智能加速器-DRAM 堆叠集成芯片。

豪威科技的采用三层堆叠工艺将图像传感器芯粒、模拟读出电路芯粒、图像信号处理与 AI 芯粒集成为一个组件,面向像素的不断提升,最小化芯粒间的通信开销。

集成芯片中,由于每个芯粒由不同的单位设计,因此接口的标准化是系统能够高效率组合的关键因素。在 Intel 的主导下,2022 年 3 月,通用高速接口联盟(Universal Chiplet Interconnect Express,UCIe)正式成立,旨在构建芯粒技术在芯片上的互联标准。

五、从集成芯片到芯粒:分解与组合的难题

集成芯片采用了“分解 - 组合 - 集成”的新设计范式。“分解”是指根据不同应用的特征,抽象出若干标准的芯粒预制件; “组合”指将众多的芯粒预制构件按照某种结构组合设计成不同应用领域所需要的专用芯片和系统。根据目标应用,构建最优的芯粒分解 - 组合设计方法是重要的技术难题。

芯粒的分解与组合

(一)芯粒分解研究:出于成本、安全性、系统性能等多重因素的考量

1、成本:对芯粒系统的成本进行了分析建模,它由RE成本(Recurring Engineering Cost)与 NRE 成本(Non-Recurring Engineering Cost)构成。RE成本是每片芯片制造都要支付的成本,包括晶圆、封装、测试的成本等。 NRE 成本指研发、制造芯片产品时所支付的一次性费用,包括人力成本、IP 授权费用、光罩成本等。

UCSB 提出的模型表明 RE 成本受到芯粒工艺、系统规模、封装良率等多重因素的影响。清华大 学的模型将NRE成本表示为系统总体、各个芯粒、芯粒中包含模块的NRE成本之和。

2、安全性因素分离制造,通过将芯片分为多个部件分别交于不同的晶圆厂,使晶圆厂无法获得芯片的全部信息,来保护信息不被泄露。而基于分解的芯粒技术天然地具有分离制造的特性,并且相较于传统的基于金属层过孔的分离制造方法,芯粒使用标准的片间通信接口,在工艺上降低了封装的难度

3、系统性能:会引入芯粒间通信的功耗性能开销以及额外面积开销。芯粒分解不能仅关注单个芯粒构 件的设计,需要对整条产品线进行分析,以发掘芯粒在多个产品中的复用机会。

  • AMD 在第二代 EPYC 架构中将计算与 IO 部分拆分为不同的芯粒。
  • 海思基于LEGO理念,将SoC分解为CPU计算、计算I/O、AI计算等少量的芯粒,并利用它们组合出多种产品。
  • Intel也将芯粒技术应用到了 FPGA、CPU、GPU 等产品上, 其中Ponte Vecchio GPU被分解为计算、存储、通信等芯粒,数量高达 47 块。

当前亟需自动化芯粒分解技术。目前已有一些简单的划分策略,如将设计拆分为多个相同芯粒的均匀划分方式,与基于最小割算法的均衡划分方式。这些技术缺乏对成本、性能、功耗的综合优化,也没有在多个硬件设计中寻找可重用芯粒的能力。

(二)芯粒组合研究

设计人员根据用户输入的应用与优化目标,从芯粒库中选出最优芯粒并组合。由于缺乏统一的接口标准,目前工业界的实践主要为 in-house 芯粒的组合

海思利用 CPU 芯粒 +I/O 芯粒组合出服务器所需的芯片, 利用 AI 计算芯粒 + 计算 /IO 芯粒组合出针对 AI 训练的芯片;通过使用不同数量的 CPU 计算芯粒, AMD 组合出了包含不同核数的服务器芯片 。

现有的芯粒组合方案往往是手动设计的,集成效率低且缺乏深层优化,这也催生了自动化芯粒组合的研究。

UCLA 提出了面向处理器的芯粒组合框架,用以寻找针对多个应用负载的最优芯粒系统集合,其优化目标为系统功耗、性能、成本等。

中科院计算所提出了一套敏捷芯粒集成框架, 可以自动根据用户输入的应用描述,从芯粒库中选择出性能、面积、成本等指标最优的芯粒组合,并且完成应用任务在芯粒上的映射。

无论是面向通用应用的多CPU芯粒与多GPU芯粒的组合, 还是面向专用领域的芯粒组合,均可以通过集成不同数量的芯粒来获得不同性能的系统。面向AI领域的Simba系统已被灵活拓展,形成适用各个场景的产品,也有学者提出了能搜索针对单个应用和多个特定应用的芯粒组合框架 。

AI 系统性能与芯粒数量组合的关系

无论是芯粒分解还是芯粒组合,都是复杂的优化问题,依靠人力难以应对庞大的搜索空间,这也 给予了设计自动化工具和大规模集成芯片仿真器新的机遇。在芯粒时代,我们需要更高效的 EDA 工具来更进一步地优化系统成本,降低集成开销,促进芯粒生态繁荣。

六、芯粒间互连网络

片上网络(Network-on-Chihp)相对应,基板上网络(Network-on-Interposer)实现芯粒间互连互通,作为各处理单元间的数据传输基础设施,是影响数据通信性能和功耗的关键,包含互连拓扑、路由和容错机制三个关键技术。

(一)互连拓扑

网络拓扑结构从固定、简单的通用拓扑结构演进到不规则和可重构拓扑结构,以适配不同的应用数据传输需求。通用拓扑结构设计并不能提供最高的通信效率,不规则和可重构的互连拓扑结构以降低通用性为代价,提供了更高性能的互连解决方案。

网格(Mesh)以及环形曲面(Torus)等基础网络结构,由于其结构简单规则,是芯粒间网络中最为广泛使用的通用拓扑。

采用通用拓扑构成互连网络的有 NVIDIA 的 Simba,其芯粒内与芯粒间均采用了网格型拓扑,Conical-Fishbone 时钟域网络中使用的无缓冲网格拓扑。MCM-3D-NoC架构基于有源基板,芯粒间采用芯粒堆叠互连的三维(3D) 堆叠拓扑结构。此外,POPSTAR基于光电连接的芯粒间环形(Ring)结构,以及无缓冲多环(Multi-Ring)结构属于通用拓扑。

典型的拓扑网络

当网络流量不均衡或动态变化,通用、规则的拓扑结构无法适配当前流量需求将导致拥塞,而不规则拓扑结构则可以根据相应流量特征优化网络链路或结构,以获得更高性能。

不同应用的流量特征差异极大且存在 动态时变特征,因此出现了能够根据应用流量动态变化的可重构拓扑结构动态地根据应用需求进行重配置。

Kite 拓扑系列:基于基板上网络(Network-on-Interposer)和片上网络(NoC)的频率异质性,在频率限制下最大化有效链长,减少跳数降低延迟,提高网络吞吐量。与常见通用拓扑结构相比,Kite 拓扑结构中使用了更多不同长度和不同方向的链路,提高通信效率。

Adapt-NoC架构采用 SMART[构建自适应芯粒路由,可重构链路设计在有源基板中连接子网络,并且动态分配链路带宽以提高网络吞吐量,采用 Panthre技术进行网络拓扑重配置,将网络划分为多个子网络,使每个子网络可以根据通信需求提供不同的网络拓扑。

中科院计算所提出了可重构基板网络(NoI)设计方法,基于胖树生成适应各种分布式训练模式的拓扑,可适应各种神经网络应用,特别采用了环和树结合的拓扑结构适用于数据并行中的数据交换。

可重构拓扑允许根据应用数据传输需求进行动态配置和调整,提供了高灵活性、高适应性、高性能的解决方案。然而,如何实现更大规模的动态可重构互连拓扑结构设计和容错机制,并实现互连架构的准确性能评估,仍是芯粒间互连网络拓扑结构设计的重要挑战。

(二)路由

路由算法是影响集成系统通信开销的另一重要因素,其决定了数据传输的路径长度和可靠性。为了能够适配多种复杂的互连网络方案,同时考虑芯粒互连集成设计方案的立体化趋势,需要面向芯粒集成的系统特性进行路由算法设计。

芯粒集成系统的路由算法需要满足以下特性:

1、拓扑无关性,路由算法应通用,不仅限于特定的拓扑,适应不同芯粒集成方案中可能存在的多样化互连网络拓扑。

2、完全可达性,路由算法应始终能够找到该条可行的路径,即使是复杂的垂直堆叠和基板互连结构

3、故障独立性,路由算法需要具备对节点或链路故障的容错能力。当发生故障时,路由算法应该能够重新计算路径绕过故障节点或链路保证数据传输的可靠性和连通性

4、可扩展性,路由算法引入的开销应是独立的,或者仅随着网络规模的变化而变化。无论系统中有多少个芯粒或多复杂的堆叠结构,路由算法都应该能够高效地处理通信需求,而不会导致性能下降或通信开销过大

在设计面向芯粒集成的系统的路由算法时,需要根据具体的集成方案和系统需求进行算法的优化和定制。

(三)容错机制

考虑到单个芯粒内集成了更高数量级的晶体管和先进制程的不完善,因此故障率相对较高。为了应对永久性故障带来的系统性能损失,可以采取容错拓扑设计和容错路由措施,提升系统的容错性能。

容错拓扑指在芯粒间的互连设计中,通过采用能够容忍故障和提供冗余路径的结构布局方式, 提升系统的容错性能。

  1. 冗余网络。使用多条路径建立芯粒之间的 通信连接
  2. 高连接性网络。确保大多数节点具有较高的节点基数,从而为网络提供路径多样性;对于次要节点,可以适当的降低节点基数以减小硬件开销。

容错路由是指在芯粒间的互连设计中,通过设计能够应对永久性故障导致的网络变化的路由算法, 提升系统的容错性能。当网络中出现错误时,路由算法需要具备适应网络变化的能力,并自适应的执行不同的路由策略以绕过或避免故障区域的通信,这也是容错路由的重要研究方向。

  1. 动态路径选择。路由算法可以根据实时的网络状态和错误信息,动态选择最佳路径来绕过故障区域。这可以通过监测链路状态、节点负载、 延迟等指标来实现。路由算法可以基于这些信息做出即时的路由决策,将数据流量导向可用的路径。
  2. 基于负载均衡的路由。当网络中出现故障时,路由算法可以考虑负载均衡策略来选择路径。 它可以根据节点的负载状况,选择相对较空闲的路径进行通信,以避免将更多的流量导向已经过载或 故障的区域。

国内中科院计算所早期在研究 3D TSV 设计时,针对 TSV 提出了复用容错的技术思路和容错 NOC 设计 ,清华大学、合肥工业大学等也有相关研究。

七、芯粒互连的接口协议

现有面向芯粒的接口协议主要分为两类:物理层接口协议完整的协议栈

  1. 大多数物理层接口协议或标准主要关注引脚定义、电气特性、bump map (凹凸点布局)等基础特性,可以保证数据比特流的点对点传输。
  2. 在此基础上,协议栈路由方式、数据结构、可靠传输机制、一致性、流量控制等做了更详细的规定, 一般可以建立端到端的可靠数据传输。

(一)物理层

美国英特尔公司率先提出了 AIB (Advanced Interface Bus),用于规范芯粒间互连的物理层协议, 可适应不同制造和封装工艺。一个 AIB 接口由一个或多个 AIB 通道组成,每个通道包含 20-640 根数据线两对差分时钟以及用于初始化的边带信号。AIB 在单线极大的数据速率下,以扩展位宽的 方式获得高带宽。此外,AIB 可以通过启用冗余的 bump 来规避封装缺陷,以此来实现一定程度的容错功能。

由 Facebook、AMD 等企业共同发起的ODSA(Open Domain-Specific Architecture)联盟提出 了BoW(Bunch of Wires)并行接口协议,BoW的模块化的接口可对应标准封装和先进封装工艺。 每个BoW模块包括16根数据线和一对差分时钟,BoW复用主数据通路进行参数协商和初始化,无 专用的边带信号。在14nm工艺下,Bow以16Gbps/wire的传输速率以及50mm线长,可达到0.7pj/ bit 的较低功耗,误码率为 1E-15。

HBM(High Bandwidth Memory) 接口是 JEDEC(Joint Electron Device Engineering Council) 定义,专门用于连接 HBM 内存的并行总线接口。最新的 HBM3 最多支持 16 个独立通道,每个通道的数据位宽为 64,包含 10 位行地址线和 8 位列地址线, 最高数据速率为 6.4Gbps。此外,HBM 支持通过 4 位 ECC 进行纠错。

USR(Ultra-Short-Reach)是一种主要面向 chiplet 片间互联的 Serdes 接口 , 可以使用单端信号或差分信号进行数据传输,在 20Gb/s 的传输速率下能够达到 0.6pj/bit 的功耗,相 比于普通的 Serdes 接口有着很大优势。然而,相比于宽度更大的并行接口,USR 在带宽上存在劣势。

台积电提出了兼容 2.5D 和 3D 的高能效 LIPINCON (Low-voltage-in-package-inter- connect) 互连接口协议。其可在 0.8V 的电压和 0.3V 的电压摆幅下实现 0.84UI 的眼宽和 75% 摆幅的眼高,而其 256 的数据位宽和 8Gbps/wire 的数据速率有待提升。

(二)协议栈

芯粒间的数据传输有许多重要的功能需求,如对核间数据通信业务逻辑的详细规定、数据传输可靠性、缓存一致性、路由策略等。而物理层协议仅能保证通信双方物理电气特性上的互联互通,因此, 构建完整的上层协议对芯粒接口至关重要

ODSA 首先注意到了完整协议栈的重要性,并于 2021 年提出了一种面向芯粒互连的协议架构, 该架构由协议层、链路层和物理层构成。其中,物理层方案为 BoW 接口,建议在协议层复用现有协议, 链路层通过 CRC 校验和重传机制实现可靠传输的基本思路。

UCIe层级与功能

2022 年,UCIe(Universal Chiplet Interconnect Express)联盟公布了 UCIe 协议。与 ODSA 的 架构类似,UCIe 由协议层、片间适配层和物理层构成。UCIe 协议层沿用成熟的 PCIe 和 CXL 协议 以实现对现有生态的最大兼容,片间适配层则利用CRC校验以及重传机制保证数据传输的可靠性。 UCIe在物理层采用AIB接口,在电气特性上具有广泛兼容性的同时,可实现物理通道损坏的自动检测和通道重映射等功能。UCIe 是 chiplet 完整协议栈的典型代表,其物理层的模块化设计、容错功能、以及链路层的校验重传机制契合 chiplet 应用场景。因此,设计全新的上层协议——既定义面向 chiplet 间数据传输的业务逻辑或许是以后 chiplet 接口协议发展的重点。

当前面向芯粒的接口标准以并行接口为主,且强调物理接口的模块化,可以充分利用先进封装的 高互连密度特性并最大化接口带宽。此外 AIB、BOW、HBM、UCIe 等主要接口协议均采用大宽度单端数据 + 随路时钟的方案,仅 USR 等少部分协议采用高速串行数据 + 时钟恢复方案。在芯粒技术带 来的芯片设计积木化、敏捷化与定制化的场景下,

芯粒互联协议需与厂商、架构、制造工艺解耦,拥有广泛的兼容性与开放性,才能适应芯粒异构互联、跨厂商互联的实际需求。

八、芯粒间的高速接口电路

芯粒间通信是基于高速接口电路完成的。特点,

  1. 超短距离:在一个封装体内,芯粒间互连距离通常小于 1 厘米,甚至可以 小于 1 毫米,信道的损耗迅速降低,更利于高带宽设计。
  2. 高密度:采用半导体制造工艺(光刻、 蚀刻),芯粒间互连线间距可以在微米级,在单位面积下可以更高并行度;。
  3. 低功耗与低延迟:芯片粒间互连重点关注功耗效率、延迟和性能优化进行。

芯粒间的高速接口电路包括以下几类:1)面向 2.5D/3D 集成工艺的有线(Wireline)并行通信接口; 2)基于电感耦合的无线互连通信接口;3)高带宽光电互连接口

并行互连接口技术通过大量信道同时进行并行传输,以达到 Tbps 级别的传输带宽。因此,它不 追求单线绝对速率与带宽,在 UCIe/AIB 等协议中,每根线的传输速率也仅为 32Gbps。实际设计中, 芯片设计企业可以根据系统要求设计信道并行数量和单线速率。因此可以在不使用连续时间线性均衡器(CTLE)、时钟数据恢复电路(CDR)等大功耗模拟电路模块的情况下实现信号的传输。并行电 路的时钟信号可以通过独立的信道进行传输,同时利用数控延时单元(DCDL)、相位插值器(PI) 和占空比调节器(DCC)来实现数据和时钟信号的校准,这些电路的结构相对简单,由于多个数据 信道可以共用一组时钟线,因此对整个收发电路的面积影响也较小。相较于传统串行接口,并行互联 具有能效高(<1 pJ/bit)、延迟低、设计简单的优点,能够实现更高的集成芯片互联密度和更高效的 芯粒间互联。

无线互连接口也是芯粒间互联的一种解决方案。它的优势是不依赖先进封装工艺特别是 TSV, 可以完全兼容现有的 CMOS 工艺。其互连是通过芯粒间电感耦合实现的。基于电感的互连接口在两 个芯粒上各放置一个线圈,通过线圈间的电磁耦合传递无线信号。但是考虑到在电 感的面积,无线互连的能效和速率方面相对于有线互连方案并无优势。此外,无线互连只适用于 3D 的封装堆叠方式,不适用于 2.5D 等其它形式的集成芯片。

光互连接口是更前瞻的芯粒间的接口方案,它通过集成在硅晶圆上的八波长分布式反馈(DFB) 激光器阵列和光波导,可以实现单线低功耗、高性能、太比特每秒(TBps)的互连速率,较电互连 高出一个数量级。但是在芯粒间实现光互连还需解决很多问题,比如集成激光器阵列如何缩小体积、 降低成本、如何兼容现有 CMOS 工艺,完成异质封装

(a) 电容耦合 (b) 电感耦合的芯粒间无线互联方式

在芯粒互连的高速接口上,仍然存在这多个科学问题,如突破功耗瓶颈的新电路,兼容不同信 道的可重构收发机,自适应检测与校正机制、接口电路的跨工艺自动化迁移等。应对这些挑战需要多 学科交叉研究,涉及电路设计、电磁场信号完整性分析、热管理、制造工艺等领域的专业知识。

九、多芯粒系统的存储架构

多芯粒的存储结构是影响集成芯片的访存性能和功耗的重要因素。主要从多级存储结构的组织方式存储管理两方面进行优化。

从平面存储结构向垂直存储结构发展。在垂直方向上堆叠存储单元,从而实现更高的存储密度和容量。其核心思想是充分利用垂直方向的空间增加存储单元的数量,形成多层结构。每一层都包含多个存储单元,通过垂直连接结构进行数据传输和访问。这种垂直堆叠的方式大大减小了存储器的占地面积;数据的传输路径更短,可以实现更快的数据访问速度和更低的访问延迟

Zen3 处理器垂直方向缓存示意图

Zen3在垂直方向上引入高速缓存 3D V-Cache,额外的缓存层可以提供更高的缓存容量与更低的延迟,从而提升访存性能。处理器内的核心可以更频繁地访问高速缓存中的数据,从而减少对主内存的访问,提高数据访问速度。这些方案 利用垂直存储的优势,实现了更高的存储容量、更快的数据访问速度 和更可靠的数据存储。

多芯粒系统的存储通常采用非一致内存访问结构(Non-Uniform Memory Access,NUMA), NUMA 结构提供了高效的共享数据方式和灵活的资源分配方案,但相应地需要解决如何加速跨核心 的数据访问、提升维持数据一致性的通信速度。层次化缓存一致性协议和目录已被广泛研究用于芯片 多处理器和多芯粒服务器 (multi-socket) 系统 。

在全局数据访问中,芯粒间缓存一致性 管理访存开销较大。因此,降低缓存一致性开销的方法可以分为减少维护一致性的数据流量和针对互 连结构优化一致性协议两类。减少一致性流量的根本原理在于发掘和消除一致性流量中的冗余,当连 续写入的次数达到阈值时,通过执行一次写更新来优化传统的多次写入更新协议可减少写缓存的开销 。另外,由于不同存储层级的开销不同,因此可将共享读写缓存行移动到更低级别的缓存以减少 上级缓存的写无效流量。

针对互连结构优化一致性协议也是降低一致性开销的重要方法。考虑到多芯粒系统在芯粒间和芯 粒内具有不同的通信结构和开销,使用 Snoop 与目录式混合的缓存一致性协议,通过全局协议 和本地目录协议分别实现芯粒间和芯粒内的缓存一致性可以大幅降低一致性开销。

新的互连方式也 为一致性协议提供了新的优化空间,WiDir结合片上无线网络技术来增强传统的基于无效目录的 缓存一致性协议,以程序员透明的方式,根据访问模式,有线和无线一致性事务之间进行无缝转换。 相比于传统的电网络,基于硅光子技术的互连网络有望实现更高宽带和更低延迟。PCCN作为一 种基于光子缓存一致性网络的物理集中式逻辑分布式目录协议,采用带有竞争的机制解决信道共享问 题,实现高效的长距离一致性相关数据包的传输。小型低成本硅光子 CAMON 芯粒可以有效缓 解多核处理器的通信瓶颈问题,提高数据移动的能效,在多芯粒系统尤其是大规模系统中发挥了重要 作用。