华为算力分拆：AIGC行业专题报告揭示全球AI算力的新兴力量

发表时间: 2023-10-11 08:33

（报告出品方/作者：华西证券，刘泽晶）

01 全面对标英伟达，开启国产自主可控新征程

全球龙头英伟达业绩持续高度景气，印证全球AI产业趋势

英伟达二季度业绩持续超预期，印证AI景气度：美东时间8月23日，英伟达公布2024财年第二财季季报。二季度营收135.07亿美元，同比增长101%,远超市场预期的指引区间107.8亿到112.2亿美元，相较于华尔街预期水平高22%-29%以上。业绩指引方面，英伟达预计，本季度、即2024财年第三财季营业收入为160亿美元，正负浮动2%，相当于指引范围在156.8亿到163.2亿美元之间。以160亿美元计算，英伟达预期三季度营收将同比增长170%，连续两个季度翻倍增长，高于市场预期。

AI芯片所在业务同环比均翻倍激增较市场预期高近30%，游戏业务同比重回增长: AI对英伟达业绩的贡献突出。包括AI显卡在内的英伟达核心业务数据中心同样收入翻倍激增，二季度数据中心营业收入为103.2亿美元，同比增长171%，环比增长141%；二季度游戏营收 24.9亿美元，同比增长22%，环比增长11%，英伟达称，数据中心收入主要来自云服务商和大型消费类互联网公司。基于Hopper和A mpere 架构GPU的英伟达HGX平台之所以强劲需求，主要源于开发生成式AI和大语言模型的推动。

英伟达三大AI法宝：高性能芯片，其中IC设计是重点

全球高端GPU领导者，经数十代产品迭代，技术指标全面升级。从2011年英伟达推出Tesla M2090数据中心GPU，到2022年H100、 L40等型号产品，多项核心技术指标大幅提升。其中，CUDA作为GPU内部主要的计算单元，从512个升级到超14000个；芯片工艺尺寸也从40nm降至4nm；单精度浮点算力从1332GFLOPS增至超50TFLOPS。GPU产品性能整体大幅跃升。

推出Grace系列，加速大型 AI、HPC、云和超大规模工作负载。2022年公司发布首款CPU产品Grace，用于高性能计算和云计算。 Grace CPU超级芯片采用NVLink®-C2C 技术，可提供 144 个 Arm®Neoverse V2 核心和 1 TB/s 的内存带宽，每瓦性能是当今领先 CPU的 2 倍。此外，公司还推出的Grace Hopper超级芯片将 Grace 和 Hopper 架构相结合，为加速 AI 和高性能计算 (HPC) 应用提供 CPU+GPU 相结合的一致内存模型。

2023年，英伟达发布多款AI超算产品，助力全球生态：其中包括DGX服务器、DGX GH200 AI超级计算机、AI foundations云服务等产品，其中DGX GH AI超级计算机由NVIDIA GH200 Grace Hopper超级芯片和NVIDIA NVLink Switch System驱动，相比上一代将 NVLink带宽提升了48倍以上。

英伟达三大AI法宝: Nvlink、NVSwitch助力芯片快速互联互通

速度更快、可扩展性更强的互连已成为当前的迫切需求: AI和高性能计算领域的计算需求不断增长，对于能够在每个GPU之间实现无缝高速通信的多节点、多GPU系统的需求也在与日俱增。要打造功能强大且能够满足业务速度需求的端到端计算平台，可扩展的快速互连必不可少。简而言之，随着模型复杂程度增加，单张GPU无法完成训练任务，需要联合多张GPU，乃至多台服务器搭建集群协同工作，并需要GPU之间以及服务器之间进行数据传输交互。我们认为数据传输同样也是大模型算力集群能力的重要体现。

英伟达推出NVLink技术代替传统的PCIe技术：第四代NVIDIA® NVLink® 技术可为多GPU系统配置提供高于以往1.5倍的带宽，以及增强的可扩展性。单个 NVIDIA H100 Tensor Core GPU 支持多达18个NVLink 连接，总带宽为900GB/s，是PCIe 5.0带宽的7倍。NVIDIA DGX™ H100等服务器可利用这项技术来提高可扩展性，进而实现超快速的深度学习训练。

NVSwitch与Nvlink协同互联，助力英伟达高速通信能力构建: NVSwitch是一种高速交换机技术，可以将多个 GPU 和 CPU 直接连接起来，形成一个高性能计算系统。每个NVSwitch都有 64 个 NVLink 端口，并配有 NVIDIA SHARP™ 引擎，可用于网络内归约和组播加速。

国产芯片之光：华为海思鲲鹏CPU

鲲鹏包括服务器和PC机芯片：芯片端——鲲鹏920面向数据中心，主打低功耗强性能。鲲鹏处理器是华为自主研发的基于ARM架构的企业级系列处理器产品，包含 “算、存、传、管、智”五个产品系统体系。规格方面，鲲鹏920可以支持64个内核，主频可达2.6GHz，集成8通道DDR4，集成 100G RoCE以太网卡。与此同时，鲲鹏920支持PCIe4.0及CCIX接口，可提供640Gbps总带宽。根据华为云官微，华为表示鲲鹏920大部分性能提升来自优化的分支预测算法和增加的OP单元数量，以及改进的内存子系统架构。服务器端——打造TaiShan服务器，实现高效能计算。华为还推出基于鲲鹏920的三款ARM TaiShan200 服务器，新服务器专为高性能、高效率场景而设计，主要应用于大数据、分布式存储、ARM原生应用等场景。构建自主生态，打造国产算力。目前，华为正基于“硬件开放、软件开源、使能伙伴、发展人才”的策略推动鲲鹏计算产业的发展。

华为昇腾芯片，统一达芬奇架构助力AI计算引擎

昇腾AI芯片的计算核心主要由AI Core构成: AI Core采用了达芬奇架构，它包括了三种基础计算资源，矩阵计算单元、向量计算单元和标量计算单元。这三种计算单元分别对应了张量、向量和标量三种常见的计算模式，在实际的计算过程中各司其职，形成了三条独立的执行流水线，在系统软件的统一调度下互相配合达到优化的计算效率,AI Core中的矩阵计算单元目前可以支持INT8、INT4和FP16的计算；向量计算单元目前可以支持FP16和FP32的计算。我们认为本质上讲昇腾芯片属于专为AI而生的特定域架构芯片。

存储转换单元(MTE)是达芬奇架构的特色：比如通用GPU要通过矩阵计算来实现卷积，首先要通过Im2Col的方法把输入的网络和特征数据重新以一定的格式排列起来，通用GPU通过软件实现，效率较为低下，达芬奇架构采用了一个专用的存储转换单元来完成此过程，可以在较短的时间之内完成整个转置过程，定制化电路模块的设计可以提升AI Core的执行效率，从而能够实现不间断的卷积计算。

算力为底，携手基础软硬件创新，开启国产AI生态

华为全联接大会2023期间，华为计算产品线总裁张熙伟发表《算力为基，共筑AI新生态》主题演讲，他表示：华为将深耕算力底座，聚焦鲲鹏、昇腾基础软硬件创新，携手伙伴与开发者，打造开放、易用平台，使能百模千态，共赢数智未来。全面开放，灵活选择使能大模型创新:昇腾提供丰富的融合算子，如主流的FlashAttention、FFN等，可在昇腾上实现性能倍级提升；其次，昇腾已全面支持PyTorch、飞桨、昇思等业界框架，同时PyTorch社区也在持续增强对昇腾的支持。在加速库与开发套件上，除了兼容业界主流的DeepSpeed、Megatron外，昇腾自主构建了大模型加速库AscendSpeed，提供丰富的大模型训练并行能力。同时，HuggingFace社区最新的Transformers、Accelerate等代码仓也已原生支持昇腾。模型层面上，目前已有50+主流的基础大模型基于昇腾训练迭代。深度开放，使能开发者构筑差异化竞争力：算子和加速库是决定大模型训练与推理性能的关键，为支撑开发者孵化出更高性能的自定义算子、加速库，华为新增开放底层运行时，开发者可直接使用NPU上的核资源、控制流、任务调度等接口，原生构建差异化竞争力，各类接口将于年底前陆续开放。在编程上，今年5月华为发布的Ascend C编程语言，简化开发逻辑，匹配开发习惯。

02 华为领衔演绎国产AI计算生态崛起

集成电路产业突围：外部限制增多，国产突围势在必行

我们认为华为AI计算产业的核心在于芯片的自主可控，其中以鲲鹏和昇腾为主导的海思芯片尤为重要，因此国产集成电路产业突围尤为重要。我国集成电路发展迅速，需求量较高，产业重要性不可忽视：根据中国半导体行业协会显示，2017年至2021年，中国集成电路产业销售额呈逐年上升的趋势，2021年首次突破万亿，为10458.3亿元，较上年增长18.20%。产业链上游为集成电路设计环节包括半导体设备、IP以及EDA等，中游包括IC设计、IC制造、IC封测等，下游应用包含消费电子、人工智能、航空航天、新能源、5G等。产业链下游应用领域中涵盖大量新兴产业，以至于发展集成电路产业已上升为国家战略的高度，成为我国技术发展的核心。国外制裁持续封锁我国技术发展，国家技术发展政策落地，国产突围势在必行：2016年至今，美国出台一系列针对中国芯片行业的限制措施，持续加码对中国的技术封锁。包括对华为及其70多家关联企业实施出口管制、限制购买ASML的目前最先进的芯片制造设备EUV等。为推进自主可控，近年我国发布了众多集成电路中央政策。今年9月，四部门发布《关于提高集成电路和工业母机企业研发费用加计扣除比例的公告》，提高企业研发费用税前扣除比例，增厚企业利润，鼓励集成电路产业发展。

EDA软件：EDA被誉为“芯片之母”，撬动万亿集成电路市场

EDA（Electronic Design Automation,电子设计自动化）：被誉为“芯片之母”。是指用于辅助完成大规模集成电路芯片整个工艺流程的计算机软件工具集群。尤其对于设计与制造流程，EDA可谓举足轻重。芯片设计类EDA软件：提高设计效率和精度。根据处理的信号不同，可分为数字芯片设计类EDA软件和模拟芯片设计类EDA软件。1）数字芯片设计类EDA软件：主要用于数字芯片设计环节，包括架构设计、RTL（Register Transfer Level，寄存器传输级）编码、物理验证等工具。2）模拟芯片设计类EDA软件：相比较而言，模拟芯片设计的自动化程度低于数字芯片设计。主要包括用于电路设计、仿真验证、版图设计、寄生参数提取等环节的工具。芯片制造类EDA软件：优化制造流程，提高量产良率。主要指晶圆厂在工艺平台开发阶段和晶圆生产阶段使用的，用于支撑其完成半导体器件/制造工艺开发、器件建模和PDK等环节。

光刻：芯片性能的基石，正处于打破垄断“从0到1”的长征路

光刻机行业处于供不应求，且寡头垄断的格局内，加速国产替代速度：由于一些技术限制，尤其高端光刻机技术受制于国外供应商。根据智研咨询数据显示，2022年中国光刻机产量约为95台，而需求量为652台。供求远低于需求。且按营收来看，光刻机市场份额已被尼康、佳能和阿斯麦国外企业垄断。加速国产替代进程，已然取得重大突破，中国光刻机产业正处于从“0”到“1”的长征路上：今年2月，哈尔滨工业大学，公布“高速超精密激光干涉仪”研发成果，是一项可以用于7nm及以下的技术。首台28nm国产机有望年底交付：据新华网援引《证券日报》消息称，上海微电子在28nm浸没式光刻机的研发上取得重大突破，预计在 2023年年底向市场交付国产的第一台SSA/800-10W光刻机设备。

服务器：从信创到AI，国产服务器需求火爆

信创需求逐渐回暖，招标启动带来业绩释放，华为昇腾+鲲鹏服务器有望大放异彩：金融信创需求高增，2023年7月13日，中信银行股份有限公司发布《通用基础设施集成商入围采购项目》招标公告，招标金额共计65亿元，其中ARM芯片服务器预计采购金额为34.01亿元，C86 芯片服务器预计采购金额为10.20亿元，此外还包括数据中心级别交换路由、防火墙设备等重要基础设施，可以看出ARM芯片服务器占据了大部分的招标总额。我们判断，下半年有望进入信创订单释放期。

运营商信创需求同样火爆：根据C114讯消息，中国电信AI算力服务器（2023-2024年）集中采购项已批准，公告显示，本项分为4个标包，分别为训练型风冷服务器（I系列）、训练型液冷服务器（I系列）、训练型风冷服务器（G系列）、训练型液冷服务器（G系列）。预估采购规模为4175台，I系列配套InfiniBand交换机1182台。其中G系列为国产服务器，从占比来看，国产G系列占比大约为50%。我们判断，信创国产服务器占运营商招标比重正逐年增加，此外，我们判断相关运营商信创招标有望落地加速。

算力组网：华为AI能力的提升，有望带动相关产品快速放量

我国正处于处于智算中心建设的加速期，信创与AI双轮驱动，华为相关产品有望加速放量：我国相关AI应用目前已有雏形。此外，在我国AIGC 短期应用爆发的趋势下，算力建设同样也是印证本轮景气度的先行指标，目前我国正处于从“智算”到“超算”跨越的新时代，我国正处于智能算力建设的加速期。我们认为在AI+信创大背景下，华为有望凭借生态优势和产品优势，其相关AI产品有望快速放量。

华为领衔演绎国产AI崛起，构筑世界AI算力第二选择：我们认为华为发布相关全新产品，例如Atlas 900 SuperCluster、星河AI网络解决方案、华为星河AI智算交换机、知识库存储OceanStor A800等全新产品，其本质上是打造大算力，大存力，大运力的解决方案，有望打造领先的AI大模型训练集群。而从数据中心架构或是组网能力上来看，其算力核心依旧围绕核心三大部分硬件产品，分别是算力服务器、交换机等产品，其中，我们判断以昇腾服务器凭借高性能、高参数与HCCS互联互通形式有望在智算中心建设的加速期快速放量，有望带动华为交换机等产品的放量，而昇腾服务器与华为交换机产品的放量，有望带动国产光模块的放量。