2025年英伟达研究报告:“三芯”齐驱,高速互联,再战10万卡集群

  • 来源:开源证券
  • 发布时间:2025/03/27
  • 浏览次数:937
  • 举报
相关深度报告REPORTS

英伟达研究报告:“三芯”齐驱,高速互联,再战10万卡集群.pdf

英伟达研究报告:“三芯”齐驱,高速互联,再战10万卡集群。依托CUDA体系构建的护城河,英伟达逐步发展为高性能计算行业的领军者,在整体GPU领域市场份额达到80%,在数据中心GPU更是达到98%的市场份额,公司下一代GPU产品B系列放量在即,有望驱动后续业绩增长,预计FY2026-2028年GAAP净利润为1104/1439/1626亿美元,对应EPS分别为4.75/6.15/6.95美元,同比增长52%/30%/13%,当前股价对应FY2026-2028年的PE估值为25.6/19.7/17.5倍。随着架构持续升级,英伟达GPU仍有望成为高算力集群时代的首要选择,&l...

1、 英伟达:全球算力领军者,全方位布局 AI 产业

全球 GPU 龙头,充分布局 Gen-AI。英伟达业务起始于图形处理器,打造了通 用计算体系 CUDA 架构,由此开启了加速计算的新纪元,逐步发展为高性能计算行 业的领军者,在当下火热的 Gen-AI 行情中占据关键位置。依托 CUDA 体系构建的 护城河,英伟达在整体 GPU 领域市场份额达到 80%,在数据中心 GPU 市场更是达 到 98%的份额。产品上,英伟达充分布局,在数据中心业务持续创收的同时,发掘 多条成长曲线,实现了从芯片层、云计算层到软件应用层的全方位布局,为未来持 续发展奠定基础。

受益于生成式 AI 带来的行业变革,数据中心业务成为核心增长引擎。在 2023 年(对应英伟达 2024 财年)之前,尽管英伟达在数据中心已有充分布局,但收入整 体仍然受到游戏行业周期及 GeForce 更新迭代影响。2022 年 Q4,基于 Transformer 架构的 ChatGPT 诞生,带动科技行业加大 GPU 数据中心投入,作为核心“卖水人” 的英伟达,数据中心业务迎来快速增长,FY2025Q4,英伟达游戏/专业可视化/计算/ 网络/汽车收入占比为 6%/1%/83%/8%/1%。

英伟达 GPU 地位稳固,稳健升级带动毛利率提升。从较长的时间周期上看,得 益于英伟达产品稳固的市场地位,GPU 架构按照 2-3 年的速度持续更新,带动毛利 率稳步提升,FY2014-FY2018 年,数据中心业务快速起量,规模效应下费率摊薄明 显,至 FY2019 年净利率达到 35%。此后在生成式 AI 带动下,高盈利水平的数据中 心业务占比持续提升,至 FY2025 净利率达到 56%。

2、 发展历程:三十年历经沉浮,终成算力王者

2.1、 1993-2004 年(3D 加速卡时代):背靠微软掌握标准,显卡龙头地位 初显

公司早期聚焦图形芯片,依靠游戏主机厂世嘉赚取第一桶金。1993 年 4 月,从 集成电路生产商 LSI Logic 出来的黄仁勋,联合 Sun 公司两位年轻工程师——Chris Malachowsky 和 Curtis Priem 共同创立了英伟达。初期,公司旨在通过生产 3D 图 形芯片布局游戏和多媒体市场。彼时 3D 游戏及 3D 渲染仍然处于早期,业内并无统 一标准,企业鱼龙混杂,既包括索尼、东芝、IBM 等大厂,也有很多如英伟达一般 的创业者,这其中,1994 年成立的 3dfx 凭借 Voodoo 显卡,成为 PC 端 3D 游戏的领 袖。1995 年英伟达推出公司首款面向游戏主机的多媒体加速器——NV1,集成了声 卡和手柄控制单元。尽管该产品相较 Voodoo 性能不高,兼容性差,但 NV1 仍被运 用于世嘉第六代游戏主机“土星”,为公司赚得了第一桶金(游戏机不需要考虑兼容 性问题)。

公司濒临破产,绑定微软重获新生。1996 年,微软发布了 Direct 3D 标准(只支 持“三角形绘图”),而英伟达因坚持“四边形绘图”的研发路线,NV1 很快便无人问津, 同时,为世嘉研发的 NV2 以失败告终,而对手 Voodoo 则顺应规律获得 80%的市场 份额,英伟达走到破产边缘。基于此,英伟达做出如下应对: (1) 人事方面:任命主机游戏厂商水晶动力的首席技术官 David Kirk 作为英 伟达的“首席科学家”; (2) 研发方面:确定了为期六个月的内部周期目标,产品更新迭代较快,更 快满足下游需求的变化,同时即便某一产品失败,也不会威胁到公司的 生存; (3) 拓客方面:绑定 PC 大客户微软,1997 年推出全球首款 128bit 的 3D 处 理器 RIVA128(NV3),这是第一款支持微软 Direct3D 加速的图形芯片, 也是当时市场上唯一真正具有 3D 加速能力的 2D+3DAGP 显卡,上市四 个月出货量突破 100 万片。至 1997 年底,英伟达的 3D 显卡市场份额为 24%,排名第二(仅次于 3Dfx Interactive)。随后,英伟达进一步发布的 RIVA 128ZX 支持 OpenGL,在雷神之锤中表现不错,而雷神之锤不支持 GLIDE 标准,使得 Voodoo 的优势有所弱化。

随着 90 年代计算机的普及和 Windows 的崛起,图形芯片主流市场逐步从主机 转向 PC,也使得英伟达在微软的助力下快速起势。1999 年 1 月,英伟达全年营收 突破 1.5 亿美元,并在纳斯达克挂牌上市。同年 5 月,其图形处理器销量超过 1000 万。8 月,英伟达推出第一款以 GeForce 命名的显示核心——GeForce 256,并首次 提出 GPU 概念,而后戴尔、Gateway、康柏、NEC、IBM 等纷纷宣布预装英伟达的 GPU,与此同时,传统 3D 加速卡市场也进入了快速洗牌阶段,2000 年底英伟达以 7000 万美元现金、100 万股公司股票,将 3Dfx 收入囊中,正式成为行业老大,彼时 市场仍具备竞争力的厂商主要为 ATI。在这一过程中,英伟达绑定微软持续推进业务, DirectX 7.0 推出 T&L 技术(极大解放了 CPU 的算力,也是显卡从 3D 处理器转称为 GPU 图形处理器的核心原因)、DirectX 8.0 实现了称为显卡革命的动态观影效果,而 GeForce 亦成为这些 DX(DX 即 DirectX 缩写,下同)系列的代表性显卡。

成也微软,败也微软,Xbox 首发失利引发英伟达与微软矛盾。英伟达 GPU 的 畅销加速了 DirectX 的普及,微软与英伟达相辅相成,由此微软不仅让英伟达参与到 DirectX 标准的制定中,亦在 2000 年将初代 Xbox 订单交于英伟达,这成为当时英伟 达创办以来最大的订单。但由于研发时间短,期间出现电源供应 Bug、数据库功能 不足等一系列问题,最终 Xbox 错过先机败给了 PS2。为了与 PS2 竞争,微软计划降 低 Xbox 二代产品主机售价,并同时要求英伟达降低芯片价格,但受到黄仁勋拒绝, 叠加各种品控问题,最终双方矛盾激化。 微软扶持 ATI,最终带来 N 卡与 A 卡长期拉锯战。GPU 行业更新迭代迅速,上 一世代的赢家并不必定能锁定下一时代的胜局,而在 DX9 之前,英伟达产品持续领 先 ATI,核心在于跟紧 DX 标准更新,通过抢先发布支持新显示标准的产品来抢占市 场。然而,由于英伟达与微软的嫌隙,微软转而重视 ATI 的扶植,使得英伟达错过 了微软 DX9 规格确立的重要消息,直接导致当年推出的 GeForce FX 由于兼容性问 题败给 ATI 的 Radeon 9700,此后 Intel 也开始扶持 ATI,进一步强化了 ATI 的生命力, 尽管之后英伟达与微软达成和解,亦拿下索尼 PS3 的订单,但英伟达龙头地位已经 开始动摇,至 2004 年三季度,在独立显卡市场,ATI 市场占有率达到 59%,英伟达 只有 37%。

2.2、 2005-2016 年(CUDA 通用计算时代):打造 CUDA 通用计算体系, 埋下时代伏笔

2006 年英伟达推出 CUDA 通用计算平台,为 AI 时代埋下伏笔。2004-2007 年, 英伟达业务发展相对平稳,在这其间,AMD 于 2006 年收购 ATI,但整合过程困难, 并让 AMD 背上承重的负债,致使 ATI 在与英伟达的竞争中落伍。当此之时,英伟 达开始思考更为长远的问题,彼时英特尔的 CPU 可以通过多线程技术被所有计算机 应用分享,但 GPU 还只能通过 OpenGL/DirectX 等接口与用户交互,如果能够在 GPU 中提供合适的编程模型,依托 GPU 的并行计算能力,每台 PC 都可以变成一座超大 规模高性能计算机。基于此,2006 年,英伟达发布 CUDA 平台,并运用于 2007 年 发售的 Tesla 系列,标志着 GPU 不再是图形处理器,而成为通用计算平台。尽管在 较长的时间里,CUDA 带来的高投入低回报并未得到市场的充分认可,前谷歌 CEO Eric Schmidt 称“CUDA 不过是 NVIDIA 为推广其 GPU 产品而推出的一项‘多余’ 的技术”。但随着 AI 时代到来,CUDA 即成为维护英伟达深厚护城河的重要力量。

相比 CPU,GPU 拥有更多的数据处理单元、更高的算力与内存带宽,使得其更 适合大规模并行运算。从运行效果上看, GPU 体现出远高于 CPU 的运算能力及内 存带宽,从运行逻辑上看,CPU 适合复杂、灵活的逻辑运算,GPU 适合简单、大规 模的并行运算,在底层硬件上,CPU 的控制单元、缓存单元占有较大比重,而 GPU 则以并行的数据处理单元为主。

英伟达通过 GPU 实现加速计算的核心在于 2 个技术:SIMT(Single-Instruction, Multiple-Thread)和 Hardware Multithreading。 SIMT:即单指令,多线程。所有线程共享同一指令流,这种设计使得 GPU 能 够在大量数据上同时进行相同或几乎一致的计算; Hardware Multithreading:将进程的运行上下文一直保存在硬件上,因而不存 在运行上下文切换带来开销的问题(传统 CPU 的多进程是将进程运行上下文保存在 内存中,进程切换时涉及到内存的读取,因而开销较大)。

CUDA 体系由 3 部分构成: 1、 指令集架构:CUDA 定义了一种针对 GPU 特性的指令集,允许程序员直接 编写针对 GPU 硬件的代码。这些指令专为大规模并行处理而设计,能够高 效地驱动 GPU 上的数千个并行处理单元(如 CUDA 核心或流处理器)同时 工作。 2、 硬件:即英伟达 GPU 内部的 CUDA Core,这种高度并行的硬件设计使得 GPU 在处理大量数据时能显著提高计算效率,尤其适合于处理诸如矩阵运 算、图像处理、物理仿真、机器学习等需要大规模并行计算的任务。 3、 软件:包括如编程语言与 API、内存模型与管理、并行编程模型、广泛的开 发工具链等。 CUDA 硬件和数据架构的对应关系:(1)从硬件的构成关系上,CUDA Core 是 英伟达 GPU 最小的计算单元,多个 CUDA Core 叠加 warp scheduler,register,shared memory 等构成一个 SM(streaming multiprocessor),多个 SM 再构成整个 GPU;(2) 从数据架构上看,一个 CUDA Core 一次可以执行一个 Thread(线程),数个 Threads 组成一个 Block,同一个 Block 中的 Threads 可以同步,也可以通过 shared memory 通信,最后,多个 Blocks 则会再构成 Grid。此外,英伟达通常将 32 个 Thread 组合成一个 Warp,作为调度和运行的基本数据单元。

CUDA 的诞生标志着 GPU 正式从传统的图像处理进阶到通用计算领域,并在 如物理仿真、机器学习等需要大规模并行计算的任务中表现出色。CUDA 与英伟达 GPU 强绑定,推出至今已更新至 12.0 版本,在英伟达常年的运营下,拥有极为丰富 且成熟的软件生态,使得用户在选择 GPU 时倾向于继续使用英伟达的产品,形成较 高的用户粘性和迁移成本,成为英伟达的重要护城河。

拥有超 400 个 CUDA 函式库,构筑牢固生态壁垒。自 CUDA 诞生以来,英伟达 持续在优化及简化 CUDA 的运用市场,并推出超过 400 个函式库,包括专注于处理 神经网络的深度学习库 cuDNN、可用于流体动力学等物理定律的 Modulus、专注 5G 无线网络的 Aerial RAN、计算光刻平台 cuLITHO(运用于台积电)等等。CUDA 函 式库为细分领域与英伟达架构提供了有效结合,以 cuDNN 为例,因为 CUDA 与 TensorFlow、Pytorch 中的深度学习算法差异较大,CUDA 本身不能被深度学习科学 家直接使用,而 cuDNN 为开发者提供了与 GPU 便捷交互的桥梁。如此数百个高性 能计算场景的叠加,共同维护了英伟达广泛且丰富的生态护城河,成为英伟达 GPU 在加速计算领域处于垄断地位的核心原因。

然而 CUDA 在推出早期诟病颇多,核心归结于 2 点:(1)对于 CUDA 的研发 每年需花费约 5 亿美元的研发费用,而彼时 GPU 的高性能通用计算或主要用于科学 计算中,市场空间有限;(2)CUDA 对散热的更高需求导致了芯片瑕疵,市场推测 这或许导致了 2008 年诸多 PC 品牌的屏幕异常问题(显卡门事件)。因此早期资本市 场对 CUDA 认可度低,2009-2010 财年在次贷危机下,高研发投入也导致英伟达出 现亏损。

AI 驱动初见端倪,CUDA 前期重投入成效初显。转折出现在 2012 年,后来被 称为“深度学习之父”的Jeffery Hinton 教授使用英伟达的GPU 卡参加全球最为权威的 计算机视觉大赛 ImageNet 大赛,其设计的深度卷积神经网络 AlexNet 一举夺冠,成 为 AI 历史上的重大突破,也成为英伟达在加速计算上的重要发展方向。2016 年,英 伟达发布 Pascal 架构,推出 DGX-1,采用 NVLink 互连架构,首次将 8 个 Tesla P100 GPU 连在一起,并将第一台 DGX 交付给刚成立的 OpenAI。2016 年也成为公司加速 计算的财务拐点,FY2017 公司数据中心收入同比增长 145%至 8.3 亿美元,CUDA 前期的重投入初见成效。

2.3、 2017 年-至今(全面 AI 时代):生成式 AI 崛起,英伟达成为万亿“卖 水人”

2017 年,对 AI 行业与英伟达均是具有里程碑式意义的一年。这年 6 月,谷歌 大脑团队发表论文《Attention Is All You Need》,提出自注意力模型 Transformer 架构, 成为当下生成式 AI 的基石。而早在 1 个月前的 2017 GTC 大会上,英伟达 CEO 黄仁 勋开展了围绕 AI 与深度学习的主体演讲,并发布了 Volta V100 与 Tensor Core,标志 着英伟达将重点投入 AI 领域,其高性能 GPU 迅速在数据中心取得垄断性地位。与 此同时,得益于云计算行业进入成长期、疫情加速线上办公渗透等因素,英伟达数 据中心业务保持快速增长。

2022 年末 OpenAI 发布 ChatGPT,正式开启生成式 AI 浪潮。ChatGPT 并非最 早开始采用 Transformer 的大语言模型,如谷歌早在 2018 年便发布了 BERT,但参数 量仅有 1.09 亿个,ChatGPT 的成功得益于千亿级的参数规模,以及其背后使用的 few-shots(小样本)和用户反馈技术,证明了大模型中存在的涌现效应和 scaling law, 前者意味着当模型的规模和训练参数达到一定的阈值时,模型的性能和泛化能力会 突然出现显著提升;后者即指参数规模越大,模型性能越优秀。此后科技龙头围绕 大语言模型 LLM 逐步延伸产品体系,包括文生图、文生视频、多模态等方案陆续推 出,英伟达作为核心 GPU 厂商充分受益。在当前市场阶段,训练仍为 GPU 主要运 用场景,但随着商业化进程推进,推理占用的工作负载有望从 40%提升至 70%。

3、 数据中心:立足 GPU 领先优势,打造“三芯”战略

英伟达提供完善的加速计算解决方案,数据中心成为增长最大驱动力。自 CUDA 诞生以来,从质疑到理解,英伟达数据中心业务已超越游戏业务,成为本轮行情的 核心驱动。硬件方面,英伟达实行“GPU+CPU+DPU”三位一体的产品战略,提供 基于 CUDA 的 GPU 设备,并可通过组件形式(HGX、DGX、NVL72 等)提供加速 计算解决方案;软件方面,英伟达还提供包括丰富的加速软件库、NVIDIA AI Enterprise、DGX 云服务、API、SDK、特定领域应用程序等软件,使得公司数据中 心业务成为全栈技术平台。客户包括云厂商(CSP)、消费互联网企业、智算中心、 超算中心等部门,2019 年英伟达以 69 亿美元收购 Infiniband 互联技术龙头企业 Mellanox,完善了英伟达在高速互联领域的布局,结合 Mellanox 的优势,NVIDIA 能 够优化整体计算、网络和存储堆栈的数据中心级工作负载,从而助力客户实现更高 的性能和利用率,并降低运营成本。

英伟达形成“CPU+GPU+DPU”三芯架构。2020 年,在完成对 Mellanox 的收 购后,英伟达推出 BlueField-2 DPU,将其定义为继 CPU、GPU 之后“第三颗主力芯 片”。随后在 2021 年的 GTC 大会上,英伟达发布基于 ARM 架构的 CPU——NVIDIA Grace,黄仁勋正式将英伟达产品路线升级为“GPU+CPU+DPU”的“三芯”战略。

3.1、 GPU: 架构持续迭代,AI 算力的硬通货

英伟达 GPU 架构持续迭代,朝着愈发适宜 AI 计算的方向逐步演进。从 Tesla 到Blackwell,公司持续迭代GPU架构,从工业体系上逐层从40nm演进至4nm,CUDA 核心数也从最初的 128 个增加至上万个,并添加了 Tensor 张量计算核心、NVLink、 RTCore、结构稀疏性矩阵 MIG 等功能,数据计算类型逐步丰富,包含了 FP、INT、 TF、BF 等数据类型,计算架构逐步朝更适合 AI 运算的方向演进。而在最新的 Blackwell 架构中,GPU 有望达到 20000 TFLOPS FP4 算力,较以往代际的架构有本质的提升,每 token 的耗能也在持续下降,部分性能是通过降低浮点精度来实现的(从 Pascal 的 FP16 降至 Blackwell 的 FP4),但在数据格式、软件处理和硬件的配合演进 下,对 LLM 性能带来的影响并不大。

多形态 GPU 组合销售,英伟达更好满足不同客户需求,更好将“三芯”战略与 网络技术相结合。英伟达亦通过模组将 GPU、CPU、网络连接技术等组合到一起, 形成 AI 计算平台进行销售,代表产品有 HGX 系列、DGX 系列等,不同规格的产品 适用于不同客户、不同场景。例如,HGX 仅提供 8 个 GPU 集成的模组,方便 OEM 厂商集成,注重灵活性与定制型,可以根据客户的特定需求来调整和优化系统配置; 而 DGX 包含了完整的 GPU、CPU、存储和网络,尤其包含了与英伟达 GPU 适配的 NVLink、以太网/InfiniBand 网络技术,是标准化产品,强调简易性和便捷性,可以 快速部署和运行,适合需要即用型解决方案的大型企业。

3.2、 CPU: 依托 Arm 实现较强内存一致性,NVLink-C2C 保证芯片高 宽带互联

在云计算领域,Arm 市场份额逐步提升。实际上,在以云计算为代表的数据基 础设施领域,Arm 的份额正逐步提升,根据 Arm 公司财报,FYE22-FYE24 年(公历 年 2021 年 12 月-2024 年 11 月),在云计算领域,Arm 市场份额从 9%提升之 15%, 网络设备领域市场份额从 23%提升至 28%,尽管其中或许包含了中国市场为应对 x86 架构供给限制而增加对 Arm 的运用,但英伟达、微软、AWS 等企业相继开发基于 Arm 的 CPU,也表明相比 x86 架构,Arm 在数据中心领域亦有其发展优势。

Arm 架构下,CPU 可以实现较强的内存一致性与定制化,更能适应 AI 数据计 算。传统的 x86 服务器系统架构,内存通过 PCIe 连接一个通用现成的 CPU,但 CPU 以及加速器之间的接口限制了产品最终的性能水平。因为所有的加速器都必须通过 该 CPU 访问额外内存,无法达到内存的一致性。而在 Arm 架构下,每一个 CPU 都 单独和一个加速器相连,实现较强的内存一致性,能够更好支持 AI 计算。此外,由 于 x86 提供的是标准化芯片,而 Arm 可以根据需求提供定制化 CPU,是 Arm 攫取 市场份额的另一重要原因,英伟达能够开发出 Grace CPU 的前提也在于 Arm 的可定 制性。

采用 NVLink-C2C 技术,发布基于 Arm 架构的 Grace 系列 CPU。传统的 CPU 框架难以满足 AI 高性能计算对计算能力和效率的要求,基于此,2021 年英伟达发布 数据中心CPU——Grace,并于 2022 年3 月在GTC大会上正式宣布推出Grace Hopper 和 Grace CPU 超级芯片,采用 Arm Neoverse V2 核心,具体来讲: Grace Hopper:以 CPU+GPU 的设计专为应对巨型 AI 和 HPC 挑战,能使用 NVLink-C2C 技术,并且有达到了 900 GB/s 速率的全新一致性接口。 Grace CPU 超级芯片:由两个 CPU 芯片组成,通过 NVLink-C2C 互连技术连接, CPU 内核达到 144 个核心,能对 LPDDR5X ECC 内存进行支持,带宽达到 1TB/s。

Grace Hopper 超级芯片的核心在于 NVLink-C2C 技术及内存一致性: NVLink-C2C 是一种内存连贯、高带宽和低延迟超级芯片互连,是 Grace Hopper 超 级芯片的核心,提供高达 900 GB / s 的总带宽,比通常用于加速系统的 x16 PCIe Gen5 通道带宽高 7 倍。在 Arm 架构下,Grace 可以实现 CPU 核心和缓存的分布式 架构,保障了内存一致性及高速的总对分宽带,使得 CPU 和 GPU 线程可以同时透 明地访问 CPU 和 GPU 驻留内存,让开发者专注于算法而非显示内存管理。

此外,在服务器 CPU 架构上,通常采用 NUMA(非一致性内存访问)来减少内 存访问延迟的问题,与传统的多个 NUMA 节点的架构不同,英伟达 Grace CPU 简化 为仅有 2 个节点,进一步缓解 NUMA 应用程序开发人员的瓶颈。

3.3、 DPU:收购 Mellanox,实现数据摩尔定律

摩尔定律放缓与带宽加速成长的矛盾,催生对高效网络的需求。制程上的摩尔 定律逐步失效,但“数据摩尔定律”却持续存在。2010 年前,网络的带宽年化增长 大约是 30%, 2015 年增长到 35%,然后在近年达到 45%。相对应的,CPU 的性 能增长从 10 年多前的 23%逐步下降到近几年的 3.5%。RBP 指标在 2010-2015 年 达到 3 左右,并预计在未来几年达到 30。CPU 算力与网络带宽增速剪刀差持续放 大,根据 Fungible 和 AWS 的统计,在大型数据中心,网络流量的处理占到了计算 的 30% 左右,也催生了市场对于更优网络解决方案的诉求。

DPU(数据处理单元)是专门用于处理数据中心网络传输、数据安全和基础设 施任务的芯片,旨在减轻 CPU 在数据传输、加密和存储等任务中的负担。DPU 由 NIC(网卡)逐步演进而来,基础的 NIC 是一个 PCIe 设备,它仅实现了与以太网 的连接,即实现了网络层次中的 L1-L2 层,此后的智能网卡(SmartNIC)普遍实现 了部分 L3-L4 层逻辑的卸载,可处理包括校验和计算、传输层分片重组、云化网络 转发功能等工作。而到了 DPU 时代,可进一步实现安全相关功能全卸载、虚拟化、 I/O 优化等问题。

英伟达收购 Mellanox,开启 DPU 布局。2019 年英伟达收购 Mellanox,加速了 DPU 技术的落地,并在 2020 年发布了 BlueField 系列的 DPU 产品,落地 GPU-direct RDMA 技术,实现了 GPU 对其他主机 GPU 内存的直接访问。此后,英伟达围绕 DPU 持续完善 BlueField 产品布局,目前英伟达已发布 BlueField-3 DPU 及 SuperNIC,并 利用 DOCA 软件开发套件为 BlueField DPU 快速创建应用程序和服务。

除了 GPU-Direct DRMA,Mellanox 为英伟达提供了更为关键的两个技术: ASAP2 和 NVMe SNAP 技术。 ASAP2:即加速交换及数据包处理技术,针对服务器虚拟化场景 OVS 存在的 IO 性能不佳、高 CPU 开销的问题,ASAP2 可将虚拟交换数据路径完全的卸载到 NIC 中的嵌入式交换机(eSwitch)中,几乎所有进出服务器的流量都可以由 eSwitch 快 速处理,大大释放 CPU 性能; NVMe SNAP:针对 NVMe 存储虚拟化的加速处理技术。NVMe SNAP 使得远程 存储看起来像本地 NVMe SSD,消除了本地存储的低效性,同时满足了对云计算和 存储解耦以及可组合性的日益增长的需求。

3.4、 NVLink 技术:实现 GPU 数据直连,NVSwitch 提升 GPU 链路上限

NVLink 是英伟达 GPU 与 GPU、GPU 与 CPU 的高速互连技术。传统的 GPU 通常采用 PCIe 接口与 x86 架构的 CPU 互联,由于记忆系统的差异(GPU 有更快但 更小的内存,而 CPU 有较大但较慢的内存),限制了彼此的数据传输能力。2014 年, 英伟达联合 IBM 推出 NVLink 高速互联技术,使得 GPU 与 CPU 可以以 5-12 倍的速 度分享数据,此外,NVLink 协议在设计时考虑了数据一致性问题,使得不同 GPU 之 间的数据访问可以保证一致性。此后英伟达 NVLink 持续迭代,至 NVLink4.0 版本, 带宽速度已达到 900GB/s,是 PCIe 5.0 的 5 倍。在 2024 年的 Hotpoint 大会上,英伟 达介绍了用于 Blackwell 架构的 NVLink5.0,整体双向带宽将达到 1.8TB/s,是 PCIe 带宽的 14 倍,相较上一代,可以说 NVLink5.0 有着明显的突破。

NVSwitch 进一步放大了 NVLink 的优势,带动 NVLink 带宽数倍放大。在 NVLink 协议的基础上,英伟达在 2018 年的 GTC 大会上进一步推出 NVSwitch。在 仅有 NVLink 技术的模式下,尽管 GPU 实现了数据的直连,但采用的是点对点的方 式,假设在一个 8 卡 H200 的服务器中,该方式下每个 GPU 必须将带宽(900GB/s) 拆分为 7 个点对点的专用连接,则每个连接的带宽为 900 /7=128GB/s,而系统的总 带宽取决于正在通信的 GPU 数量。NVSwitch 的引入取消了点对点直连的方式,能 够将 GPU 带宽持续维持在 900GB/s 的水平。也正是这一技术特征,NVLink 能够持 续提升链路数。

在 Blackwell 架构下,NVLink 域内直连 GPU 数量大幅提升,带动聚合总带宽 达到 1PB/s。

3.5、 网络解决平台:充分布局 Infiniband 与以太网,期待 Spectrum 后 续突破

10 万卡集群时代到来,网络集群能力愈发重要。随着大模型的深化及对算力的 持续追求,10 万卡集群已成为新的追求目标,2024 年 7 月 23 日,马斯克在社交媒 体 X 上宣布,xAI 的孟菲斯超级集群拥有 10 万台液冷 H100 GPU,开启了鲶鱼效应, 国内头部云计算公司陆续发布 10 万卡集群方案,随后 11 月 Meta 亦称 Llama 4 模型 正在 10 万片 H100 的集群上训练。可以预见,10 万卡集群将成为头部大模型难以回 避的发展方向,与之相关的网络集群能力也愈发重要。

Infiniband 在高性能计算领域具备优势,英伟达(Mellanox)处于领导地位。 Infiniband 与以太网是数据中心采用的主要网络标准,得益于高传输速率和低延迟的 特性,Infiniband 在服务器间的高速通信、存储设备与网络设施之间的高效互联中扮 演着至关重要的角色。根据 2022 年 6 月公布的数据,超级计算机 TOP500/TOP100 榜单中,有 38%/59%的系统采用了 InfiniBand 作为关键的互连技术手段,其中英伟 达 Mellanox HDR Quantum QM87xx 交换机和 BlueField DPU,在超过三分之二的超 级计算机中占据了主导互连的地位,因此在 Infiniband 交换机领域,英伟达已经有明 显优势。

为进一步实现超大型数据集的网络效率,英伟达推出 Quantum 及 Spectrum 网 络平台。在英伟达长远的愿景中,数据中心将取代单个芯片,成为计算系统的基本 单元,因此除了 DPU、NVLink,整体网络加速以及实现万卡甚至十万卡集群的能力 亦是发展重点。2024 年 3 月,英伟达推出 Quantum-X800 InfiniBand 和 Spectrum-X800 以太网平台,是全球首款能够实现端到端 800Gb/s 吞吐量的网络平台,被 Microsoft Azure 和 Oracle Cloud采用。从运用场景上看,Quantum得益于Infiniband的高吞吐、 低延时,可用于对大模型训练有极致需求的场景(AI 工厂),而 Spectrum 可用于追求性价比、与以太网兼容的场景(AI 云)。此外,全球首个 10 万卡集群的 xAI 亦采 用了英伟达的 Spectrum-X 以太网平台。

随着推理场景占比加重,Spectrum 以太网解决方案或愈发重要。尽管 Infiniband 在高宽带、低延迟上具备优势,但以太网与 PCIe 持续更新,与 Infiniband 并未拉开 较大差距,因此从性价比以及英伟达一家独大的规避上,以太网解决方案的生态愈 发具备生命力。2023 年 7 月,AMD、微软等 9 家硅谷大厂联手成立了超以太网联盟 (UEC),对以太网进行了三项重要改进(数据包喷洒、访问灵活排序、网络拥塞管 理),以强化与 Infiniband 的竞争;2024 年根据《The Information》报道,微软 和 OpenAI 正在共建一个大型数据中心“星际之门”(Stargate),在网络基础设施方面 倾向于使用开放以太网协议而非 InfiniBand。此外,随着推理场景的计算逐步起量, 出于对性价比、端侧计算、兼容性等方面考虑,以太网网络方案也逐渐成为大模型 厂商的考虑方向,英伟达的 Spectrum 业务也将愈发重要。

主流企业以太网交换芯片企业主要企业以太网方案各有侧重,看好英伟达 Gen-AI网络开发能力 。当前全球已发布 51.2Tbps以太网交换芯片的共有 Broadcom、 Marvell、NVIDIA、 Cisco 与华为五家,其中华为与 Cisco 主要以自用为主。头部企 业所推出的交换机产品基本都能提供拥塞管理、数据包喷射、链路故障转移等核心 功能,不同企业着重点略有不同,如英伟达强调与 AI 推训的适配、博通强调功耗、Marvell 强调低延迟、Cisco 强调高 SerDes 配置基数。然而随着技术更新,企业彼时 的优势也很快被对手赶超,如当前主要企业均实现 512x112 Gbit/s 的 SerDes 带宽, Cisco Silicon ONE G200 的优势相对弱化。而就英伟达而言,尽管当前公司 SerDes 带宽较竞品略低,但我们认为其优势在于 GPU 端到端整体优化能力,基于 NCCL 无 缝支持 RDMA 接口,可大大降低 AI 应用从 TCP 转向 RDMA 框架的开发难度。目 前英伟达 Spectrum-X 方案已经落地 xAI 的 10 万卡计算机集群,2025 年公司或将进 一步推出 Spectrum Ultra X800,英伟达有望在以太网网络成功卡位,进一步放大自 身优势。

4、 游戏&专业可视化:公司传统优势业务,推陈出新挖掘增量

游戏与专业可视化是英伟达 GPU 作为图形处理器的重要方向,也是公司的传统 优势业务,持续处于行业垄断地位: 1、 游戏:1999 年,英伟达推出 GeForce 系列,首次定义 GPU,2018 年发布 GeForce 20 系列,通过搭载 RT Core 实现了实时光追,同时 Turing 架构的 Tensor Core 可实现 DLSS 技术,进一步放大光追效果。经过 20 余年迭代, GeForce系列已更新至GeForce 40系列(2022年9月发布),采用Ada Lovelace 微架构,支持第三代光追功能,GeForce 50 系列有望在 2025 年发布,根据 往年数据,有望带动销售增长。英伟达提供的软硬件产品和服务包括:(1) 用于桌面端的 GTX 和 RTX 系列 GPU。(2)用于移动端笔电 GTX 和 RTX 系列 GPU。(3)用于显示器的 G-SYNC 处理器。(4)Geforce Now 云游戏 平台。 2、 专业可视化:专业显卡是图形工作站的主要组成部分,与消费类显卡相比, 3D 专业显卡主要面对的是 3D 动画(如 3DS Max、Maya、Softimage|3D)、渲染(如 LightScape、3DS VIZ)、CAD(如 AutoCAD、Pro/Engineer、Unigraphics、 SolidWorks)、模型设计(如 Rhino)以及部分科学应用等专业 OpenGL 应用 市场。工作站对显卡的速度、稳定性尤其是软件的兼容性要求更高。目前全 球主要的工作站显卡厂商是英伟达和 AMD,虽然专业显卡和消费显卡在终 端要求有着明显的不同,但是近年来英伟达和 AMD 都逐渐将旗下娱乐级显 卡和专业级显卡统一到相同的核心架构下,甚至是完全相同的芯片,由外围 电路和软件控制决定是消费类显卡还是专业类显卡。

4.1、 游戏:龙头地位稳固,关注 AI PC 驱动机会

GeForce 市场份额领先,主打高端市场。早期因英伟达与微软矛盾激化、英特 尔扶持 ATI 等因素,Radeon 系列在 2004 年市场份额曾短暂超越英伟达,而随着英 伟达与微软和解、拿下索尼订单,业务恢复正常化,重回领先地位,但 2005-2013 年英伟达与 AMD(2006 年收购 ATI)整体上处于来回拉锯的阶段。后续因 AMD 对 ATI 收购的整合效果较差,负债提升、逐步对 GPU 部门造成拖累,彼时 AMD 的产 品在内存、带宽等性能上可以短暂性优于英伟达,但能耗表现却远不如同期英伟达 的 Maxwell 架构。2014 年后,二者份额差距持续拉大,目前英伟达 GeForce 系列主 打高端市场,而 AMD 主要聚焦中低端市场。

英伟达 GeForce 旗舰产品性能优于竞品,主打中高端市场。对比当下英伟达 (GeForce RTX 4090)及 AMD(Radeon RX 7900 XTX)的旗舰产品,英伟达在核心 性能参数上明显优于 AMD,由此,在售价上英伟达聚焦中高端,AMD 主打中低端, 英伟达售价高出 AMD 60%。此外,由于 AMD 的显卡没有 Tensor Core,因而无法实 现 DLSS(深度学习超级采样)功能,AMD 主要通过 FSR(FidelityFX 超级分辨率) 来升级图像,但画质较英伟达 DLSS 仍有差距。

英伟达显卡市场份额持续提升,行业或面临衰退风险。2022-23 年因为疫情、加 密市场退潮,导致 GPU 需求减弱,行业进入一段时期的库存消化中,并于 2023 年 下半年开始逐步修复,根据 JPR 数据,3Q24 全球 AIB 显卡市场出货量 810 万片,同 比下降 7.9%,英伟达/AMD 在 AIB 显卡市场份额为 90%/10%,英伟达市场份额同比 提升 8 pcts(与之对应的是 AMD 市场份额的下降),或因为 AMD 主要主机客户(微 软、索尼)调整库存导致半定制收入下降。展望未来,根据 JPR 预测,美国关税政 策或将大幅提升终端用户价格,进而抑制消费,预计 2024-2028 年 AIB 显卡出货量 CAGR 为-6%。

以 AI PC 主导的换机潮获将进入加速阶段,英伟达显卡有望从中受益。尽管行 业景气度有待改善,但英伟达 GeForce 持续更新版本,2025 年 RTX50 系列发布,性 能进一步提升;另一方面,我们认为本轮 AI PC 替换浪潮有望为英伟达显卡提供增 长机遇。根据 Gartner 预测,2024/25 年 AI PC 出货量预计达到 4303/11422 万台,同 比增长 100%/165%,2025 年 AI PC 出货量在 PC 中占比将从 2024 年的 17%增长至 43%,2024 年高通 Snapdragon X 系列、AMD Ryzen AI 300 系列、英特尔 Lunar Lake 系列相继发布,为 Copilot+ PC 做好铺垫。落脚到英伟达,基于公司在 AI 领域的积 淀,有望联合 PC 厂商推出基于 AI PC 的显卡产品,根据英伟达 FY2025Q3 业绩交流, 公司已开始出货华硕和 MSI 的新款 GeForce RTX AI PC,最高配备 321 AI TOPS, 利用 RTX 光线追踪和 AI 技术的力量来增强游戏、照片和视频编辑、图像生成和 编码。

4.2、 专业可视化:构建丰富生态,打造 Omniverse 平台布局未来

打造生态平台,赋能专业领域新发展。在专业可视化领域,英伟达于 2018 年在 GPU 品牌 Quadro 中引入 RTX 技术,并在后续逐渐以 RTX 替代传统的 Quadro 命名 方式。专注游戏场景的 GeForce 强调高性能,而用于专业绘图场景的 RTX 追求稳定 性、正确性。英伟达围绕 NVIDIA RTX 开发了一个完整的生态系统,包括硬件、高 级软件和工具、跨行业平台以及丰富的第三方应用程序网络,以此提供解决方案助 力设计师、艺术家、科学家和研究人员以更快的速度解决问题,运用场景包括专业 笔记本电脑、工作站、虚拟化、嵌入式场景等。

从软硬件到云服务上,英伟达专业显卡已经有较好渗透。超过 20 家主流创作软 件厂商的产品针对 RTX 和 QUARDO RTX 进行加速优化;Dell、HP 和联想(3 大品 牌工作站市占率超过 90%)是英伟达的核心合作伙伴;亚马逊、阿里等全球领先的 云服务商为英伟达提供稳定的云服务支持。

英伟达依托 Omniverse 平台,改变创作工作流程。NVIDIA Omniverse 是由英伟 达开发的一个易扩展开放式平台,专为虚拟协作和实时逼真模拟打造。可以让各行 业设计者能够通过云在软件之间、在本地或世界各地无缝地实时工作。传统的内容 创作工作流程是线性的,需要逐步进行,且无法多个流程同时进行操作。Omniverse 将工作流程网络化,一个程序中的修改会立即反映到所有相关程序中,制作流程整 合到一个统一的查看和修改环境中。Omniverse 被行业采用的关键是大型团队能够在 共享的 3D 场景中跨多个软件应用程序同时工作,工程师可以同时处理模拟图像的相 同部分。

Omniverse 生态系统由 5 个组件组成:Nucleus,Connect,套件,仿真和 RTX。 管理基于 USD 的 Omniverse Nucleus 服务器、用于先进设计应用程序的插件 Omniverse Connectors,最终用户应用程序 Omniverse Create 和 Omniverse View,以 及 RTX 虚拟工作站工具。

Omniverse 市场前景广阔,有望成为拉动专业可视化业务的重要力量。Omniverse 基于世界顶尖动画制作工作室 Pixar 被广泛采用的开源动画工具 USD(通用场景描 述),将数十种设计者熟悉的开发平台兼容于一体,省去了设计师对于新开发环境的 适应过程,简化应用间繁琐的导入/导出,实现了简洁高效的协作,以满足来自不同 行业的多元需求。Omniverse 已将其覆盖范围从工程师扩大到几乎任何可以使用 Blender 的用户(主流 3D 创作软件),被称作是“工程师的元宇宙”,目前已被 700 多 家公司和 7 万多名个人创作者采用,而全球有超过 4000 万使用高性能 PC 进行内容 创作的创作者和工作室,未来可拓展市场空间较为广阔。

5、 汽车业务:域控芯片份额领先,期待 Thor 发布巩固地位

L2 及以上 ADAS 系统装配率快速提升,智能驾驶市场正处在加速渗透的窗口期。 随着软件算法的不断迭代以及算力芯片和传感器等硬件成本的降低,智能驾驶已进 入 L2+时代,国内乘用车 ADAS 系统功能(L1-L2.9)装配率稳步提升,且进入 2024 年, 新上市乘用车 L2.9 装配率提升明显,这与国内车企和 Tier 1 将重点集中在高阶辅助 驾驶、大规模落地行泊一体及 NOA 方案的趋势一致。

GPU 承担汽车 AI 能力主要角色:现阶段的 ADAS(高级驾驶辅助系统)功能较为 独立,每个功能的前期预处理、数据融合、控制指令输出均有单独的芯片处理。随 着芯片算力的迅速提升,软件算法的持续优化,大量计算将由一颗主芯片来承担。 传统 CPU 存在算力不足和难以处理非结构化数据的缺陷,而 GPU 既可同时处理大 量简单任务又可完成图像运算的特点,使其成为实现汽车高等级自动驾驶的主流方 案。

英伟达构建了 DRIVE AGX 软硬件平台,整合了高性能的 GPU 计算能力、丰 富的传感器接口以及高度优化的软件算法,为智能驾驶的训练和模拟提供了全方位 的支持: 硬件上:2018 年英伟达发布 DRIVE Orin 芯片(Ampere 架构),2022 年继续发 布 DRIVE Thor(Hopper 架构),算力达到 2000TOPS,相当于 Orin 的 8 倍,2024 年 DRIVE Thor 超级芯片进一步升级至 Blackwell 架构,并将于 2025 年量产,理想、极 氪、比亚迪、广汽埃安昊铂、小鹏加入到 Thor 芯片的合作中。Thor 可以实现多域计算整合车辆功能,而不是依赖分布式 ECU; 软件上:英伟达提供 DriveOS 操作系统,可用于 CUDA 库和 TensorRT,同时在 DriveOS 上提供 DriveWorks 中间件。

除了自研体系的特斯拉,英伟达在智驾域控芯片领域处于垄断地位。根据盖世 汽车数据,2024 年 1-9 月英伟达中国智驾域控芯片装机量市场份额达到 37.8%,大 幅领先除特斯拉外的其他厂商,2023 年 NOA 计算方案市场份额亦达到 48.99%,当 前市场已经形成英伟达主导高端,地平线、黑芝麻智能等品牌主导中低端的市场格 局。

英伟达算力、能效比领先,成为车企首选。在当前主流的智驾芯片方案中,英 伟达算力明显领先于其余国内外厂商,同时保持了最高的能效比,此外英伟达采用 模态化设计,为未来扩展到 L3-L5 留有空间,依托完善的软硬件工具链及更强的定制化能力,英伟达成为众多智能汽车品牌的首选。待 2025 年 Thor 发布,在 Blackwell 框架下英伟达智驾芯片性能有望继续提升,市场地位或将持续巩固。


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告
评论
  • 相关文档
  • 相关文章
  • 全部热门
  • 本年热门
  • 本季热门
  • 全部热门
  • 本年热门
  • 本季热门
  • 最新文档
  • 最新精读
分享至