英伟达提供完善的加速计算解决方案,数据中心成为增长最大驱动力。
1. 数据中心:立足 GPU 领先优势,打造“三芯”战略
GPU: 架构持续迭代,AI 算力的硬通货
英伟达 GPU 架构持续迭代,朝着愈发适宜 AI 计算的方向逐步演进。从 Tesla 到Blackwell,公司持续迭代GPU架构,从工业体系上逐层从40nm演进至4nm,CUDA 核心数也从最初的 128 个增加至上万个,并添加了 Tensor 张量计算核心、NVLink、 RTCore、结构稀疏性矩阵 MIG 等功能,数据计算类型逐步丰富,包含了 FP、INT、 TF、BF 等数据类型,计算架构逐步朝更适合 AI 运算的方向演进。而在最新的 Blackwell 架构中,GPU 有望达到 20000 TFLOPS FP4 算力,较以往代际的架构有本质的提升,每 token 的耗能也在持续下降,部分性能是通过降低浮点精度来实现的(从 Pascal 的 FP16 降至 Blackwell 的 FP4),但在数据格式、软件处理和硬件的配合演进 下,对 LLM 性能带来的影响并不大。
多形态 GPU 组合销售,英伟达更好满足不同客户需求,更好将“三芯”战略与 网络技术相结合。英伟达亦通过模组将 GPU、CPU、网络连接技术等组合到一起, 形成 AI 计算平台进行销售,代表产品有 HGX 系列、DGX 系列等,不同规格的产品 适用于不同客户、不同场景。例如,HGX 仅提供 8 个 GPU 集成的模组,方便 OEM 厂商集成,注重灵活性与定制型,可以根据客户的特定需求来调整和优化系统配置; 而 DGX 包含了完整的 GPU、CPU、存储和网络,尤其包含了与英伟达 GPU 适配的 NVLink、以太网/InfiniBand 网络技术,是标准化产品,强调简易性和便捷性,可以 快速部署和运行,适合需要即用型解决方案的大型企业。
CPU: 依托 Arm 实现较强内存一致性,NVLink-C2C 保证芯片高 宽带互联
在云计算领域,Arm 市场份额逐步提升。实际上,在以云计算为代表的数据基 础设施领域,Arm 的份额正逐步提升,根据 Arm 公司财报,FYE22-FYE24 年(公历 年 2021 年 12 月-2024 年 11 月),在云计算领域,Arm 市场份额从 9%提升之 15%, 网络设备领域市场份额从 23%提升至 28%,尽管其中或许包含了中国市场为应对 x86 架构供给限制而增加对 Arm 的运用,但英伟达、微软、AWS 等企业相继开发基于 Arm 的 CPU,也表明相比 x86 架构,Arm 在数据中心领域亦有其发展优势。
Arm 架构下,CPU 可以实现较强的内存一致性与定制化,更能适应 AI 数据计 算。传统的 x86 服务器系统架构,内存通过 PCIe 连接一个通用现成的 CPU,但 CPU 以及加速器之间的接口限制了产品最终的性能水平。因为所有的加速器都必须通过 该 CPU 访问额外内存,无法达到内存的一致性。而在 Arm 架构下,每一个 CPU 都 单独和一个加速器相连,实现较强的内存一致性,能够更好支持 AI 计算。此外,由 于 x86 提供的是标准化芯片,而 Arm 可以根据需求提供定制化 CPU,是 Arm 攫取 市场份额的另一重要原因,英伟达能够开发出 Grace CPU 的前提也在于 Arm 的可定 制性。
采用 NVLink-C2C 技术,发布基于 Arm 架构的 Grace 系列 CPU。传统的 CPU 框架难以满足 AI 高性能计算对计算能力和效率的要求,基于此,2021 年英伟达发布 数据中心CPU——Grace,并于 2022 年3 月在GTC大会上正式宣布推出Grace Hopper 和 Grace CPU 超级芯片,采用 Arm Neoverse V2 核心,具体来讲: Grace Hopper:以 CPU+GPU 的设计专为应对巨型 AI 和 HPC 挑战,能使用 NVLink-C2C 技术,并且有达到了 900 GB/s 速率的全新一致性接口。 Grace CPU 超级芯片:由两个 CPU 芯片组成,通过 NVLink-C2C 互连技术连接, CPU 内核达到 144 个核心,能对 LPDDR5X ECC 内存进行支持,带宽达到 1TB/s。
Grace Hopper 超级芯片的核心在于 NVLink-C2C 技术及内存一致性: NVLink-C2C 是一种内存连贯、高带宽和低延迟超级芯片互连,是 Grace Hopper 超 级芯片的核心,提供高达 900 GB / s 的总带宽,比通常用于加速系统的 x16 PCIe Gen5 通道带宽高 7 倍。在 Arm 架构下,Grace 可以实现 CPU 核心和缓存的分布式 架构,保障了内存一致性及高速的总对分宽带,使得 CPU 和 GPU 线程可以同时透 明地访问 CPU 和 GPU 驻留内存,让开发者专注于算法而非显示内存管理。

此外,在服务器 CPU 架构上,通常采用 NUMA(非一致性内存访问)来减少内 存访问延迟的问题,与传统的多个 NUMA 节点的架构不同,英伟达 Grace CPU 简化 为仅有 2 个节点,进一步缓解 NUMA 应用程序开发人员的瓶颈。
DPU:英伟达收购 Mellanox,开启 DPU 布局
2019 年英伟达收购 Mellanox,加速了 DPU 技术的落地,并在 2020 年发布了 BlueField 系列的 DPU 产品,落地 GPU-direct RDMA 技术,实现了 GPU 对其他主机 GPU 内存的直接访问。此后,英伟达围绕 DPU 持续完善 BlueField 产品布局,目前英伟达已发布 BlueField-3 DPU 及 SuperNIC,并 利用 DOCA 软件开发套件为 BlueField DPU 快速创建应用程序和服务。
除了 GPU-Direct DRMA,Mellanox 为英伟达提供了更为关键的两个技术: ASAP2 和 NVMe SNAP 技术。 ASAP2:即加速交换及数据包处理技术,针对服务器虚拟化场景 OVS 存在的 IO 性能不佳、高 CPU 开销的问题,ASAP2 可将虚拟交换数据路径完全的卸载到 NIC 中的嵌入式交换机(eSwitch)中,几乎所有进出服务器的流量都可以由 eSwitch 快 速处理,大大释放 CPU 性能; NVMe SNAP:针对 NVMe 存储虚拟化的加速处理技术。NVMe SNAP 使得远程 存储看起来像本地 NVMe SSD,消除了本地存储的低效性,同时满足了对云计算和 存储解耦以及可组合性的日益增长的需求。
NVLink 技术:实现 GPU 数据直连,NVSwitch 提升 GPU 链路上限
NVLink 是英伟达 GPU 与 GPU、GPU 与 CPU 的高速互连技术。传统的 GPU 通常采用 PCIe 接口与 x86 架构的 CPU 互联,由于记忆系统的差异(GPU 有更快但 更小的内存,而 CPU 有较大但较慢的内存),限制了彼此的数据传输能力。2014 年, 英伟达联合 IBM 推出 NVLink 高速互联技术,使得 GPU 与 CPU 可以以 5-12 倍的速 度分享数据,此外,NVLink 协议在设计时考虑了数据一致性问题,使得不同 GPU 之 间的数据访问可以保证一致性。此后英伟达 NVLink 持续迭代,至 NVLink4.0 版本, 带宽速度已达到 900GB/s,是 PCIe 5.0 的 5 倍。在 2024 年的 Hotpoint 大会上,英伟 达介绍了用于 Blackwell 架构的 NVLink5.0,整体双向带宽将达到 1.8TB/s,是 PCIe 带宽的 14 倍,相较上一代,可以说 NVLink5.0 有着明显的突破。
NVSwitch 进一步放大了 NVLink 的优势,带动 NVLink 带宽数倍放大。在 NVLink 协议的基础上,英伟达在 2018 年的 GTC 大会上进一步推出 NVSwitch。在 仅有 NVLink 技术的模式下,尽管 GPU 实现了数据的直连,但采用的是点对点的方 式,假设在一个 8 卡 H200 的服务器中,该方式下每个 GPU 必须将带宽(900GB/s) 拆分为 7 个点对点的专用连接,则每个连接的带宽为 900 /7=128GB/s,而系统的总 带宽取决于正在通信的 GPU 数量。NVSwitch 的引入取消了点对点直连的方式,能 够将 GPU 带宽持续维持在 900GB/s 的水平。也正是这一技术特征,NVLink 能够持 续提升链路数。
在 Blackwell 架构下,NVLink 域内直连 GPU 数量大幅提升,带动聚合总带宽 达到 1PB/s。
网络解决平台:充分布局 Infiniband 与以太网,期待 Spectrum 后 续突破
10 万卡集群时代到来,网络集群能力愈发重要。随着大模型的深化及对算力的 持续追求,10 万卡集群已成为新的追求目标,2024 年 7 月 23 日,马斯克在社交媒 体 X 上宣布,xAI 的孟菲斯超级集群拥有 10 万台液冷 H100 GPU,开启了鲶鱼效应, 国内头部云计算公司陆续发布 10 万卡集群方案,随后 11 月 Meta 亦称 Llama 4 模型 正在 10 万片 H100 的集群上训练。可以预见,10 万卡集群将成为头部大模型难以回 避的发展方向,与之相关的网络集群能力也愈发重要。
Infiniband 在高性能计算领域具备优势,英伟达(Mellanox)处于领导地位。 Infiniband 与以太网是数据中心采用的主要网络标准,得益于高传输速率和低延迟的 特性,Infiniband 在服务器间的高速通信、存储设备与网络设施之间的高效互联中扮 演着至关重要的角色。根据 2022 年 6 月公布的数据,超级计算机 TOP500/TOP100 榜单中,有 38%/59%的系统采用了 InfiniBand 作为关键的互连技术手段,其中英伟 达 Mellanox HDR Quantum QM87xx 交换机和 BlueField DPU,在超过三分之二的超 级计算机中占据了主导互连的地位,因此在 Infiniband 交换机领域,英伟达已经有明 显优势。

为进一步实现超大型数据集的网络效率,英伟达推出 Quantum 及 Spectrum 网 络平台。在英伟达长远的愿景中,数据中心将取代单个芯片,成为计算系统的基本 单元,因此除了 DPU、NVLink,整体网络加速以及实现万卡甚至十万卡集群的能力 亦是发展重点。2024 年 3 月,英伟达推出 Quantum-X800 InfiniBand 和 Spectrum-X800 以太网平台,是全球首款能够实现端到端 800Gb/s 吞吐量的网络平台,被 Microsoft Azure 和 Oracle Cloud采用。从运用场景上看,Quantum得益于Infiniband的高吞吐、 低延时,可用于对大模型训练有极致需求的场景(AI 工厂),而 Spectrum 可用于追求性价比、与以太网兼容的场景(AI 云)。此外,全球首个 10 万卡集群的 xAI 亦采 用了英伟达的 Spectrum-X 以太网平台。
随着推理场景占比加重,Spectrum 以太网解决方案或愈发重要。尽管 Infiniband 在高宽带、低延迟上具备优势,但以太网与 PCIe 持续更新,与 Infiniband 并未拉开 较大差距,因此从性价比以及英伟达一家独大的规避上,以太网解决方案的生态愈 发具备生命力。2023 年 7 月,AMD、微软等 9 家硅谷大厂联手成立了超以太网联盟 (UEC),对以太网进行了三项重要改进(数据包喷洒、访问灵活排序、网络拥塞管 理),以强化与 Infiniband 的竞争;2024 年根据《The Information》报道,微软 和 OpenAI 正在共建一个大型数据中心“星际之门”(Stargate),在网络基础设施方面 倾向于使用开放以太网协议而非 InfiniBand。此外,随着推理场景的计算逐步起量, 出于对性价比、端侧计算、兼容性等方面考虑,以太网网络方案也逐渐成为大模型 厂商的考虑方向,英伟达的 Spectrum 业务也将愈发重要。
主流企业以太网交换芯片企业主要企业以太网方案各有侧重,看好英伟达 Gen-AI网络开发能力 。当前全球已发布 51.2Tbps以太网交换芯片的共有 Broadcom、 Marvell、NVIDIA、 Cisco 与华为五家,其中华为与 Cisco 主要以自用为主。头部企 业所推出的交换机产品基本都能提供拥塞管理、数据包喷射、链路故障转移等核心 功能,不同企业着重点略有不同,如英伟达强调与 AI 推训的适配、博通强调功耗、Marvell 强调低延迟、Cisco 强调高 SerDes 配置基数。然而随着技术更新,企业彼时 的优势也很快被对手赶超,如当前主要企业均实现 512x112 Gbit/s 的 SerDes 带宽, Cisco Silicon ONE G200 的优势相对弱化。而就英伟达而言,尽管当前公司 SerDes 带宽较竞品略低,但我们认为其优势在于 GPU 端到端整体优化能力,基于 NCCL 无 缝支持 RDMA 接口,可大大降低 AI 应用从 TCP 转向 RDMA 框架的开发难度。目 前英伟达 Spectrum-X 方案已经落地 xAI 的 10 万卡计算机集群,2025 年公司或将进 一步推出 Spectrum Ultra X800,英伟达有望在以太网网络成功卡位,进一步放大自 身优势。
2. 游戏&专业可视化:公司传统优势业务,推陈出新挖掘增量
游戏与专业可视化是英伟达 GPU 作为图形处理器的重要方向,也是公司的传统 优势业务,持续处于行业垄断地位: 1、 游戏:1999 年,英伟达推出 GeForce 系列,首次定义 GPU,2018 年发布 GeForce 20 系列,通过搭载 RT Core 实现了实时光追,同时 Turing 架构的 Tensor Core 可实现 DLSS 技术,进一步放大光追效果。经过 20 余年迭代, GeForce系列已更新至GeForce 40系列(2022年9月发布),采用Ada Lovelace 微架构,支持第三代光追功能,GeForce 50 系列有望在 2025 年发布,根据 往年数据,有望带动销售增长。英伟达提供的软硬件产品和服务包括:(1) 用于桌面端的 GTX 和 RTX 系列 GPU。(2)用于移动端笔电 GTX 和 RTX 系列 GPU。(3)用于显示器的 G-SYNC 处理器。(4)Geforce Now 云游戏 平台。 2、 专业可视化:专业显卡是图形工作站的主要组成部分,与消费类显卡相比, 3D 专业显卡主要面对的是 3D 动画(如 3DS Max、Maya、Softimage|3D)、渲染(如 LightScape、3DS VIZ)、CAD(如 AutoCAD、Pro/Engineer、Unigraphics、 SolidWorks)、模型设计(如 Rhino)以及部分科学应用等专业 OpenGL 应用 市场。工作站对显卡的速度、稳定性尤其是软件的兼容性要求更高。目前全 球主要的工作站显卡厂商是英伟达和 AMD,虽然专业显卡和消费显卡在终 端要求有着明显的不同,但是近年来英伟达和 AMD 都逐渐将旗下娱乐级显 卡和专业级显卡统一到相同的核心架构下,甚至是完全相同的芯片,由外围 电路和软件控制决定是消费类显卡还是专业类显卡。
游戏:龙头地位稳固,关注 AI PC 驱动机会
GeForce 市场份额领先,主打高端市场。早期因英伟达与微软矛盾激化、英特 尔扶持 ATI 等因素,Radeon 系列在 2004 年市场份额曾短暂超越英伟达,而随着英 伟达与微软和解、拿下索尼订单,业务恢复正常化,重回领先地位,但 2005-2013 年英伟达与 AMD(2006 年收购 ATI)整体上处于来回拉锯的阶段。后续因 AMD 对 ATI 收购的整合效果较差,负债提升、逐步对 GPU 部门造成拖累,彼时 AMD 的产 品在内存、带宽等性能上可以短暂性优于英伟达,但能耗表现却远不如同期英伟达 的 Maxwell 架构。2014 年后,二者份额差距持续拉大,目前英伟达 GeForce 系列主 打高端市场,而 AMD 主要聚焦中低端市场。
英伟达 GeForce 旗舰产品性能优于竞品,主打中高端市场。对比当下英伟达 (GeForce RTX 4090)及 AMD(Radeon RX 7900 XTX)的旗舰产品,英伟达在核心 性能参数上明显优于 AMD,由此,在售价上英伟达聚焦中高端,AMD 主打中低端, 英伟达售价高出 AMD 60%。此外,由于 AMD 的显卡没有 Tensor Core,因而无法实 现 DLSS(深度学习超级采样)功能,AMD 主要通过 FSR(FidelityFX 超级分辨率) 来升级图像,但画质较英伟达 DLSS 仍有差距。
英伟达显卡市场份额持续提升,行业或面临衰退风险。2022-23 年因为疫情、加 密市场退潮,导致 GPU 需求减弱,行业进入一段时期的库存消化中,并于 2023 年 下半年开始逐步修复,根据 JPR 数据,3Q24 全球 AIB 显卡市场出货量 810 万片,同 比下降 7.9%,英伟达/AMD 在 AIB 显卡市场份额为 90%/10%,英伟达市场份额同比 提升 8 pcts(与之对应的是 AMD 市场份额的下降),或因为 AMD 主要主机客户(微 软、索尼)调整库存导致半定制收入下降。展望未来,根据 JPR 预测,美国关税政 策或将大幅提升终端用户价格,进而抑制消费,预计 2024-2028 年 AIB 显卡出货量 CAGR 为-6%。
以 AI PC 主导的换机潮获将进入加速阶段,英伟达显卡有望从中受益。尽管行 业景气度有待改善,但英伟达 GeForce 持续更新版本,2025 年 RTX50 系列发布,性 能进一步提升;另一方面,我们认为本轮 AI PC 替换浪潮有望为英伟达显卡提供增 长机遇。根据 Gartner 预测,2024/25 年 AI PC 出货量预计达到 4303/11422 万台,同 比增长 100%/165%,2025 年 AI PC 出货量在 PC 中占比将从 2024 年的 17%增长至 43%,2024 年高通 Snapdragon X 系列、AMD Ryzen AI 300 系列、英特尔 Lunar Lake 系列相继发布,为 Copilot+ PC 做好铺垫。落脚到英伟达,基于公司在 AI 领域的积 淀,有望联合 PC 厂商推出基于 AI PC 的显卡产品,根据英伟达 FY2025Q3 业绩交流, 公司已开始出货华硕和 MSI 的新款 GeForce RTX AI PC,最高配备 321 AI TOPS, 利用 RTX 光线追踪和 AI 技术的力量来增强游戏、照片和视频编辑、图像生成和 编码。

专业可视化:构建丰富生态,打造 Omniverse 平台布局未来
打造生态平台,赋能专业领域新发展。在专业可视化领域,英伟达于 2018 年在 GPU 品牌 Quadro 中引入 RTX 技术,并在后续逐渐以 RTX 替代传统的 Quadro 命名 方式。专注游戏场景的 GeForce 强调高性能,而用于专业绘图场景的 RTX 追求稳定 性、正确性。英伟达围绕 NVIDIA RTX 开发了一个完整的生态系统,包括硬件、高 级软件和工具、跨行业平台以及丰富的第三方应用程序网络,以此提供解决方案助 力设计师、艺术家、科学家和研究人员以更快的速度解决问题,运用场景包括专业 笔记本电脑、工作站、虚拟化、嵌入式场景等。
从软硬件到云服务上,英伟达专业显卡已经有较好渗透。超过 20 家主流创作软 件厂商的产品针对 RTX 和 QUARDO RTX 进行加速优化;Dell、HP 和联想(3 大品 牌工作站市占率超过 90%)是英伟达的核心合作伙伴;亚马逊、阿里等全球领先的 云服务商为英伟达提供稳定的云服务支持。
英伟达依托 Omniverse 平台,改变创作工作流程。NVIDIA Omniverse 是由英伟 达开发的一个易扩展开放式平台,专为虚拟协作和实时逼真模拟打造。可以让各行 业设计者能够通过云在软件之间、在本地或世界各地无缝地实时工作。传统的内容 创作工作流程是线性的,需要逐步进行,且无法多个流程同时进行操作。Omniverse 将工作流程网络化,一个程序中的修改会立即反映到所有相关程序中,制作流程整 合到一个统一的查看和修改环境中。Omniverse 被行业采用的关键是大型团队能够在 共享的 3D 场景中跨多个软件应用程序同时工作,工程师可以同时处理模拟图像的相 同部分。
Omniverse 生态系统由 5 个组件组成:Nucleus,Connect,套件,仿真和 RTX。 管理基于 USD 的 Omniverse Nucleus 服务器、用于先进设计应用程序的插件 Omniverse Connectors,最终用户应用程序 Omniverse Create 和 Omniverse View,以 及 RTX 虚拟工作站工具。
Omniverse 市场前景广阔,有望成为拉动专业可视化业务的重要力量。Omniverse 基于世界顶尖动画制作工作室 Pixar 被广泛采用的开源动画工具 USD(通用场景描 述),将数十种设计者熟悉的开发平台兼容于一体,省去了设计师对于新开发环境的 适应过程,简化应用间繁琐的导入/导出,实现了简洁高效的协作,以满足来自不同 行业的多元需求。Omniverse 已将其覆盖范围从工程师扩大到几乎任何可以使用 Blender 的用户(主流 3D 创作软件),被称作是“工程师的元宇宙”,目前已被 700 多 家公司和 7 万多名个人创作者采用,而全球有超过 4000 万使用高性能 PC 进行内容 创作的创作者和工作室,未来可拓展市场空间较为广阔。
3.汽车业务:域控芯片份额领先,期待 Thor 发布巩固地位
英伟达构建了 DRIVE AGX 软硬件平台,整合了高性能的 GPU 计算能力、丰 富的传感器接口以及高度优化的软件算法,为智能驾驶的训练和模拟提供了全方位 的支持: 硬件上:2018 年英伟达发布 DRIVE Orin 芯片(Ampere 架构),2022 年继续发 布 DRIVE Thor(Hopper 架构),算力达到 2000TOPS,相当于 Orin 的 8 倍,2024 年 DRIVE Thor 超级芯片进一步升级至 Blackwell 架构,并将于 2025 年量产,理想、极 氪、比亚迪、广汽埃安昊铂、小鹏加入到 Thor 芯片的合作中。Thor 可以实现多域计算整合车辆功能,而不是依赖分布式 ECU; 软件上:英伟达提供 DriveOS 操作系统,可用于 CUDA 库和 TensorRT,同时在 DriveOS 上提供 DriveWorks 中间件。
除了自研体系的特斯拉,英伟达在智驾域控芯片领域处于垄断地位。根据盖世 汽车数据,2024 年 1-9 月英伟达中国智驾域控芯片装机量市场份额达到 37.8%,大 幅领先除特斯拉外的其他厂商,2023 年 NOA 计算方案市场份额亦达到 48.99%,当 前市场已经形成英伟达主导高端,地平线、黑芝麻智能等品牌主导中低端的市场格 局。
英伟达算力、能效比领先,成为车企首选。在当前主流的智驾芯片方案中,英 伟达算力明显领先于其余国内外厂商,同时保持了最高的能效比,此外英伟达采用 模态化设计,为未来扩展到 L3-L5 留有空间,依托完善的软硬件工具链及更强的定制化能力,英伟达成为众多智能汽车品牌的首选。待 2025 年 Thor 发布,在 Blackwell 框架下英伟达智驾芯片性能有望继续提升,市场地位或将持续巩固。