2026年英伟达公司研究报告:全栈算力之巅,物理AI新纪元

  • 来源:西南证券
  • 发布时间:2026/01/20
  • 浏览次数:116
  • 举报
相关深度报告REPORTS

英伟达:全栈算力之巅,物理AI新纪元.pdf

英伟达:全栈算力之巅,物理AI新纪元。AI算力竞争转向系统集群级,架构演进和创新支撑公司产品力持续领先。AI算力已从芯片层级的竞争转向系统集群级的竞争,英伟达最新量产的Blackwell和下一代Rubin平台在架构上进行了演进和诸多创新,或重塑全球算力格局。Blackwell平台是首个整合了CPU、GPU、NVLink、NICK(特定技术组件)、以及网络交换机等多个元素的完整系统。BlackwellNVL72相较于上一代8卡服务器,性能提升了9倍,带宽增加了18倍,每秒浮点运算次数提升了45倍,而功率仅增加10倍。Blackwell已量产,广泛应用于各大科技公司和AI企业。2026年基于Bla...

智能计算的先驱与领导者,软硬一体全栈平台化战略

英伟达是全球 AI GPU 和消费级显卡的龙头企业。公司早期凭借 CUDA 库的构建,显著 降低了 GPU 的编程门槛,开创了 GPU 向通用计算市场拓展的先驱,引领了 GPGPU 的进 化之路。英伟达借助硬软件业务形成的 AI、Omniverse、Drive Hyperion 等平台,不断壮大 其计算生态,进一步夯实公司的业务护城河,AI 数据中心、智能驾驶等业务将打开公司成长 空间。

英伟达的产品线包含硬件和软件两部分。硬件产品主要包含数据中心、网络、游戏和创 作、嵌入式系统、笔电和专业工作站等板块;软件产品主要有应用框架、应用和工具、游戏 和创作、基础架构和云服务等板块。这种软硬一体的协同效应,不仅壮大了公司的计算生态, 更通过持续的算法优化与硬件迭代,筑起了极高的准入门槛。AI 数据中心、智能驾驶、以及 即将到来的物理 AI,正不断打开公司的长期成长空间。

AI 推动 GPU 的需求大幅提升,英伟达近三年业绩呈现快速增长态势。随着生成式 AI 爆发,推动 GPU 需求大幅增长,公司 FY2023 至 FY2025 财年营收从 269.7 亿美元高速增 长至 1305 亿美元,CAGR 高达 120%;期间 Non-GAAP 净利润从 83.7 亿美元高速增长至 742.7 亿美元,CAGR 高达 198%,净利率从 31%大幅提升至 56.9%。

英伟达业务结构可分为数据中心、游戏、专业视觉、汽车、OEM&IP 五大板块。其中, 数据中心和游戏为公司主要收入来源。FY26Q3 数据中心业务营收 512.2 亿美元,同比增长 66.4%,环比增长 24.6%,收入占比近 90%,成为英伟达收入和利润增长的最主要贡献。对 生成式 AI 和大语言模型的需求不断增长,众多 CSP 厂商、互联网大厂、算力租赁企业等竞 相部署 AI 芯片,带动了公司的数据中心业务大幅增长。

截止 2025 年 9 月 30 日,英伟达前五大机构持股合计 67 亿股,占比 27.6%。其中, Vanguard(先锋领航集团)、BlackRock(贝莱德集团)、FMR LLC、State Street、Geode Capital 五家机构持股占比分别为 9.15%、7.94%、4.04%、4.03%和 2.41%。

AI 算力全栈布局,下游 Capex 支撑高增长

2.1 下游资本支出持续攀升,数据中心业务高速增长

随着大模型的算法复杂度和训练/推理体量不断增长,算力基础设施的供给水平将直接影 响应用落地及其迭代的进程。反应各大互联网厂商对算力基础设施投入最直接的资本支出 (Capex)指标近三年来也在不断攀升。2023 年一季度至今,北美四大互联网公司(亚马逊、 微软、谷歌、Meta)的 Capex 总额基本实现每季度均环比增长的态势,2025 年三季度四家 公司的 Capex 总额达到 1133.2 亿美元,同比和环比分别增长 74.7%、18.2%,相比 23Q1 的体量增长了 2.2 倍。

资本支出的结构方面,微软率先在本轮 AI 周期中加大投资力度,从 23Q1 的 78 亿美元 增长至 25Q3 的 349 亿美元,增幅高达 3.5 倍;谷歌 23Q3 开始显著提升 Capex 力度,截至 25Q3 单季度支出近 240 亿美元;亚马逊 24Q1 开始扩张 Capex,从 24Q1 的 149 亿美元提 升至 25Q3 的 351 亿美元,目前其 Capex 体量与微软基本持平;Meta 从 24Q2 开始显著上 调 Capex,25Q3 其体量为 193.7 亿美元,同比增长 1.1 倍。

下游巨大的资本支出规模是英伟达数据中心业务高速成长的核心驱动力。公司数据中心 业务近五年收入 CAGR 高达 103.7%,FY2026Q3 财季数据中心收入 512.2 亿美元,同比增 长 66.4%,占公司整体收入比重 89.8%。 自 FY2024Q2 财季起,随着 AI GPU 的大量出货,数据中心业务迎来拐点。收入单季度 平均增速 184%,FY26Q3 体量几乎是 FY24Q2 的 5 倍;高盈利的 AI GPU 推动公司整体毛 利率的显著提升,从 FY24Q1的 64.6%提升至 FY26Q3的 73.4%,期间毛利率最高时为 78.4%。

2.2 AI 算力产品全栈布局,新平台重塑 AI 芯片格局

英伟达的数据中心解决方案整体提供了 NVIDIA 加速计算统一平台,从 AI、数据分析, 到高性能计算 (HPC),再到渲染,数据中心都是攻克某些重要挑战的关键。端到端的 NVIDIA 加速计算平台对硬件和软件进行了集成,可为企业构建强大而安全的基础设施蓝图,支持在 现代化工作负载中实施从开发到部署的操作。 借助基于 GPU、DPU 和 CPU 架构构建的 NVIDIA加速计算平台,英伟达或重塑 AI 时 代的数据中心。NVIDIA 加速计算平台可提供支持从用于改善业务预测的数据分析、到自动 驾驶汽车使用的 AI、再到用于医疗诊断的高级可视化等多种应用的基础架构。采用 NVIDIA 加速系统的每个服务器和工作站都将配备计算加速器,为当今使用的现代应用(包括 AI、可 视化和自主机器等)提供支持。其中许多系统还会配备 DPU,可加速对云原生和云计算框架 至关重要的网络、存储和安全服务。

2.2.1 步入 Blackwell 时代的系统级飞跃

数据中心 GPU 方面,公司产品线三年内经历了 Ampere、Hopper、Blackwell 架构的 更新迭代。英伟达的计算平台架构迭代时间由 2 年缩短至 1 年,意味着新技术和新工艺能更 快地应用到产品中,这种快速迭代策略可以确保英伟达在技术竞争中始终保持领先优势。公 司于 2024 年推出 Blackwell GPU,配备 NVLINK 5 Switch(1800GB/s)和 CX8 SuperNic, 支持 Spectrum-X800 以太网交换机和 Quantum-X800 交换机;2025 年推出 Blackwell Ultra GPU,以及 Spectrum Ultra X800 以太网交换机。根据公司的产品路线图,2026 年公司将 推出 Rubin 平台,而 2027 年预计推出 Rubin Ultra 平台。

公司最新量产的 Blackwell 平台的设计并非对单一 GPU 组件的堆砌 ,而是整合了 CPU、 GPU、NVLink、NICK(特定技术组件)、以及网络交换机等多个元素的完整系统。 Blackwell 平台采用 2 颗 B200 GPU Die,通过 10TB/s 的高速链接,结合世界上最先进 的 SerDes(高性能接口或连接技术)将它们紧密连接在一起。2 颗 B200 GPU 放置在一个 计算节点上,并通过 1 颗 Grace CPU 进行高效协调。Grace CPU 不仅适用于训练场景,还 在推理和生成过程中发挥关键作用,如快速检查点和重启;此外,它还能存储上下文,让 AI 系统拥有记忆,并能理解用户对话的上下文,这对于增强交互的连续性和流畅性至关重要。 NVLink 是一种高带宽、低延迟的 GPU 互连技术,最新的 NVLink 5 代和 6 代分别提供 1800GB/s 和 3600GB/s 的带宽。这些技术允许多个 GPU 高效协同工作,显著提高 AI 计算 性能。通过 NVLink Spine 技术,NVIDIA 实现了不同 GPU 之间的高效连接,每秒数据传输 能力达到 10TB,这使得整个系统性能提升令人瞩目,每秒处理能力达到了惊人的水平。 英伟达算力产品性能的提升不仅体现在计算速度上,还极大地降低了能耗。例如,训练 GPT-4 的能耗从 1000 GWh 减少到 3 GWh,代表了巨大的技术进步。

AI 大模型需要整个 GPU 机架的协同工作。英伟达新的 DGX 系统能容纳数十万亿参数 的大模型。Blackwell 系统(NVL72)共有 9 个计算节点,共计 72 个 GPU,构成一个庞大 的计算集群。这些 GPU 通过全新的 NVLink 技术紧密相连,形成一个无缝的计算网络。NVL72 相较于上一代的 8 个 GPU,性能提升了 9 倍,带宽增加了 18 倍,AI FLOPS(每秒浮点运 算次数)提升了 45 倍,而功率仅增加了 10 倍。 为了应对深度学习和 AI工厂的需求,英伟达开发了 Spectrum-X以太网架构。通过 RDMA、 拥塞控制、自适应路由和噪声隔离等技术,显著提升以太网性能,使其能够满足大规模 GPU 数据中心需求。Spectrum-X 专为 AI 设计,与传统以太网相比,显著提高生成式 AI 的网络 性能。其核心在于端到端的通信能力,确保网络接口卡和交换机高效协作。 2025 年英伟达发布了 Spectrum-X800 Ultra,可支持 10 万卡集群,支持高达 512 路径 Radix。这种扩展能力使得计算集群规模大幅度增加,处理更大规模的数据和更复杂的计算 任务。预计 2026 年英伟达将发布 Spectrum-X1600,可支持百万卡集群。这将是革命性的 进步,使得 AI 能处理前所未有的大规模计算任务。百万卡集群不仅意味着更强的计算能力, 还意味着更高的容错性和灵活性,能更好地适应各种复杂计算需求。此外,NVLink 有望升 级至 6.0 版本,支持 3.6TB/s 的互联速率。高速互联技术将极大提高数据传输效率,减少数 据传输过程中的延迟和瓶颈。对于大规模计算集群而言,高效的数据传输是保证计算性能的 关键,NVLink 6.0 的推出将显著提升整个计算集群的性能和效率。

2.2.2 Rubin 平台开启算力新纪元

Rubin 是英伟达下一代架构平台。英伟达将于 2026 年量产 Rubin 平台。Rubin 平台整 合了 Rubin GPU(2 颗 R200 GPU Die ,8 个 HBM4),Vera CPU,NVLink 6 交换机芯片, ConnectX-9 网卡、BlueField-4、Spectrum-6 等。 Rubin GPU在关键指标上实现跨代跃升:FP4推理性能提升至 50 PFLOPS,是 Blackwell 的 5 倍;FP4 训练性能提升至 35 PFLOPS,是 Blackwell 的 3.5 倍;HBM4 内存带宽提升 至 22 TB/s,是 Blackwell 的 2.8 倍;单 GPU 的 NVLink 互连带宽翻倍至 3.6 TB/s。 Vera CPU 是专为数据移动和 Agentic 处理设计的核心组件,专注于 AI 推理场景中的数 据调度和多步骤推理逻辑处理。Vera CPU 包含 2270 亿个晶体管,具有 88 个基于 ARM 架 构自研的 Olympus 内核和 176 个线程,配备 1.5TB 系统内存(是上一代 Grace CPU 的 3 倍),LPDDR5X 带宽为 1.2TB/s,通过 1.8TB/s NVLink-C2C 接口实现与 Rubin GPU 之间的 一致性内存连接。

在 Rubin 架构中,NVLink 6 负责 GPU 柜内协同计算,BlueField-4 负责上下文与数据调 度,而 ConnectX-9 则承担系统对外的高速网络连接。它确保 Rubin 系统能够与其他机架、 数据中心和云平台高效通信,是大规模训练和推理任务顺利运行的前提条件。NVLink 6 通过 3.6 TB/s 的带宽和网络内计算能力,让 Rubin 架构中的 72 个 GPU 能协同工作,这是实现降 低推理成本的关键基础设施。

Vera Rubin NVL72 是业界首个支持机架规模机密计算的平台,包含 72 个 GPU,搭配 20TB HBM4(每个 GPU 的显存容量 288GB),将提供 3.6 EFLOPS 的 FP4 推理算力、以 及 2.5 ExaFLOPS 的 FP4 训练算力。NVLink 将吞吐量翻倍,总速度为 260TB/s,机架之间 有一个新 ConnectX-9 链路,速度为 28.8TB/s,是 B300 和 ConnectX-8 带宽的两倍。

英伟达在 CES 2026 上宣布推出基于 Rubin 架构的新一代 DGX SuperPOD,将 Rubin 从单机架扩展到整个数据中心的完整方案。新一代 DGX SuperPOD 由 8 个 Vera Rubin NVL72 机架组成,每个机架 72 个 GPU,总共 576 个 GPU;机架内部通过 NVLink 6 将 72 块 Rubin GPU 连接在一起,能够在一个机架内完成大规模推理和训练任务。 相比 Blackwell 平台,Rubin 可将推理阶段的 token 成本最高降低 10 倍,并将训练混合 专家模型 MoE 所需的 GPU 数量减少至原来的 1/4。模型可以运行百万 token 的长下文,企 业级 AI 应用也可以部署。


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告
评论
  • 相关文档
  • 相关文章
  • 全部热门
  • 本年热门
  • 本季热门
  • 全部热门
  • 本年热门
  • 本季热门
  • 最新文档
  • 最新精读
分享至