2023年英伟达研究报告:智能计算引领者,AI芯片生态构筑宽广护城河

  • 来源:西南证券
  • 发布时间:2023/12/12
  • 浏览次数:526
  • 举报

1 智能计算引领者,GPGPU 开创者

英伟达成立于 1993 年,是全球 GPU 龙头企业。英伟达早期借助 CUDA 库的构建和完 善,显著降低了 GPU 编程门槛,并将 GPU 推向通用计算市场,引领了 GPGPU 的进化之 路。英伟达借助软件业务形成的 AI、Omniverse、Drive Hyperion 等平台,不断壮大其计算 生态,进一步夯实了公司的业务护城河,数据中心、智能驾驶、AI、元宇宙等业务将打开公 司新的成长空间。

英伟达的产品分为硬件和软件。硬件产品分为游戏和娱乐、笔记本电脑和工作站、云和 数据中心、网络、GPU 和嵌入式系统六大板块;软件产品有应用框架、应用和工具、游戏 和创作、基础架构和云服务板块五大板块。截止 2023 年 9 月 30 日,英伟达前五大股东持股合计 6.83 亿股,占比 27.6%。其中, Vanguard、贝莱德集团、FMR LLC(富达投资集团)、道富四家机构持股占比分别为 8.25%、 7.28%、4.97%和 3.59%。创始人黄仁勋持股近 8668 万股,占比 3.51%。

今年以来 AI 大模型和生成式 AI 迎来爆发,对 GPU 的需求大幅提升,英伟达 2024 财 年呈现快速增长态势。FY24Q2 营收 135 亿美元,同比增长 101%,环比增长 88%,大超市 场预期;FY24Q3 收入 181 亿美元,同比增长 206%,实现了近五年来最大单季度同比涨幅。 FY24Q3 GAPP 净利润 92.4 亿美元,同比增长 1259%,环比增长 49.4%;non-GAPP 净利 润 100.2 亿美元,同比增长 588%,环比增长 48.7%。净利润的增长也超市场预期,实现近 五年来单季度最大涨幅。

英伟达业务结构可分为数据中心、游戏、专业视觉、汽车、OEM&IP 五大板块。其中, 数据中心和游戏为公司主要收入来源。FY24Q3 数据中心业务营收 145 亿美元,同比增长 278.7%,环比增长 40.6%,收入占比超过 80%,成为英伟达收入和利润增长的最主要贡献。 对生成式 AI 和大语言模型的需求不断增长,众多云公司竞相部署 AI 芯片,带动了公司的数 据中心芯片大幅增长。

2 AI 芯片驱动高速增长,超强硬件性能+软件生态构筑强 劲护城河

人工智能发展离不开算力的支撑,随着模型的参数量和复杂程度不断增长,算力基础设 施的供给水平将直接影响应用落地及其迭代的进程。目前全球 AI 服务器占 AI 基础设施市场 的八成以上,是 AI 基础设施的主体。IDC 预计 2025 年全球 AI 服务器市场规模达 266 亿美 元。2020-2025 年 CAGR 为 18.9%,远超全球通用服务器市场增速。 GPU 是目前主流的 AI 算力芯片。根据 Verified Market Research,2021 年全球 GPU 市场规模 334.7 亿美元,预计到 2030 年约 4773.7 亿美元,CAGR 达 33.3%;2020 年中国 GPU 市场规模 47.39 亿美元,预计到 2027 年市场规模达 345.6 亿美元,CAGR 为 32.8%, 国内外 GPU 市场前景广阔。

英伟达的数据中心解决方案整体提供了 NVIDIA 加速计算统一平台,从 AI、数据分析, 到高性能计算 (HPC),再到渲染,数据中心都是攻克某些重要挑战的关键。端到端的 NVIDIA 加速计算平台对硬件和软件进行了集成,可为企业构建强大而安全的基础设施蓝图,支持在 现代化工作负载中实施从开发到部署的操作。

借助基于 GPU、DPU 和 CPU 三种新一代架构构建的 NVIDIA 加速计算平台,英伟达或 重塑 AI时代的数据中心。NVIDIA 加速计算平台可提供支持从用于改善业务预测的数据分析、 到自动驾驶汽车使用的 AI、再到用于医疗诊断的高级可视化等多种应用的基础架构。采用 NVIDIA 加速系统的每个服务器和工作站都将配备计算加速器,为当今使用的现代应用(包 括 AI、可视化和自主机器等)提供支持。其中许多系统还会配备 DPU,可加速对云原生和 云计算框架至关重要的网络、存储和安全服务。

数据中心 GPU 方面,公司产品线涵盖了 A100、H100、L40、L40S、GH200 等产品。 A100 采用 NVIDIA Ampere 架构,是 NVIDIA 数据中心平台的引擎。A100 性能比上一代 Volta 提升了 20 倍,并可划分为 7 个 GPU 实例。A100 提供 40GB 和 80GB 显存两种版本,A100 80GB 将 GPU 显存增加了一倍,并提供超快速的显存带宽(超过 2 TB/s),可处理超大型模 型和数据集。2048 个 A100 可在一分钟内成规模地处理 BERT(某自然语言处理模型)之类 的训练工作负载,A100 的推理吞吐量是 Intel Xeon Gold 6240 CPU 的 249 倍。

H100 配备第四代 Hopper 架构和 Transformer 引擎,与 A100 相比,H100 的综合技术 创新可将大型语言模型速度最大提高 30 倍。对比 A100 GPU,训练方面,H100 可为多专家 (MoE) 模型提供高 9 倍的训练速度;推理方面,H100 可将推理速度提高 30 倍,并提供超 低的延迟;而在 HPC 应用方面的性能则提升高达 7 倍。H100 CNX 将 H100 的强大功能与 NVIDIA ConnectX-7 智能网卡的先进网络功能相结合,加速 GPU 驱动的 I/O 密集型工作负 载。

英伟达 L40 系列由 Ada Lovelace 架构提供支持,为 GPU 加速数据中心工作负载提供神 经网络、可视化、计算和 AI 功能。最新一代的 L40S,其 Tensor 性能为 1466 TFLOPS, RT Core 性能为 212 TFLOPS,单精度浮点运算性能 91.6 TFLOPS。NVIDIA Ada Lovelace 架构提供第四代 Tensor Core、第三代 RT Core、CUDA Core 核心、Transformer 引擎、DLSS 3 的支持。DGX GH200 是将 256 个 NVIDIA Grace Hopper 核心完全连接到单个 GPU 中的新型 AI 超级计算机。NVIDIA DGX GH200 支持万亿参数 AI 大模型训练,能处理大规模推荐系统、 生成式人工智能和图形分析处理 TB 级模型,并为大型 AI 模型提供 144 TB 的共享内存和线 性可扩展性。H200 在显存上做了大幅升级,是市面上第一款带 HBM3e 显存的 GPU,其显 存容量达到 141GB,显存带宽高达 4.8 TB/s。

CPU 方面,英伟达宣布推出首款面向 AI 基础设施和高性能计算的数据中心专属 CPU— —NVIDIA Grace,由两个 CPU 芯片通过最新一代 NVLink-C2C 技术互联组成。Grace 基于 最新的 ARM v9 架构,单个 socket 拥有 144 个 CPU 核心,可提供 1TB/s 的内存带宽,利用 纠错码(ECC)等机制提供当今领先服务器芯片两倍的内存带宽和能效,兼容性亦十分突出, 可运行 NVIDIA 所有软件堆栈和平台,包括 NVIDIA RTX、HPC、Omniverse 等。

DPU 方面,英伟达截止目前已经推出了三代 DPU,目前广泛应用的主要是 BlueField-2 和 BlueField-3 DPU。BlueField-2 DPU 将 NVIDIA Mellanox ConnectX-6 Dx 网络适配器与 ARM 核心阵列相结合,可提供具有完整软件可编程性的专用硬件加速引擎,速度可达 200 Gb/s。BlueField-2 可针对从边缘到核心数据中心和云的云网络、存储、网络安全性、数据 分析、HPC 和人工智能提供灵活且高性能的解决方案,同时降低总体拥有成本。 BlueField-3 DPU 是英伟达首款以线速处理软件定义网络、存储和网络安全的 DPU,速 度可达 400 Gb/s。BlueField-3 支持客户组织从云到核心数据中心再到边缘计算,构建软件 定义硬件加速的 IT基础设施。

CUDA 是由英伟达开发的用于 GPU 上的通用计算的并行计算平台和编程模型。借助 CUDA,开发人员能够利用 GPU 的强大性能,显著加速计算应用程序。在 GPU 加速的应用 程序中,工作负载的顺序部分在优化了单线程性能的 CPU 上运行,而应用程序的计算密集 部分则在成千上万个 GPU 核心上并行运行。使用 CUDA 时,开发人员使用当下主流的编程 语言,如 C、C++、Fortran、Python 和 MATLAB 等,并通过一些基本的关键字的扩展来表 达并行性。英伟达的 CUDA 提供了开发 GPU 加速应用程序所需的 Toolkit,CUDA Toolkit 包括 GPU 加速库、编译器、开发工具和 CUDA 运行时库等。 自 2006 年诞生以来,CUDA 生态系统迅速发展。使用 CUDA 开发的成千上万个应用程 序已经部署到嵌入式系统、工作站、数据中心和云中的 GPU 上,合作伙伴包括了微软、Adobe 等全球头部科技企业。CUDA 在包括图像处理、深度学习、数值分析和计算科学等广泛的领 域得到加速应用。

AI 超级计算平台服务方面,英伟达推出 DGX Cloud 的 AI 超级计算服务,与微软 Azure、 谷歌 OCP、Oracle OCI 合作,通过 Web 浏览器就能访问,以便企业为生成式 AI 和其他开 创性应用训练先进的模型。DGX Cloud 实例的起步价为每个实例每月 36999 美元。其每个 实例都具有 8 个 NVIDIA H100 或 A100 80GB Tensor Core GPU,每个节点共有 640GB 的 GPU 内存。DGX Cloud 提供了专用的 DGX AI 超级计算集群,并配备了 NVIDIA AI 软件(加 速库套件)。 英伟达推出了全新云服务及代工厂 NVIDIA AI Foundations,使企业能构建、改进、运 营使用其专有数据训练的、用于特定领域任务的定制大模型和生成式 AI。

在与生成式 AI 相关企业的合作过程中,英伟达与 Adobe 合作开发新一代先进生成式 AI 模型;与 Getty Images 合作训练文生图、文本转视频基础模型;与 Shutterstock 合作,训 练从简单文本提示中创建生成式 3D 模型(Edify-3D),将创作时间从几小时减少到几分钟;与 三菱联合发布了将用于加速药物研发的日本第一台生成式 AI 超级计算机 Tokyo-1 等。

3 游戏业务重回增长轨道,Avatar 云引擎为游戏 AI 赋能

游戏业务曾是英伟达的第一大业务,在 2021-2022 财年占据了 46%以上的收入比例。 不过随着游戏和加密货币市场需求疲软,2023 财年以来公司游戏业务经历了大幅调整,FY23 游戏业务同比下滑 27%至 90.7 亿美元,占收入比例降至 33.6%;FY24Q1 游戏业务收入 22.4 亿美元,同比减少 38%。FY24Q2-Q3 游戏业务见底回升,分别实现营收 24.9 亿美元、28.6 亿美元,同比增长 21.7%和 81.5%。在经历四个季度的下跌调整之后,游戏业务重新实现正 向增长。目前游戏业务收入占比为 15.8%。

英伟达游戏显卡产品主要有 GEFORCE RTX 30 系列和 GEFORCE RTX 40 系列等。 GEFORCE RTX 30 系列采用第 2 代 NVIDIA RTX架构——NVIDIA Ampere 架构,搭载专用 的第 2 代 RT Core、第 3 代 Tensor Core 以及 SM 多单元流处理器,可带来逼真的光线追踪 效果和先进的 AI 性能,支持 NVIDIA DLSS,AI 加速性能出色,支持 NVIDIA Reflex,系 统延迟极低。GEFORCE RTX 40 系列 GPU 由更高效的 NVIDIA Ada Lovelace 架构提供动力支持: 采用新型 SM 多单元流处理器将性能功耗比最高提升至 2 倍;采用第四代 Tensor Core,与 仅使用传统的图像渲染方式相比,采用 DLSS 3时,性能最高提升至 4倍;采用第三代 RT Core, 将光线追踪性能最高提升至 2 倍,在性能和 AI 驱动图形领域实现质的飞跃。

英伟达游戏业务合作伙伴众多,其中台湾的几家板卡厂商如技嘉、微星、华擎等,部分 产品将英伟达的 GEFORCE RTX等系列的产品加工成为完整的游戏显卡用以出售。三家板 卡厂商的月度收入在经过 2021 年的高点以后,2023Q3 前收入趋于平稳,2023 年 8-10 月 收入开始大幅反弹,近两个月三家收入整体已提升至历史最高水平,从侧面反映英伟达游戏 业务已恢复正常。

英伟达的游戏定制 AI 模型代工服务,即 Avatar Cloud Engine for Games(ACE,Avatar 云引擎),可用来在软件和游戏中构建和部署定制的语音、对话和动画 AI 模型。借助 ACE, 游戏中的普通 NPC 可以变成能够发起对话的互动角色。英伟达引入了 NeMo SteerLM,这 项新技术使开发者能够定制游戏 NPC 的个性,以实现更情感丰富和逼真的交互,开启了未 来游戏 NPC 的新篇章。

4 全球智驾芯片龙头,汽车业务体量站上新台阶

英伟达是全球自动驾驶芯片平台的头部企业。随着智能驾驶渗透率的提升,公司汽车业 务体量从 2023 财年开始呈现上升趋势,近五个季度单季收入体量超过 2.5 亿美元。

英伟达的自动驾驶 Drive 平台是面向自动驾驶汽车的端到端解决方案,开启了软件定义 自动驾驶汽车的时代。英伟达可提供完整的智能汽车硬件和软件堆栈,将使用新的软件和服 务商业模式,向软件定义汽车过渡。Drive 平台包括 DRIVE Hyperion(自动驾驶汽车开发平 台)、DRIVE SDK(构建部署自动驾驶功能的模块化开放式平台,包括高度自动化监督驾驶 “DRIVE AV”和 AI 驾驶舱“DRIVE IX”)、DRIVE Sim(为开发自动驾驶提供模拟场景的 仿真平台)、NVIDIA DGX(DNN 训练平台)。

DRIVE Orin SoC 是英伟达现在主要的智能车辆中央计算机,为自动驾驶功能、置信视 图、数字集群以及 AI 驾驶舱提供动力支持。借助可扩展的 DRIVE Orin 产品系列,开发者只 需在整个车队中构建、扩展和利用一次开发投资,便可从 L2+级系统一路升级至 L5 级全自 动驾驶汽车系统。目前已超过 35 家整车厂和 robotaxi 客户采用 Orin 芯片。 DRIVE Thor 是英伟达新一代集中式车载计算平台,可在单个安全、可靠的系统上运行 高级驾驶员辅助应用和车载信息娱乐应用。DRIVE Thor 超级芯片借助英伟达新的 CPU 和 GPU 突破,可提供出色的 2000 万亿次浮点运算性能,同时降低总体系统成本。Thor 计划 于 2025 年开始量产。

2023 年 5 月 29 日,英伟达与联发科宣布将在智能座舱领域开展合作。双方将共同为新 一代智能汽车提供解决方案,联发科将开发集成英伟达 GPU 芯粒(chiplet)的汽车 SoC, 搭载 NVIDIA AI和图形计算 IP,该芯粒支持互连技术,可实现芯粒间流畅且高速的互连互通。 英伟达与联发科合作的首款芯片将用于智能座舱,预计 2025 年问世,并在 2026 年至 2027 年投入量产。

2023 年 8 月,原小鹏汽车自动驾驶副总裁吴新宙加入英伟达,领导英伟达自动驾驶团 队。作为智驾领域的顶尖人才,吴新宙拥有深厚的学术背景和丰富的工程管理经验,是小鹏 汽车在智能驾驶领域取得突破并站在行业前沿的核心人物。吴新宙的到来或弥补英伟达在汽 车自动驾驶芯片和软件领域的短板,他在推动英伟达的智能汽车业务发展方面将起到关键作 用。 英伟达还与全球数百家汽车制造商、一级供应商、开发商以及研究所通力合作,携手将 GPU 技术和 AI 相结合,从而转变深度学习、自然语言处理和姿势控制技术,改变人们的 驾驶方式,并助力车辆实现自动驾驶。英伟达 DRIVE 合作伙伴生态系统涵盖 8 个细分行业, 包括比亚迪、捷豹路虎、联发科、梅赛德斯-奔驰、理想、小鹏、蔚来、小马智行、图森未来、 沃尔沃等重点合作伙伴。

 


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告
评论
  • 相关文档
  • 相关文章
  • 全部热门
  • 本年热门
  • 本季热门
  • 全部热门
  • 本年热门
  • 本季热门
分享至