摩尔定律的延续者。
CUDA 标志着“指数型思维”的思想延续(2006 年)。与其他案例不同,英伟达的 1993 年成立,创始人黄仁勋一直担任公司的CEO。到2024 年,他已经执掌公司 31 年。我们知道,乔布斯领导下的苹果,盖茨领导下的微软,格鲁夫/摩尔博士领导下的英特尔,佩奇领导下的谷歌,戴尔领导下的戴尔电脑...以及我们在《移动互联网案例篇》中举到的诸多例子都表示,初代创始人熟悉行业的来龙去脉,同时他们对技术或者产品敏锐,也非常了解自己公司的优点与不足。因此在他们领导下的公司,大多数案例都是成功的。而等到二代、三代 CEO,有的好,有的一般,但总体来说遇到杰出CEO 的概率不高,他们很难超过创始 CEO 的水平。 黄仁勋 1963 年出生在台南,9 岁赴美学习,1984 年于俄勒冈州立大学获取电机工程学士学位,1992 年于斯坦福大学获取电子工程学硕士学位。1983 年黄仁勋在AMD 担任微处理器硬件工程师,1985 年至 1993 年,他在LSI Logic 担任核心硬件设计总监。并于 1993 年与 Chris Malachowsky(目前依然在公司任职)和CurtisPriem(2003 年从英伟达退休)共同创办了英伟达,并任CEO。
我们在《科技周期探索之三:1974-1987 年:个人电脑时代的到来》中的总结曾提及:千万不要忽视“指数型思维的人或者公司”。当时提到的案例是有着摩尔博士掌舵的英特尔,在他的任期中,英特尔的股票翻了上百倍,而他退休之后英特尔就很难找回当初的状态。 黄仁勋和英伟达,就是又一个具备“指数型思维的人或者公司”。甚至说就是因为英伟达的存在,GPU 接替了 CPU,才让摩尔定律曲线得以延伸到现在也不为过。从 2006 年 CUDA 推出之后,英伟达就不再是一家显卡公司,它成为了通用GPU的供应商。由于当时的 CUDA 思想过早,导致了业界好多年都没有看懂,也没有试着模仿——直到 2016 年 AMD 才开发了自己的 ROCm,2019 年英特尔的oneAPI正式版才推出。因此说,CUDA 的推出,以及通用 GPU 架构的出现,是英伟达的重要壮举。
在成绩面前,人们都容易归功于 CEO 的战略;但 2008 年金融危机时期,尽管面临经济危机,CUDA 的推出被视为“巨大的豪赌”,当时公司的股价从高点跌去了80%,市值仅存 40 亿美元,但英伟达依然坚持技术创新,保住了CUDA 这颗冉冉升起的新星。 经历科网泡沫、金融危机、欧债危机、新冠疫情,英伟达从来没有“净裁员”,员工人数一直在增加,这在纳斯达克是极为罕见的——充分说明管理层高度的前瞻性和面对创新不确定性下的定力。

从 2006 年的 Tesla 架构到 2010 年的 Fermi 架构,英伟达与AI 的关系还没有很大,主要是在摸索通用 GPU 的一些基础性能,包括统一着色器、增加CUDA 核心,以及支持 DirectX 11 的架构等等。
不冷不热的移动互联网尝试(2010-2015 年)。到了 2011 年,橡树岭国家实验室在建造超级计算机Titan(泰坦)时,大量采购了英伟达的 GPU,泰坦成为世界上第一台使用通用GPU 的超级计算机。整台泰坦共 计 18688 颗 CPU 和 相 同 数 量 的 GPU , 在 2012 年11 月的测试中获取17.59petaFLOPS 的成绩,直到 2013 年 6 月在 Top500 位列第一的排名被中国的天河二号取代。泰坦的成功,使得英伟达成为 GPU 行业的一张名片。
2012 年,AlexNet 在 ImageNet 挑战赛中取得了突破性成绩,这一成就的背后是英伟达 GPU 的支持。AlexNet 使用的是英伟达 GTX 580 GPU,基于Fermi 架构。Kepler 架构是英伟达在 2012 年推出的 GPU 架构,相较于前一代的Fermi架构,它在多个方面进行了显著改进,提供了更高的能效和更强的计算能力,下图可见,基于 Kepler 架构的 GeForce GTX 680,其 CUDA 核心数高达1536 个,是GTX580的 3 倍。
基于 Kepler 架构的 K20X(从这里开始,芯片的首字母就是架构名称的首字母)的 CUDA 核心数达到了 2688 个。2015 年,公司发布了Maxwell 架构,它的主要变化是优化了内存带宽,与 K20X 一样,它们同属于 28nm 制程。
在这一段时间里,英伟达从收入、利润上并未有较大的变化。当时的风口在移动互联网侧,公司的确在 2010 年发布了自己的移动互联网芯片Tegra,该系列处理器是针对移动设备设计的系统级芯片(SoC),应用在智能手机、平板电脑、汽车信息娱乐系统和其他移动设备上,但总体上并没有实现预期的快速增长,原因是:1、竞争对手强大:高通、三星、苹果等公司在移动处理器市场上拥有强大的技术和市场份额。高通的 Snapdragon 系列处理器在性能、功耗管理和生态系统支持方面表现优秀,吸引了大量 OEM 厂商; 2、缺乏 CPU 的积累:虽然 Tegra 处理器在图形处理能力方面表现出色,但在CPU性能上与竞争对手相比存在一定差距,特别是在多任务处理和复杂应用方面。或者说,英伟达是显卡出身的企业,它的优势在高性能运算市场,而此时的平板、手机追求的不是高功耗下的性能,而是在低耗电下的性能,因为随着手机与平板屏幕越来越大,而尺寸越做越薄,手机企业没有余地再将过多资源分配给图形处理了; 3、缺乏生态的支持:同样,摩托罗拉、HTC 和 LG 这些企业不会一下子切换到英伟达,而缺乏长期稳定的 OEM 合作伙伴关系影响了Tegra 的市场推广;因此说,移动互联网浪潮下的红利不可能看到了才去争取,而像乔布斯那样,从iPod时代就已经开始默默地努力,而在 10 年之后大放异彩。尽管 Tegra 在传统移动设备市场上表现平平,但在汽车信息娱乐系统和自动驾驶领域取得了显著成功。例如,特斯拉和多家高端汽车品牌采用了Tegra 芯片,因为在汽车的体积下,耗电并不是问题,而性能是企业更关心的,这与数据中心的场景是很相似的,这里是英伟达的强项。 此外,2015 年英伟达发布了嵌入式芯片 Jetson 系列(Maxwell 架构),它针对边缘计算和嵌入式系统设计的模块化计算机,应用于机器人、无人机、智能摄像头等设备。Jetson 系列也算是成功的,因为它为英伟达的边缘运算提供了广阔的市场空间,包括机器人、无人机、工业自动化、智能交通、医疗健康、零售物流、智慧城市、农业等领域,比如亚马逊的配送机器人 Scout 使用了Jetson XavierNX模块,博世的智能工厂解决方案中使用了 Jetson 系列模块。这也将是英伟达在未来 AI 行业落地的一个有效的抓手。
云计算潮流中崭露头角(2016-2019 年)。到了 2016 年,正值谷歌的 Alpha Go 横空出世,机器学习也成为席卷AI 界的新潮流。英伟达重要的 Pascal(帕斯卡)架构的 P100 芯片诞生了,它的制程达到了16nm,CUDA 核心数达到了 3584,其在 INT 8 的算力达到了21.2TOPS,是M40的3倍以上。
2016 年 4 月,英伟达发布了 DGX 服务器。其中 DGX-1 服务器配备8 个基于Pascal或 Volta 子卡的 GPU,总共 128GB HBM2 内存,通过NVLink 网状网络连接。与之前的架构相比,Pascal 架构在深度学习任务上提供了10 倍以上的性能提升,极大地加速了训练过程。DGX-1 预装了优化的深度学习软件,包括英伟达DIGITS和cuDNN,使得研究人员和能够快速而轻松地训练深度神经网络。
值得注意的是,NVLink 在 2016 年发布的 DGX 第一次被使用,它是Nvidia开发的有线串行多通道近距离通信链路。传统个人电脑的PCI 接口是串行的,而NVLink使用网状网络,对并行运算支持得更好。 由于 PCI 是由 PCI-SIG 联盟(外围组件互连小组,一个电子行业联盟)维护,它沿袭的是 PC 个人电脑主线的标准,无论在组网方式上,还是在传输速率上,都达不到日益增长的机器学习的需要,因此 NVLink 不断迭代,其传输速率已经由2016年的 20 Gbits/s 增长到 2024 年的 100 Gbits/s,规划中的Blackwell 架构则是支持 200 Gbits/s。
如果说 2016 年的 Pascal 架构在计算性能上有显著提升,同时支持英伟达的NVLink 1.0,增强了 GPU 之间的通信能力是它的亮点,那么2017 年发布的Volta架构的卖点则是引入了 Tensor Core,这是英伟达开发的一种专门硬件加速器。它通过混合精度计算技术,结合使用 FP16 和 FP32 数据格式,实现了在保持模型精度的同时大幅提升计算效率的目标,同时,Tensor Core 专门设计用于加速矩阵乘法运算,这是深度学习中最常见的操作之一。Tensor Core 的出现使得深度学习模型的训练和推理速度得到了显著提升,特别是在处理大规模数据集和复杂模型时表现出色。此外,Volta 架构支持更高的内存带宽,特别是通过NVLink2.0和 HBM2,显著提升了数据传输速度。 2018 年英伟达发布了 Turing 架构,Turing 架构引入了RT Core,实现了实时光线追踪,显著提高了图形渲染的质量和真实性,这是它最大的特色。同时,Turing架构对 Tensor Core 进行了增强,支持 AI 推理和训练,加速了深度学习任务。这些进步使得 Turing 架构在图形渲染和 AI 计算领域都取得了显著的成果,为后续的架构创新奠定了基础。
摩尔定律的延续者(2020 年-今)。2020 年,英伟达最重要的架构之一 Ampere 架构发布了。它引入了第二代RTCore和第三代 Tensor Core,大幅增强了光线追踪和人工智能计算能力,对于游戏和专业应用中的实时渲染、物理模拟和 AI 推理有着显著提升。基于Ampere架构的A100 GPU 实现的第三代 NVIDIA 高速 NVLink 互连和新的NVSwitch 显著增强了多GPU 的可扩展性、性能和可靠性。第三代 NVLink 的数据速率为50 Gbit/秒,是V100 的 2 倍。 A100 还发布了一种新的架构 MIG(Multi-Instance GPU),这是一种硬件虚拟化技术,它允许将单个 GPU 划分为多个独立的 GPU 实例。每个实例都拥有自己的高带宽显存、缓存和计算核心,从而可以在单个 GPU 上并行运行多个工作负载,如推理、训练和 HPC 等,同时保持延迟和吞吐量的稳定性。当时谷歌的 BERT 模型的知名度更高,甚至 OPENAI 也以BERT 模型作为标杆企业来对比,因此 A100 对比了在 BERT 模型上的训练与推理速度。它在FP32 精度下是V100 训练速度的 6 倍,借助 MIG 技术在推理上 A100 速度可提升7 倍。与CPU相比,在 BERT 等先进的对话式 AI 模型上,A100 可将推理吞吐量提升249倍。

由于英伟达在 2019 年并购了 Mellanox,它的产品基于InfiniBand 和以太网技术,Mellanox 为高性能计算、数据中心、云计算、计算机数据存储和金融服务等市场提供适配器、交换机、软件、电缆和硅片。因为以太网是有损网络,而InfiniBand是无损网络,InfiniBand 的速度天然比以太网速度更快。2022 年400G的InfiniBand 产品发布,2024 年 800G 的 InfiniBand 产品发布,2024 年英伟达宣布 2025 年将发布 1600G 的 InfiniBand 产品。 可见,此时的英伟达已经不再只关心 GPU 的速度,而是从平台层面上来审视“短木板”的每一个环节并逐一增强。包括 GPU 的 CUDA 核心、tensor 核心、光线追踪核心;网络侧的 NVLink,NVswitch,InfiniBand、Spectrum-X;以及软件堆栈与工具 CUDA 平台、cuDNN、cuBLAS、cuFTT 等,NVIDIA Deep Learning SDK,NVIDIANGC;专用硬件包括 DGX 系列、Jetson 系列。
2020 年,正值全球的新冠疫情蔓延,大量的企业有办公需求,因此当年的电脑升级、数据中心扩容需求很大。加之 A100 的表现实在是惊艳,也获得了客户的大量订单,英伟达的各条业务线也是突飞猛进。其中,游戏GPU 和相关产品同比增长了 40.6%,数据中心更是大幅增长了惊人的 124.5%!在 2020 年-2021 年,市场多少分不清到底是新冠疫情带来的数据中心扩容需求,还是云计算或者 AI 驱动带来的扩容需求。回头来看,新冠疫情带来的需求在个人电脑产品侧只维持了两年(2020-2021 年),而由AI 驱动的数据中心需求其实从2020 年就开始发力了。 从那以后,英伟达的数据中心产品在收入中的占比一直提升、提升、再提升,到了 2024 财年,其占收比已经高达惊人的 78%!遥遥领先于其他产品线。
2022 年,公司发布了 Hopper 架构,Hopper 采用 4nm 工艺制造,拥有超过800亿个晶体管,核心产品是英伟达 H200 和 H100 Tensor Core GPU,并在生成式AI训练和推理方面实现了比上一代更高水平的加速。它有五项突破性创新:1、针对 Transformer 模型优化:Hopper 架构通过Transformer Engine推进了Tensor Core 技术,Hopper Tensor Core 能够应用混合FP8 和FP16 精度,从而显著加速 Transformer 的 AI 计算,将 TF32、FP64、FP16 和INT8 精度的FLOPS提高了三倍; 2、更快的网络:第四代 NVLink 可以使用英伟达 DGX 和HGX 服务器扩展多GPU输入和输出,每个 GPU 双向传输速度为 900 GB/s,是PCIe Gen5 带宽的7 倍多。第三代 NVSwitch 与上一代 A100 相比,在 8 个 H200 或H100 GPU 服务器内可将吞吐量提高 2 倍。带有 NVLink 交换机系统的 DGX GH200 系统支持多达256 个连接的H200 集群; 3、机密计算:Hopper 架构推出了世界上第一个具有机密计算功能的加速计算平台。用户可以在本地、云端或边缘运行应用程序,并确保未经授权的实体在使用时无法查看或修改应用程序代码和数据; 4、第二代MIG:Hopper架构通过在最多七个GPU实例的虚拟化环境中支持多租户、多用户配置。借助 Hopper 的并发 MIG 分析,管理员可以监控合适大小的GPU加速并优化用户的资源分配。对于工作量较小的研究人员,他们可以选择使用MIG来安全地隔离部分 GPU,而不是租用完整的 CSP 实例;5、动态规划:与传统的双插槽 CPU 服务器相比,Hopper 的DPX 指令可将动态规划算法的速度提高 40 倍,与 Ampere 架构相比,可将动态规划算法的速度提高7倍。这可显著加快疾病诊断、路由优化甚至图形分析的速度。此外,2022 年末,正赶上 Chat GPT3.5 发布后产生了席卷全球的热度,AI炙手可热,而 A100、H100 与 H200,成了无数巨头在资本开支中的首要选择。英伟达的收入更实现了爆发式的增长!
2024 年 3 月,英伟达发布了 Blackwell 架构,Blackwell 架构GPU 具有2080亿个晶体管,采用专门定制的 4nm 工艺制造。它的第二代Transformer 引擎使得基于Transformer 的大模型在训练上速度更快,在 FP4 精度下,其推理性能比Hopper提高了 30 倍,AI 性能比 Hopper 架构提高了 5 倍。网络侧的第五代NVLink也使得 GPU 之间的传送速度更快。 此外,市场预期 GB300 将在 2025 年 Q2 发布。它或将继续采用台积电4 纳米工艺制程,同时针对计算芯片进行了优化设计,其算力性能相较B200 可能再提升50%。
如何看待英伟达的未来?第一,英伟达是一家指数级思维的公司。 黄仁勋曾经说:市场的定义者(Market maker)从来不考虑市场份额。因此这就是为什么有人问黄仁勋:某某公司也在做 GPU,它们对你们有挑战吗?他总是回答:这是不一样的概念。别人做的是产品,而英伟达做的是平台。平台就像一个飞轮,英伟达审视并强化飞轮的每一个部分。 今年 62 岁的黄仁勋见过科网泡沫的疯狂,也经历过泡沫破裂后的低谷,他敏锐地捕捉到了开发人员使用 GPU 来做并行运算的需求,因此投入大量研发在CUDA的开发,即便遭遇市场的不理解和金融危机依然没有动摇他的想法。在移动互联网机会来临时,公司也没有过格的 all in 移动端,而是有选择性地拓展,因为公司深知大功耗才是自己的优势。 提到摩尔定律,他的评价是:2000 年前后的 CPU 与软件是分离的,软件应用企业等待着 CPU 的突破,然后软件再跟上。而 GPU 则不同,算力的表现本身有硬件上的努力,更有软件、算法、流程、API 等各方面的进步。甚至人们将这些主张称之为“黄氏定律”——即,GPU 将推动 AI 性能实现逐年翻倍。在这样的背景下,英伟达对并行运算、AI 运算发生在行业中的各种环境变化了如指掌并成竹在胸。他们思考的永远是:如果我们继续保持下一代架构能够在AI性能上提升 4 倍以上(假定 2 年一个新架构),那么目前制约这个飞轮最大的短板在哪里?如何解决这个短板?自研还是并购?如何将这些能力有机地整合起来?目前公司有 32000 人,黄仁勋期望未来英伟达员工人数能够突破50000人,而且他对 AI 是乐观的,他认为未来公司的 50000 人背后,可能是1 亿个各种人工智能助手在支撑,这样会给公司劳动生产率更大的提升空间。黄仁勋在 2021 年和 2024 年被列入《时代》杂志年度100 强榜单,这是《时代》杂志每年评选的全球 100 位最具影响力人物之一;2023 年12 月被《经济学人》评为 2023 年最佳首席执行官;2024 年 2 月他因“高性能图形处理单元推动了人工智能革命”而当选美国国家工程院院士。 如前文所说,英伟达的核心竞争力早已不再是 GPU 本身,而是一种系统性的、平台性的核心竞争力。从硬件设计,到 CUDA 软件、库,到网络整合...简而言之,这是一种端到端的堆栈综合实力。因此,当将这些能力聚集到一块儿的时候,我们很难发现英伟达短期的对手在哪里,相信它在未来相当时间依然将领导算力革命。
第二,英伟达的天花板在哪里? 现在的 AI 竞争,如同一群探险家在沙漠中走了很久,突然间在遥远的天边看到了绿洲,请问,探险家什么反应?假如一个人对其他人说,你们等着,我去探探路,其他人多半会说,为什么不是我去探路,你们等着?当通用人工智能(AGI)的梦想被点燃那一刻,就好比那充满生机的绿洲景象映入了探险家的眼里。探险家就像诸多科技巨头,有谁能抵制住沙漠中的绿洲(AGI)的巨大诱惑呢? 我们在报告《科技周期探索之七,2016-2030 年:通用人工智能时代的到来》中提及,2027-2029 年,是 OPENAI,马斯克,黄仁勋预测的AGI 时代到来的大约时间。其路径是:如果 1 万亿参数(ChatGPT 4)的大模型代表了“聪明的高中生”,而一年半之后,大约是 2025 年底-2026 年初的 10 万亿级参数的大模型代表了“博士生”,那么再一年半之后的 100 万亿参数大模型,可能将数倍聪明于博士,同时模型参数也来到了人类神经突触量级(100 万亿-1000 万亿)。那么我们基本可以将那个时间认同为通用性人工智能时代的开始。想想会发生什么?可能在“博士”水平下,人工智能就已经可以在千行百业辅助人类从事各种工作,而 AGI 时代,它的能力会到一种怎样的水平,涌现的能力会多到什么程度呢?这就是科技界目前的处境——隐约看到绿洲,但直到走近它之前,我们无法预测那里有什么!但这种憧憬在心里却如此躁动,如此热切!在这个情境里,不同的探险家的行为就像军备竞赛,他们都希望尽快到达绿洲。
因此,假定再下一代大模型,即我们之前讨论的相当于通用人工智能的100万亿参数问世时,倘若这个时间窗口依然在 3-4 年之后(平均1.5-2 年迭代一个新量级大模型),即 2027-2028 年前后,我们需要的训练的运算量将是下一个版本的100 倍,或者 Chat GPT 4.0 的 10000 倍。 按照英伟达 2024 年发布的 Blackwell 的 AI 算力较Hopper 提升了5 倍,假定2026年英伟达的下一个框架比 Blackwell 提升 4-5 倍,2028 年再下一代框架再提升4-5倍(大约维持目前的 AI 算力每年翻倍的能力),那么相较于Chat GPT 4.0所需的 GPU 的数量,也需要提升 10000/25=400 倍!也就是说,到了2028 年,我们用当时最先进的英伟达 GPU,90 天完成一个百万亿参数大模型的训练,所需的GPU数量是 20 万块-40 万块。 或者说,假定英伟达 AI 算力提升的速度是每 2 年 5 倍的话,那么企业每2年所要购买的 GPU 数量将是此前的 20 倍! 2024 年 9 月,甲骨文的老板埃里克森提到:未来 4 到5 年内,任何想参与这场大模型竞赛的企业,前沿模型门槛或高达 1000 亿美金,而且这场算力军备竞赛将永远进行下去。甲骨文最近宣布,将打造一个由 131072 个英伟达GB200NVL72Blackwell GPU 组成的 Zettascale AI 超级集群 ,可提供2.4 Zetta FLOPS的AI 性能,比马斯克的 xAI 算力集群更强大,后者目前拥有100000 个英伟达H100GPU 显卡。 AMD 的 CEO 苏姿丰则表示,AI 芯片市场规模将以超过60%的CAGR 增长,并于2028年达到 5000 亿美元。 因此以此来看,在 AGI 没有实现之前,英伟达看不到天花板。
第三,英伟达的风险在哪里? 但问题是,如果 4 年之后,在 AI 芯片上的资本开支如果是2024 年4-5 倍的话,即便是微软、脸书这样的互联网巨头也会捉襟见肘。目前在它们的资本开支中,大约一半都投到了算力芯片上,如果在如此短的时间投资翻4-5 倍的话(而它们的收入不能够也同步大幅增长的话),则无论是现金流,还是盈利能力,将无法承受如此之大的压力。

因此当我们再回到目前的情形:尽管 AI 芯片市场到5000 亿美元似乎听起来不大,与目前全球智能手机市场规模 5000 亿美元大体相当,但由于能够参与到大模型建设的玩家太少(同每年十几亿部手机销量相比),即便如“探险家”般热情的企业也不得不考虑投入产出比。 相信在探索 AGI 的道路上,投资不会是一片坦途,可能阶段性最大的敌人是经济周期的下行期,一旦短期全球陷入滞胀,限于增长乏力与股东压力,企业的大规模投资必将会阶段性受阻,而英伟达的客户则面临:收入压力增加,被迫缩小资本开支,英伟达“因为客户的竞争所导致的大幅溢价”局面将会终止,从看着客户抢着买,到与客户商量着买,甚至是主动联系客户,则不同情境下的毛利率将会变化较大,届时收入增速放缓的英伟达可能会面临较大的市值波动风险。但乐观来看,除了巨头们,随着 AI 芯片速度的提升,能够参与到千亿、万亿参数级别的大模型的门槛则将快速降低。目前万亿参数大模型对于大部分初创企业遥不可及,但到了 4 年之后,目前 8000 张 H100 算力卡的投入到时候变成了400张卡(1/20-1/25),这将是很多企业可以负担起的。而行业应用不一定需要AGI级别的大模型,而千亿、万亿级别大模型加上优化后的Agent 智能体定会有广袤的舞台。 从这个角度说,一旦全球从滞胀周期中度过后,千行百业的人工智能应用依然将像雨后春笋般涌现。届时智能体、模型算力都会到一个更低的门槛水平,人工智能也不会像今天这样金字塔式的发展,由顶级大模型企业垄断着行业大部分能力,而应用企业起步的门槛过高,或许百花齐放的景象才是AGI 时代真正的繁荣期!那个时候,AI 应用会更加扁平化,更加行业化,更加场景化,更加泛在化。