英伟达发展历程分为几个阶段?

英伟达发展历程分为几个阶段?

最佳答案 匿名用户编辑于2025/04/24 13:08

三十年历经沉浮,终成算力王者。

1、 1993-2004 年(3D 加速卡时代):背靠微软掌握标准,显卡龙头地位 初显

公司早期聚焦图形芯片,依靠游戏主机厂世嘉赚取第一桶金。1993 年 4 月,从 集成电路生产商 LSI Logic 出来的黄仁勋,联合 Sun 公司两位年轻工程师——Chris Malachowsky 和 Curtis Priem 共同创立了英伟达。初期,公司旨在通过生产 3D 图 形芯片布局游戏和多媒体市场。彼时 3D 游戏及 3D 渲染仍然处于早期,业内并无统 一标准,企业鱼龙混杂,既包括索尼、东芝、IBM 等大厂,也有很多如英伟达一般 的创业者,这其中,1994 年成立的 3dfx 凭借 Voodoo 显卡,成为 PC 端 3D 游戏的领 袖。1995 年英伟达推出公司首款面向游戏主机的多媒体加速器——NV1,集成了声 卡和手柄控制单元。尽管该产品相较 Voodoo 性能不高,兼容性差,但 NV1 仍被运 用于世嘉第六代游戏主机“土星”,为公司赚得了第一桶金(游戏机不需要考虑兼容 性问题)。

公司濒临破产,绑定微软重获新生。1996 年,微软发布了 Direct 3D 标准(只支 持“三角形绘图”),而英伟达因坚持“四边形绘图”的研发路线,NV1 很快便无人问津, 同时,为世嘉研发的 NV2 以失败告终,而对手 Voodoo 则顺应规律获得 80%的市场 份额,英伟达走到破产边缘。基于此,英伟达做出如下应对: (1) 人事方面:任命主机游戏厂商水晶动力的首席技术官 David Kirk 作为英 伟达的“首席科学家”; (2) 研发方面:确定了为期六个月的内部周期目标,产品更新迭代较快,更 快满足下游需求的变化,同时即便某一产品失败,也不会威胁到公司的 生存; (3) 拓客方面:绑定 PC 大客户微软,1997 年推出全球首款 128bit 的 3D 处 理器 RIVA128(NV3),这是第一款支持微软 Direct3D 加速的图形芯片, 也是当时市场上唯一真正具有 3D 加速能力的 2D+3DAGP 显卡,上市四 个月出货量突破 100 万片。至 1997 年底,英伟达的 3D 显卡市场份额为 24%,排名第二(仅次于 3Dfx Interactive)。随后,英伟达进一步发布的 RIVA 128ZX 支持 OpenGL,在雷神之锤中表现不错,而雷神之锤不支持 GLIDE 标准,使得 Voodoo 的优势有所弱化。

随着 90 年代计算机的普及和 Windows 的崛起,图形芯片主流市场逐步从主机 转向 PC,也使得英伟达在微软的助力下快速起势。1999 年 1 月,英伟达全年营收 突破 1.5 亿美元,并在纳斯达克挂牌上市。同年 5 月,其图形处理器销量超过 1000 万。8 月,英伟达推出第一款以 GeForce 命名的显示核心——GeForce 256,并首次 提出 GPU 概念,而后戴尔、Gateway、康柏、NEC、IBM 等纷纷宣布预装英伟达的 GPU,与此同时,传统 3D 加速卡市场也进入了快速洗牌阶段,2000 年底英伟达以 7000 万美元现金、100 万股公司股票,将 3Dfx 收入囊中,正式成为行业老大,彼时 市场仍具备竞争力的厂商主要为 ATI。在这一过程中,英伟达绑定微软持续推进业务, DirectX 7.0 推出 T&L 技术(极大解放了 CPU 的算力,也是显卡从 3D 处理器转称为 GPU 图形处理器的核心原因)、DirectX 8.0 实现了称为显卡革命的动态观影效果,而 GeForce 亦成为这些 DX(DX 即 DirectX 缩写,下同)系列的代表性显卡。

成也微软,败也微软,Xbox 首发失利引发英伟达与微软矛盾。英伟达 GPU 的 畅销加速了 DirectX 的普及,微软与英伟达相辅相成,由此微软不仅让英伟达参与到 DirectX 标准的制定中,亦在 2000 年将初代 Xbox 订单交于英伟达,这成为当时英伟 达创办以来最大的订单。但由于研发时间短,期间出现电源供应 Bug、数据库功能 不足等一系列问题,最终 Xbox 错过先机败给了 PS2。为了与 PS2 竞争,微软计划降 低 Xbox 二代产品主机售价,并同时要求英伟达降低芯片价格,但受到黄仁勋拒绝, 叠加各种品控问题,最终双方矛盾激化。 微软扶持 ATI,最终带来 N 卡与 A 卡长期拉锯战。GPU 行业更新迭代迅速,上 一世代的赢家并不必定能锁定下一时代的胜局,而在 DX9 之前,英伟达产品持续领 先 ATI,核心在于跟紧 DX 标准更新,通过抢先发布支持新显示标准的产品来抢占市 场。然而,由于英伟达与微软的嫌隙,微软转而重视 ATI 的扶植,使得英伟达错过 了微软 DX9 规格确立的重要消息,直接导致当年推出的 GeForce FX 由于兼容性问 题败给 ATI 的 Radeon 9700,此后 Intel 也开始扶持 ATI,进一步强化了 ATI 的生命力, 尽管之后英伟达与微软达成和解,亦拿下索尼 PS3 的订单,但英伟达龙头地位已经 开始动摇,至 2004 年三季度,在独立显卡市场,ATI 市场占有率达到 59%,英伟达 只有 37%。

2、 2005-2016 年(CUDA 通用计算时代):打造 CUDA 通用计算体系, 埋下时代伏笔

2006 年英伟达推出 CUDA 通用计算平台,为 AI 时代埋下伏笔。2004-2007 年, 英伟达业务发展相对平稳,在这其间,AMD 于 2006 年收购 ATI,但整合过程困难, 并让 AMD 背上承重的负债,致使 ATI 在与英伟达的竞争中落伍。当此之时,英伟 达开始思考更为长远的问题,彼时英特尔的 CPU 可以通过多线程技术被所有计算机 应用分享,但 GPU 还只能通过 OpenGL/DirectX 等接口与用户交互,如果能够在 GPU 中提供合适的编程模型,依托 GPU 的并行计算能力,每台 PC 都可以变成一座超大 规模高性能计算机。基于此,2006 年,英伟达发布 CUDA 平台,并运用于 2007 年 发售的 Tesla 系列,标志着 GPU 不再是图形处理器,而成为通用计算平台。尽管在 较长的时间里,CUDA 带来的高投入低回报并未得到市场的充分认可,前谷歌 CEO Eric Schmidt 称“CUDA 不过是 NVIDIA 为推广其 GPU 产品而推出的一项‘多余’ 的技术”。但随着 AI 时代到来,CUDA 即成为维护英伟达深厚护城河的重要力量。

相比 CPU,GPU 拥有更多的数据处理单元、更高的算力与内存带宽,使得其更 适合大规模并行运算。从运行效果上看, GPU 体现出远高于 CPU 的运算能力及内 存带宽,从运行逻辑上看,CPU 适合复杂、灵活的逻辑运算,GPU 适合简单、大规 模的并行运算,在底层硬件上,CPU 的控制单元、缓存单元占有较大比重,而 GPU 则以并行的数据处理单元为主。

英伟达通过 GPU 实现加速计算的核心在于 2 个技术:SIMT(Single-Instruction, Multiple-Thread)和 Hardware Multithreading。 SIMT:即单指令,多线程。所有线程共享同一指令流,这种设计使得 GPU 能 够在大量数据上同时进行相同或几乎一致的计算; Hardware Multithreading:将进程的运行上下文一直保存在硬件上,因而不存 在运行上下文切换带来开销的问题(传统 CPU 的多进程是将进程运行上下文保存在 内存中,进程切换时涉及到内存的读取,因而开销较大)。

CUDA 体系由 3 部分构成: 1、 指令集架构:CUDA 定义了一种针对 GPU 特性的指令集,允许程序员直接 编写针对 GPU 硬件的代码。这些指令专为大规模并行处理而设计,能够高 效地驱动 GPU 上的数千个并行处理单元(如 CUDA 核心或流处理器)同时 工作。 2、 硬件:即英伟达 GPU 内部的 CUDA Core,这种高度并行的硬件设计使得 GPU 在处理大量数据时能显著提高计算效率,尤其适合于处理诸如矩阵运 算、图像处理、物理仿真、机器学习等需要大规模并行计算的任务。 3、 软件:包括如编程语言与 API、内存模型与管理、并行编程模型、广泛的开 发工具链等。 CUDA 硬件和数据架构的对应关系:(1)从硬件的构成关系上,CUDA Core 是 英伟达 GPU 最小的计算单元,多个 CUDA Core 叠加 warp scheduler,register,shared memory 等构成一个 SM(streaming multiprocessor),多个 SM 再构成整个 GPU;(2) 从数据架构上看,一个 CUDA Core 一次可以执行一个 Thread(线程),数个 Threads 组成一个 Block,同一个 Block 中的 Threads 可以同步,也可以通过 shared memory 通信,最后,多个 Blocks 则会再构成 Grid。此外,英伟达通常将 32 个 Thread 组合成一个 Warp,作为调度和运行的基本数据单元。

CUDA 的诞生标志着 GPU 正式从传统的图像处理进阶到通用计算领域,并在 如物理仿真、机器学习等需要大规模并行计算的任务中表现出色。CUDA 与英伟达 GPU 强绑定,推出至今已更新至 12.0 版本,在英伟达常年的运营下,拥有极为丰富 且成熟的软件生态,使得用户在选择 GPU 时倾向于继续使用英伟达的产品,形成较 高的用户粘性和迁移成本,成为英伟达的重要护城河。

拥有超 400 个 CUDA 函式库,构筑牢固生态壁垒。自 CUDA 诞生以来,英伟达 持续在优化及简化 CUDA 的运用市场,并推出超过 400 个函式库,包括专注于处理 神经网络的深度学习库 cuDNN、可用于流体动力学等物理定律的 Modulus、专注 5G 无线网络的 Aerial RAN、计算光刻平台 cuLITHO(运用于台积电)等等。CUDA 函 式库为细分领域与英伟达架构提供了有效结合,以 cuDNN 为例,因为 CUDA 与 TensorFlow、Pytorch 中的深度学习算法差异较大,CUDA 本身不能被深度学习科学 家直接使用,而 cuDNN 为开发者提供了与 GPU 便捷交互的桥梁。如此数百个高性 能计算场景的叠加,共同维护了英伟达广泛且丰富的生态护城河,成为英伟达 GPU 在加速计算领域处于垄断地位的核心原因。

然而 CUDA 在推出早期诟病颇多,核心归结于 2 点:(1)对于 CUDA 的研发 每年需花费约 5 亿美元的研发费用,而彼时 GPU 的高性能通用计算或主要用于科学 计算中,市场空间有限;(2)CUDA 对散热的更高需求导致了芯片瑕疵,市场推测 这或许导致了 2008 年诸多 PC 品牌的屏幕异常问题(显卡门事件)。因此早期资本市 场对 CUDA 认可度低,2009-2010 财年在次贷危机下,高研发投入也导致英伟达出 现亏损。

AI 驱动初见端倪,CUDA 前期重投入成效初显。转折出现在 2012 年,后来被 称为“深度学习之父”的Jeffery Hinton 教授使用英伟达的GPU 卡参加全球最为权威的 计算机视觉大赛 ImageNet 大赛,其设计的深度卷积神经网络 AlexNet 一举夺冠,成 为 AI 历史上的重大突破,也成为英伟达在加速计算上的重要发展方向。2016 年,英 伟达发布 Pascal 架构,推出 DGX-1,采用 NVLink 互连架构,首次将 8 个 Tesla P100 GPU 连在一起,并将第一台 DGX 交付给刚成立的 OpenAI。2016 年也成为公司加速 计算的财务拐点,FY2017 公司数据中心收入同比增长 145%至 8.3 亿美元,CUDA 前期的重投入初见成效。

3、 2017 年-至今(全面 AI 时代):生成式 AI 崛起,英伟达成为万亿“卖 水人”

2017 年,对 AI 行业与英伟达均是具有里程碑式意义的一年。这年 6 月,谷歌 大脑团队发表论文《Attention Is All You Need》,提出自注意力模型 Transformer 架构, 成为当下生成式 AI 的基石。而早在 1 个月前的 2017 GTC 大会上,英伟达 CEO 黄仁 勋开展了围绕 AI 与深度学习的主体演讲,并发布了 Volta V100 与 Tensor Core,标志 着英伟达将重点投入 AI 领域,其高性能 GPU 迅速在数据中心取得垄断性地位。与 此同时,得益于云计算行业进入成长期、疫情加速线上办公渗透等因素,英伟达数 据中心业务保持快速增长。

2022 年末 OpenAI 发布 ChatGPT,正式开启生成式 AI 浪潮。ChatGPT 并非最 早开始采用 Transformer 的大语言模型,如谷歌早在 2018 年便发布了 BERT,但参数 量仅有 1.09 亿个,ChatGPT 的成功得益于千亿级的参数规模,以及其背后使用的 few-shots(小样本)和用户反馈技术,证明了大模型中存在的涌现效应和 scaling law, 前者意味着当模型的规模和训练参数达到一定的阈值时,模型的性能和泛化能力会 突然出现显著提升;后者即指参数规模越大,模型性能越优秀。此后科技龙头围绕 大语言模型 LLM 逐步延伸产品体系,包括文生图、文生视频、多模态等方案陆续推 出,英伟达作为核心 GPU 厂商充分受益。在当前市场阶段,训练仍为 GPU 主要运 用场景,但随着商业化进程推进,推理占用的工作负载有望从 40%提升至 70%。

参考报告

英伟达研究报告:“三芯”齐驱,高速互联,再战10万卡集群.pdf

英伟达研究报告:“三芯”齐驱,高速互联,再战10万卡集群。依托CUDA体系构建的护城河,英伟达逐步发展为高性能计算行业的领军者,在整体GPU领域市场份额达到80%,在数据中心GPU更是达到98%的市场份额,公司下一代GPU产品B系列放量在即,有望驱动后续业绩增长,预计FY2026-2028年GAAP净利润为1104/1439/1626亿美元,对应EPS分别为4.75/6.15/6.95美元,同比增长52%/30%/13%,当前股价对应FY2026-2028年的PE估值为25.6/19.7/17.5倍。随着架构持续升级,英伟达GPU仍有望成为高算力集群时代的首要选择,&l...

查看详情
相关报告
我来回答