2024年超威半导体研究报告:不断超越,挑战AI算力新边际

  • 来源:国泰君安证券
  • 发布时间:2024/03/07
  • 浏览次数:326
  • 举报

1. 投资分析

考虑到 AMD 产品将在 AI 浪潮中受益,助推公司营收改善。我们预计公 司 FY2024E/ FY2025E/ FY2026E 营业收入分别为 291.8/ 364.4/ 437.9 亿 美元,同增 29%/ 25%/ 20%,对应经调整净利润分别为 74/ 103/ 131 亿美 元,同增 73%/ 39%/ 28%。

2. 成长之路跌宕起伏,逐步稳扎 CPU 与 GPU 市场

2.1. 横跨多产品线,布局完善

2.1.1. 1969 年-1998 年:起步期,主攻性价比并依靠代工起家

AMD 初期作为模仿者,定位“第二供应商”主攻性价比。AMD 于 1969 年由桑德斯创立。桑德斯与英特尔的创始人罗伯特均来自仙童半导体, 但罗伯特从事技术岗位工作,而桑德斯作为销售人员,相较于罗伯特创 业初期更为困难,因此不同于英特尔以技术发展为导向,AMD 决定以市 场为导向,凭借学习模仿和生产制造能力,定位“第二供应商”主攻性 价比,提供更加质优价廉的产品。至 1974 年,AMD 营收达到 2650 万 美元,已站稳第二供应商的地位。 IDM 处理器订单外放使 AMD 获得英特尔授权,AMD 同英特尔联合生 产 PC 处理器芯片。1981 年,IBM 在其 PC 处理器上采取外包策略,向 英特尔订购 8086 处理器,英特尔将其技术授权予 AMD,共同为 IDM 进 行生产。1986 年,AMD 推出基于英特尔授权的 286 处理器,比英特尔 同期的 8086 处理器更优质,英特尔决定终止技术授权,自此 AMD 开始 大力投入自主技术研发。

2.1.2. 1999 年-2006 年:成长期,自研处理器带动公司快速发展

AMD 开始推出自主技术研发的处理器,逐渐对英特尔形成赶超之势。 AMD 于 1999 年推出速龙(Athlon)处理器,综合性能超越英特尔奔腾 Ⅲ,并率先英特尔突破主频 1GHz 门槛,2003 年推出业内首款 x86 架构 64 位处理器皓龙(Opteron),为 AMD 带来大量的服务器市场份额。这 一时期 AMD 发展极为迅速,甚至一度在台式机处理器市场中市占率超 过 50%,超越英特尔。

2.1.3. 2007 年-2016 年:沉寂期,整合业务摸索前行

AMD CPU 与 GPU 业务皆遭遇重大打击。2006 年英特尔推出酷睿 2,其大幅提升的性能使得 AMD CPU 性能优势不再突出。而 2011 年 AMD 推出全新的“Bulldozer”微架构,但在处理器技术发展路线上判断失误, 拥有更多的核心数的同时单核性能却存在倒退,后续推出的同系列微架 构,市场反馈均相对较弱。在 GPU 市场,2006 年 AMD 以约 54 亿美元 收购 GPU 市场排名第二的 ATI,开始与英伟达进行正面竞争。但在收购 后,AMD 不得不投入大量精力以整合业务,而英伟达却推出了一系列强 劲的 GeForce 新品抢夺市场份额。2008 年,AMD 将 ATI 移动业务部 Imageon 产品线卖给高通,因而错失移动互联网时代。2011 年,AMD 尝 试将 CPU 和 GPU 融合到 APU 处理器中,但性能仍不佳。在此过程中, 英特尔和英伟达逐步抢占了 AMD 在 CPU 和 GPU 市场的份额。

AMD 分拆制造业务,英特尔先进制程进度出现延期,成为 AMD 后续 反超的一大伏笔。2009 年,AMD 决定将旗下制造业务分拆成立格芯, 并专注于硬件集成电路设计及产品销售业务,这为后续能够使用台积电 更先进的制程技术做出铺垫。2014 年,英特尔 14nm 制程延期,后续 10nm 制程仍出现延期,为后续 AMD 的反超埋下伏笔。

2.1.4. 2017 年至今:重塑竞争优势,完善全产品线布局

AMD 推出基于 Zen 架构的锐龙系列处理器,重塑竞争优势。2012 年 1 月,长期处于困境的 AMD 在第五任 CEO 苏姿丰的加入下开始了逆袭之 路。2017 年首先推出基于 Zen 架构的锐龙系列处理器,Zen 2 及后续订 单开始交由台积电代工,强大的综合性能与先进的制程技术,使得 AMD 在消费级 CPU 市场站稳脚跟;随后推出 EPYC 系列 CPU、Radeon 系列 GPU 等,并通过收购赛灵思逐步完善了业务布局。这一系列举措帮助 AMD 逐渐扭转了困境,重塑了在市场上的竞争地位。 苏姿丰博士具备出类拔萃的专业知识与管理能力。她拥有麻省理工学院 (MIT)电气工程学士、硕士与博士学位。1994 年博士毕业后进入美国德 州仪器公司的半导体制程与元件中心任职;1995 年进入 IBM,在多个工 程和业务部门担任过领导职位;2007 年作为首席技术官加入飞思卡尔公 司,后担任高级副总裁兼网络与多媒体部门总经理;2012 年 1 月加入 AMD,从工程师晋升为职业经理人。苏资丰喜欢挑战,且极为坚毅理性,所有决策的制定都是从解决问题的角度出发。她因电气工程有挑战性遂 选择作为大学专业,在身处研发岗位时主动尝试经营管理,她相信竞争 让她变得更好。在上任 CEO 之后,为解决 AMD 当时资金困难、产品落 后的困境,果断做出了裁员、简化业务流程等决策,并通过将新研发的 架构授权给中国公司、与中国公司成立合资公司并转让芯片封装业务筹 集资金,使其有足够的资金研发对当时的AMD有显著意义的Zen架构。 苏资丰领导下的 AMD 制定了三项核心战略:以产品驱动、维持良好的 合作伙伴关系和简化运营。AMD 简化研发流程,基于可扩展设计完善 了 Zen 架构的路线图,同时建立新的可迭代的产品周期,每年推出新一 代 GPU,每 1.5 年推出新一代 CPU。AMD 加深了与索尼和微软的合作, 摆脱对传统 PC 市场的依赖,业务来源更加多元化,扩展到游戏、数据 中心等增长市场。AMD 进行了自上而下的组织结构微调,提高了高管沟 通的透明度和频率,并鼓励培养包容性的企业文化。这三大战略为 AMD 在竞争激烈的市场中取得成功提供了坚实的基础。

2.2. 采取扁平化管理,技术部门占据主导地位

AMD 采用扁平化的管理结构,其组织架构层级相对较少。其中,技术 部门规模较大且划分较为详细,而各核心业务都设有专门的团队,与职 能部门平行运作。这种结构体现了公司注重以产品驱动的战略。根据 Zppia 的数据显示,AMD 员工中最常见的专业是电气工程,占比高达 33%。同时,公司官网开放的招聘岗位以工程研发为主,进一步印证了 公司技术部门占据主导地位的安排。这种结构的设计有助于加强对产品 研发的专注,并确保在技术创新方面取得竞争优势。

2.3. 股权架构分散,无单一大股东

大部分为机构持股,股权结构分散。据 Yahoo Finance 2023 年 12 月数据 显示,AMD 72.03%为机构持股,0.49%为内部人士持股。机构投资者共 有 2770 家,其中持股占比前三高的依次为先锋领航集团、贝莱德、道富 公司,分别占比 8.75%/ 7.60%/ 4.01%,股权结构总体较为分散。

2.4. 产品线较为分散,覆盖范围广泛

公司将所有业务划分为了四个板块:数据中心、客户端、游戏及嵌入式 业务,产品类型涵盖处理器、显卡、FPGA 等等。 1) 数据中心业务包含了 EYPC 服务器处理器、Instinct GPU 加速 器、赛灵思中数据中心部分的 FPGA 和自适应 SoC,以及 Pensando 的 DPU。 2) 客户端业务包含了笔记本、台式机及工作站 CPU 和 APU。 3) 游戏业务包含了 Radeon 系列台式机及笔记本 GPU、游戏机半 定制 SoC。 4) 嵌入式业务包含了锐龙和霄龙嵌入式处理器,以及赛灵思的 FPGA、自适应 SoC。 各产品线收入占比均衡,AI 业务是公司头号战略重点。四条产品线中,客户端和游戏业务是 AMD 过去主要的收入来源,截止 2019 年占据总收 入高达 85%。随着赛灵思的收购落地及数据中心的发展,AMD 的收入 构成逐渐多样化;截止 2023Q3,数据中心、客户端、游戏和嵌入式业务 分别占据总营收的 27.6%/ 25.1%/ 26.0%/ 21.4%。AMD 多次强调,AI 业 务将是目前公司的头号战略重点,接下来的目标是进一步扩大数据中心 的收入占比。

3. 数据中心:拥抱 AI 浪潮,是短期公司最大的增量 业务

AMD 的数据中心产品线涵盖 EYPC 服务器处理器、Instinct GPU加速器、 赛灵思中数据中心部分的 FPGA和自适应 SoC,以及 Pensando 的 DPU。

3.1. 提供性能及能效俱佳的服务器处理器产品组合,市场份额 稳步提升

AMD 数据中心主要的 CPU 产品是 EPYC(霄龙)系列处理器,于 2017 年推出第一代 7001 Naples,2019 年推出第二代 7002 Rome,2021 年推 出第三代 7003 Milan。最新的第四代 EPYC 处理器于 2022 年发布,并于 2023 年全面完善,共包含 Genoa、Genoa-X、Bergamo 及 Siena 四个系 列,满足全方位的计算需求。

公司现提供业界性能最高、能效最高的服务器处理器产品组合,涵盖云、 企业、技术、HPC 和边缘计算。第四代 EPYC 产品组合覆盖多应用需 求。首先,Genoa 和 Genoa-X 系列采用 Zen 4 架构,针对每核性能进行 优化;其次,Genoa-X 运用了 3D V-Cache 技术,将 L3 缓存垂直堆叠, 从而在占用很少空间的情况下显著增加缓存的大小,适用于缓存需求较 高的技术运算;而 Bergamo 和 Siena 采用 Zen 4c 架构,是 Zen 4 架构的 加强版,针对每瓦性能进行优化,从而能够提供更高的密度和能效。 Genoa 和 Bergamo 区别在于 CCD 核心小芯片:Bergamo 通过在针对功 率和面积进行优化并改动 L3 缓存层次结构以提高吞吐量,最终核心小 芯片的面积缩小 35%,每瓦性能显著提高,使得每一个计算小芯片中包 含的内核数量是 Genoa 的两倍,达到每个插槽 128 个内核,更适合注重 吞吐量、高密度和高能效的云原生计算,相比英特尔 Xeon platinum,具 有最高 2.6 倍的性能提升、2.1 倍的密度和 2 倍的能耗比。最后,Siena 是针对最佳性能、能耗和成本进行了优化。同样采用 Zen 4c 架构,但相 比于其他三款拥有更少的内核数,规模更小,主要针对低功耗领域。Siena 适合智能边缘等较小的服务器节点,提供均衡的性能、较高的能效和更 低的成本。 在摩尔定律逐渐失效的趋势下,AMD 在 chiplet 技术和架构设计上的竞 争优势重要性凸显。2015 年 AMD 开始研发 chiplet 技术,通过将芯片分 解成更小的碎片,将制造成本降低了 40%。在半导体工艺节点下探到物 理极限、摩尔定律发展到达瓶颈、但对芯片性能的要求不断提高的背景 下,从前的单片 SoC 尺寸过大且成本太高、良率下降。chiplet 技术将功 能模块的芯片单元化,再根据需要将不同功能的裸片进行组合和拼接, 具有高集成度、高设计弹性、高良率、低成本的优点。第四代 EPYC 全 系列均采用了台积电 5nm 制程及小芯片技术。

相比英特尔,EPYC 系列具有制程和性能方面的竞争优势。对标 EPYC, 英特尔在服务器 CPU 领域于 23Q1 推出了第四代可扩展 Xeon CPU Sapphire Rapids,并公布了第五代可扩展 Xeon CPU Emerald Rapids 将于 23Q4 推出。EPYC 采用台积电 5nm 制程,相较于 Sapphire Rapids 和 Emerald Rapids 采用的 Intel 7 工艺,制程工艺上领先英特尔。实际性能 方面,AMD 官方分别将三级缓存最高的 EPYC 9684X、核心数和线程数 最高的EPYC9754与英特尔Xeon内核数和缓存最高的8490H进行对比, EPYC 均大幅领先。 EPYC 系列性能表现良好,助推市场份额上升。自 2017 年第一代 EPYC 处理器推出后,AMD 在服务器处理器领域的市场份额稳步上升。第四代 EPYC 市场反馈良好,市占率在 23Q3 达到 23%,公司于第三季度财报 会上表示,亚马逊、谷歌、微软、甲骨文、腾讯等公司在该季度推出了 近 100 个由 AMD 驱动的新的云应用。其主要竞争对手英特尔因在 CPU 领域的长期优势,市占率约为八成。短期内,凭借 EPYC 处理器的优异 性能,AMD 的市场份额有望进一步提升。从长远来看,英特尔提出的 “四年五个节点”的计划中,计划于 2024 年达到 2nm 制程,可能会重新 夺回市场份额。然而,截至 2023 年 12 月 22 日,计划于 2023 年下半年 投产的 Intel 3 节点暂无具体的投产消息,这意味着 AMD 的竞争优势有 望继续维持。

3.2. APU 加速器集成多项创新技术,覆盖 AI 和 HPC 工作负 载

AMD 面向数据中心的加速器产品为 Instinct 系列。最新的 Instinct MI300 系列中,MI300A 于 2023 年 1 月发布发布,MI300X 于 2023 年 6 月发 布。其中,MI300A 是首款针对 AI 和 HPC 的 APU 加速器(CPU+GPU), MI300X 是针对生成式 AI 和大语言模型的 GPU 产品。 MI300A 作为第一款数据中心 APU 产品,应用了多项领先技术。MI300A 与英伟达的 GH200 同属于 CPU+GPU 的异构芯片,且都定位于 HPC 和 AI 计算,两者有以下几个区别: 1)芯片结构方面,MI300A 是市场上首款“CPU+GPU+内存”一体化 产品,结合了 Zen 4 CPU 和 CDNA 3 GPU。采用 chiplet 技术,共由 13 块小芯片组成,在 4 块 6nm 内存小芯片上堆叠了 9 块 5nm 计算小芯片 (6 个 GPU 芯片和 3 个 CPU 芯片),共配置 128GB 的 HBM3 内存和 1 个 CDNA 3 图形引擎。GH200 整合了基于 Arm 的 NVIDIA Grace CPU 与 NVIDIA H100 Tensor Core GPU。其中,GH200 的 CPU 采用 ARM 架构 而 MI300 的 CPU采用 x86 架构,两种 CPU架构在 AI 应用中各有优势: ARM 架构能耗较低,x86 架构性能更高。 2)封装技术方面,MI300 使用台积电 SoIC(3D)和 CoWoS(2.5D)两 种封装技术,而 Nvidia H100 和 GH200 仅使用 CoWoS(2.5D)封装技术。 相较 2.5D 封装方案,SoIC 的凸块密度更高,传输速度更快,功耗更低。 且 AMD 在先进封装上具有先发优势,经验更为丰富:AMD 于 2015 年 研发了 chiplet 技术,后于 2021 年和台积电一起开发了 3D chiplet。

3)内存带宽方面,MI300A 使用了创新的“统一内存架构”(Unified Memory),使得 GPU 和 CPU 可以共享同一内存空间。一方面绕过了传 输协议速率限制,另一方面消除了不必要的内存复制从而减少内存带宽 的占用,加速了 CPU-GPU 之间的数据传输。GH200 则使用了 NVLinkC2C(Chip-to-Chip)进行 GPU-CPU 高速互联,传输带宽高达 900 GB/s, 不过仍受到传输协议速率限制和需要内存复制的限制,不同于 MI300 实 现了真正物理意义上的统一。AMD 有在 APU产品上有长期的技术积累,AMD 半导体(AMD.US) 请务必阅读正文之后的免责条款部分 13 of 33 在 PC 端和游戏主机业务中都推出过 APU 产品,相比英伟达在整合 CPU+GPU 在同一芯片内具有经验优势。

3.3. GPU 加速器取得较大进展,追赶 AIGC 浪潮

MI300X 性能亮眼,大幅提升了 AMD 在 AI 芯片上的竞争力。MI300X 同样采用 chiplet 技术,共由 12 个小芯片组成,将 8 个 12Hi堆栈的 HBM3 内存与 8 个 3D 堆栈的 5nm CDNA 3 GPU 小芯片融合在 4 个底层 6nm I/O 芯片上,具有 256MB Infinity Cache 用作共享 L3 缓存层,以促进小 芯片之间的通信。为满足大语言模型和 AI 计算的需求,MI300X 将 MI300A 中 3 块 CPU 小芯片换成了两个 CDNA 3 GPU 小芯片。该芯片 拥有 304 个 GPU 计算单元,可为 FP16 和 BFLoat16 等关键 AI 数据类型 的运算提供三倍以上的性能,8 个 HBM3 的槽位从 16GB 的规格升级到 了 24GB 的规格,共拥有 192GB 的 HBM3 内存,有效解决了大模型时 代的"显存瓶颈"与"带宽瓶颈"问题,可以容纳比 H100 多两倍的 300 亿参 数训练模型和 700 亿参数的推理模型,并可支持 700 亿参数训练模型和 2900 亿参数的推理模型,相较于 H100 HGX 多一倍。 MI300X 相比 Instinct 系列的前几代加速器有大幅性能提升,参数及实 际性能层面都对标了英伟达的 H100。据 AMD 官方数据显示,在推理性 能方面,与 H100 HGX 相比,AMD Instinct 平台在 176B BLOOM 模型 上运行推理时性能是其 1.6 倍,在 Llama2 700 亿参数模型上运行推理时 性能是其 1.4 倍;单个 MI300X 芯片的推理性能是 H100 的 1.2 倍。在关 键 AI kernel 性能表现上,MI300X 平台的表现也优于 H100 10%-20%。 训练性能方面,MI300X 平台训练 30B MPT 模型的性能与 H100 HGX 持 平。与此同时,AMD 还为 MI300X 配备了 400GbE 网络并支持多种网 卡,比英伟达的选择更多。

3.4. 软件生态是 AMD 破局的关键,短期兼容 CUDA,长期自 研+收购,发展自己的软件生态

市场一致认为,AMD 数据中心加速器的瓶颈在于软件生态。软件生态 极大的影响了硬件产品的实际应用成本,故在硬件部署的过程中不可或 缺。英伟达于 2007 年发布 CUDA 生态系统,开发人员可以通过 CUDA 部署 GPU 进行通用计算。通过先发优势和长期耕耘,CUDA 生态圈已 较为成熟。AMD 则起步较晚,于 2016 年发布对标 CUDA 的 ROCm。 ROCm 旨在提供一个可移植、高性能的 GPU 计算平台。支持 HIP 和 OpenCL 两种 GPU 编程模型,可实现 CUDA 到 ROCm 的迁移,但是存 在转译带来的性能损失。 与 CUDA 主要存在以下几方面的区别: 1)生态系统:ROCm 拥有不断发展的工具和库生态系统,包括 TensorFlow、PyTorch 和 MIOpen,可针对高性能计算进行了优化。CUDA 同样拥有完善的工具和库生态系统,包括 TensorFlow、PyTorch 和 cuDNN。 但总的来说 ROCm 的算子库的丰富度和用户数远低于 CUDA。 2)框架迁移:CUDA 在训练推理过程中对开发者需要做框架迁移 的支持显著优于 ROCm。 3)底层框架支持:ROCm 目前在底层框架支持上只针对少数主流 框架,CUDA 相较完整。 4)开源与闭源:ROCm 作为一个开源平台,开发人员可以根据自己 的特定需求定制 ROCm,CUDA 则是全闭源。

ROCm 落后于 CUDA,但已取得重要进展。第一,ROCm曾只包括Radeon Pro 和 Radeon Instinct 等较高端的系列,现已逐步向游戏显卡拓展;第 二,ROCm 曾只支持 Linux 系统,现已开始支持 Windows 系统;第三, ROCm 已经开始支持主流机器学习框架包括 TensorFlow、Caffe 和 PyTorch 等,进一步完善了其 GPU 在机器学习方面的应用。 短期兼容 CUDA,长期自研+收购,发展自己的软件生态。为弥补在软 件生态方面的不足,AMD 采取了如下策略:短期内支持 ROCm 通过 HIP (可移植异构计算接口)兼容 CUDA,吸引用户转移。AMD 提供了将 CUDA 应用程序通过 HIPIFY 工具自动转换为 HIP 内核语言及运行 API的功能,HIP 源码通过不同的编译工具可以实现在 AMD 或英伟达的 GPU 上运行,从而实现兼容。长期 AMD 将通过收购+自研打造自己的软件生 态。2023 年初 AMD 成立了人工智能部门,该部门拥有约 1500 名工程 师,绝大多数从事与软件相关的工作;8 月收购了法国初创公司 Mipsology,拓展其人工智能推理软件能力;10 月宣布收购专注于开发针 对硬件平台优化人工智能算法的开源软件 Nod.ai,拓展其在开源 AI 软 件方面的实力。所有收购团队都将整合进 AMD 人工智能部门。

ROCm 的低转换成本使得 AMD GPU 在推理端更具优势。目前,英伟 达凭借其训练结果精度优势在训练端市场占据了难以撼动的市场地位。 然而,由于英伟达 GPU 价格较高及供应量受限,客户在推理端根据市场 需求或者产品需求通常选用其他 GPU 进行推理以节约产品成本。在训 练与推理过程种选择不同品牌 GPU,会涉及到模型的转换和迁移的问题, AMD 以其兼容优势可以有效降低模型转换成本。英伟达 GPU 多使用 PyTorch 和 TensorFlow 进行模型训练,ROCm 同样支持该主流机器学习 框架,同时,ROCm 使用 HIP 和与 CUDA 相同的对外 API 接口,实现 了低性能损耗,奠定了 AMD GPU 在推理端市场的占有更大市场份额的 基础。

3.5. 收购赛灵思,将 FPGA 带入数据中心布局

AMD 于 2022 年完成对 FPGA 大厂赛灵思的收购,主要目的为助力数 据中心。FPGA 全称为现场可编程门阵列,其制造完成后,用户通过对 逻辑单元和开关阵列编程,使 FPGA 内部形成不同的逻辑电路,从而实 现用户所需的功能。FPGA 对 AMD 的数据中心业务具有极大的补强作 用:首先,FPGA 现场可编程的性质使其具备灵活性高的特点,面对当 前数据中心里不断变化的运算需求,FPGA 可以帮助节省大量成本。其 次,FPGA 拥有的大量逻辑块使其具备并行性好的特点,而当前 AI 的发 展对高吞吐量和实时计算的需求不断提升,可以利用 FPGA 进行大量并 行计算。通用 CPU 的性能无法支撑计算密集的 AI 应用,因此需要专用 的芯片去加速,结合 FPGA的两大特点,预计在 FPGA有较大发展空间。 赛灵思的产品在数据中心领域的主要功能在于硬件加速,目前原赛灵思 旗下用于数据中心的产品主要有以下几项:

1)Versal 自适应计算加速平台(Versal ACAP):ACAP 是赛灵思于 2018 年发布的具有自适应计算能力的、完全软件可编程的异构计算平台。 ACAP 保留了 FPGA的可编程性和自适应性,由硬件可编程逻辑单元(自 适应引擎)、软件可编程处理器(标量引擎,ARM 处理器)、软件可编程 的加速引擎(矢量引擎,AI 引擎)整合而成,充分利用各自的优势。同 时,ACAP 有以下两点创新:第一,ACAP 对传统 FPGA 基本单元算力 有限的弱点进行了优化,增加了高并行度的计算引擎 AI 引擎;第二,增 加了高度灵活的、每秒多兆位可编程片上网络(NoC),无缝集成所有引擎 和重要接口,且可以快速高效地传输数据。Versal ACAP 中适用于数据 中心的有两个系列:AI Core 系列凭借 AI 引擎可实现突破性的 AI 推断 和无线加速,与当今的服务器级 CPU 相比,AI 引擎提供的计算性能高 出 100 倍以上。AI Edge 系列可在边缘节点提供相较领先的 GPU 4 倍的 AI 单位功耗性能,且适用于功率和热受限的环境。

2)Alveo 系列加速卡:专门面向数据中心工作负载的加速卡,实现 多个型号覆盖多场景应用。例如,Alveo U55C 专为 HPC 和大数据应用 而构建,Alveo U25N 面向网络和安全加速。

赛灵思面向所有开发者均拥有完整的开发平台。赛灵思于 2012 年推出 针对其 FPGA 产品的开发套件 Vivado,主要针对硬件,开发人员需要具 备比较强的 FPGA 硬件开发能力。2019 年推出统一软件开发平台 Vitis, Vitis 平台无需用户深入掌握硬件专业知识,即可根据软件或算法代码自 动适配和使用赛灵思的硬件架构。此外,Vitis 平台不限制使用专有开发 环境,可以插入到通用的软件开发工具中,并利用丰富的优化过的开源 库,使开发者能够专注于算法的开发。针对 AI 领域,赛灵思整合出了 Vitis AI,可以帮助 AI 开发者用于加速 AI 及机器学习开发。Vitis AI 不 只支援主流 ML 开发框架(TensorFlow、PyTorch、Caffe 等),还整合多 种 AI 开发套件,包括 AI 优化器、AI 量化器、AI 编辑器,以及 AI 分析 器等,更支援深度学习这一类 DSA(专用领域)应用架构的 DNN 处理 器,例如电脑视觉 CNN、LTSM 及 MLP 多层感知神经网路。AI 科学家 能利用 Vitis 平台,迅速开发出行业所需的特定领域 AI 应用。

3.6. 收购 Pensando,将 DPU 带入数据中心布局

收购 Pensando,布局 DPU 优化数据中心工作负载。由于数据中心的复 杂性不断提升,CPU 的性能达到瓶颈,针对数据中心的工作负载进行优 化的必要性进一步显现,促使了 AMD 对 Pensando 的收购。Pensando 最 主要的技术为 DPU,是一种提供数据中心基础设施服务的通用处理器, 前身为基础网卡和智能网卡。DPU 在硬件架构上增加了通用处理单元 CPU 和丰富的硬件加速单元,从而可以实现对网络、存储、安全和管控 等通用基础设施的加速、卸载和隔离,使 CPU 专注于其他计算,能够大 幅提升整体性能、降低功耗和成本,降低云的 TCO。 Pensando 的主要产品是“分布式服务平台”,其核心是完全可编程 P4 数 据处理单元(DPU)和对应的一套软件。通过硬件和软件的结合,提供 云服务、计算、网络、存储和安全服务。硬件部分包括用于服务器网络 加速的 DSC(Distributed Services Card)系列和用于数据中心架顶交换机 的 DSS(Distributed Services Switch)系列,软件部分是用于网络和安全 策略管理的 PSM(Policy and Services Manager)软件系列。DSC 和 DSS是软件可编程的,将 DPU 安装在服务器和交换机中,通过 PSM 按需部 署计算加速、网络协议加速、安全加速、存储加速、NVMe-over-Fabric 加 速、数据加密和解压缩等业务,将这些服务从 CPU 卸载到 DPU 上集中 管理。 目前 Pensando 最新的 DPU 产品代号为 Giglio,可以在云规模下以 2 x 200Gb/s 的线路速率负载各种数据中心网络、存储和安全服务。它具有 由 144 个定制匹配处理单元(MPU)组成的 P4 可编程管道,结合 16 倍 A72 ARM 核心复杂结构,以及专用数据加密和存储卸载引擎,并通过专 有的快速片上网络互连连接在一起。战略意义上,认为 Pensando 的产品 和赛灵思 Alveo SmartNIC 并不冲突,且是相辅相成的:Pensando 的芯片 架构可以高速支持几个同时进行的工作任务,而 Alveo SmartNIC 可以提 供更高的性能,但不能同时支持太多的工作负载。

3.7. 全面完善数据中心布局,囊括 CPU+GPU+FPGA+DPU

AMD 已经拥有了业内最全的 CPU+GPU+FPGA+DPU 数据中心产品组 合,可以覆盖全场景 AI 数据计算需求:锐龙 CPU、EPYC CPU 将用于 训练和推理小到中型模型;搭载 AI 引擎的 EPYC CPU、Radeon GPU 和 Versal 芯片将覆盖用于训练和推理中型到大型模型;Instinct GPU 和 Xilinx 的自适应芯片将覆盖用于训练和推理超大型模型。CEO 苏资丰表 示,数据中心的工作负载正变得越来越专业化,AMD 广泛的数据中心产 品组合可以做到为正确的工作负载使用正确的计算。软件生态层面, AMD 计划推出 AMD Unified AI Stack,将此前用于 CPU、GPU 和自适 应芯片的不同软件堆栈整合到一个接口。第一个版本将整合 AMD 用于 GPU 编程的 ROCm 软件、CPU 软件和赛灵思的 Vitis AI 软件,为推理工 作负载提供统一的开发和部署工具。

4. 客户端:全新架构、制程优势和 Chiplet 技术带动 性能提升,在 CPU 市场的地位逐步稳定

4.1. CPU 业务后来居上,提供了支撑 AMD 走出困境的最大 动力

全新架构+制程优势+Chiplet 技术带动 CPU 性能提升,通过高性能 +高性价比后来居上。AMD PC 端的消费级显卡为锐龙系列。2017 年前 AMD CPU 的硬件技术在市场内全方位落后,直到 2017 年推出了具有历 史意义的第一款基于 Zen 架构的处理器锐龙 1000 系列,较之前的推土 机架构有了巨大的性能提升,开始具备了与英特尔竞争的实力。2018 年, 发布了基于 12nm 工艺和 Zen+架构的锐龙 2000 系列;2019 年,发布基 于 7nm 工艺和 Zen 2 架构的锐龙 3000 系列,第一次在消费级 CPU 中采 用了 chiplet 技术,具有高设计弹性、高良率、低成本的优点;2020 年 7 月发布了新的 7nm 工艺的锐龙 4000 系列,10 月发布了基于 7nm 工艺和 Zen 3 架构的锐龙 5000 系列,针对游戏玩家第一次采用了 3D V-Cache 技术,将 L3 缓存垂直堆叠,从而在占用很少空间的情况下显着增加缓存 的大小,游戏性能较普通版提升达 15%;2022 年 1 月发布了基于 6nm 工 艺和 Zen 3+架构的锐龙 6000 系列,8 月推出了采用目前最新的 Zen 4 架 构的 Ryzen 7000 系列。AMD 预计将于 2024 年推出 Zen 5 架构。相较于 Intel 处理器优化的单核性能和较高的时钟频率,AMD CPU 则以其多核 心设计和高频率性能在多线程任务上表现出色,尤其擅长运行视频编辑、 3D 渲染和大型数据处理等高强度应用。

全面拥抱 DDR5 内存和 AM5 接口的主板,短期内失去性价比优势,但 在长期内影响将逐渐消失。AMD 的消费级 CPU市占率呈波动上升趋势, 只在 22Q3 有一次较大的下降,主要原因是锐龙 7000 系列只支持 DDR5 内存和 AM5,后两者较高的价格使得锐龙 7000 系列 CPU 的性价比较 低。但由于内存和主板升级是必然趋势,长期内此影响将不再存在。 工作站处理器性能领先。AMD 针对工作站市场推出的处理器为台式机 的 Threadripper(线程撕裂者)Pro 系列和笔记本电脑的锐龙 Pro 系列。 线程撕裂者 Pro 于 2020 年 7 月发布,专门面向专业工作站,对标英特尔 的 Xeon(至强)系列。目前最新的是锐龙 Threadripper PRO 7000 WX 系 列,基于 Zen 4 架构,拥有 5nm 制程工艺,大幅提升建筑设计、设计与 制造、媒体娱乐、软件与科学等行业的工作效率。由于具有更好的性能, AMD 在工作站 CPU 的市场份额远高于英特尔。

4.2. XDNA 架构首先应用至 PC 端处理器,布局 AI PC,该业 务可以为 AMD 带来长期差异化竞争

将赛灵思与 AMD 的产品深度整合,推出 XDNA 架构,并将其整合到多 个产品线中。2022 年 AMD 面向 AI 应用推出了新架构 XDNA,是来自 赛灵思的自适应架构 IP,专为 AI 计算而生。XDNA 包含 FPGA 架构和 AI 引擎(AIE)等多项技术,其中 FPGA 架构将自适应互连与 FPGA 逻 辑、本地存储器相结合,而 AI 引擎则提供了针对高性能和高能效 AI 与 信号处理应用而优化的数据流架构。AMD 计划将 AI 引擎整合到其他多 个产品线中,拓宽其在 AI 领域的布局:包括锐龙处理器、EPYC 处理器 和赛灵思 Versal 等产品,以用于中小型 AI 模型。 首先将 AI 引擎引入锐龙处理器,布局 AI PC 市场。第一代内置 AI 引擎 的锐龙处理器 AMD 锐龙 7040 系列于 2023 年 1 月发布,采用 AMD Zen4 处理器架构和 RDNA3 核显架构;第二代锐龙 8040 系列于 2023 年 12 月 发布。AI 引擎具有以下几个优点:首先,AI 引擎单元有专属的本地内存 空间,可以直接在本地处理不同的 AI 神经网络,摆脱了对云侧的依赖, 从而能够无延时地处理数据,且在隐私保护方面更加安全。第二,AI 引 擎的峰值算力可以达到 10TOPS,是专为 AI 推理负载设计的,具备远超 CPU/GPU 的能效。第三,AI 引擎改变了推理模型的处理方式,不再像 传统神经网络那样只能在多个“神经元”之间一层一层地逐次流动,而是 采用了全新的适应性数据流架构和适应性互连,可以针对不同负载、模 型、数据,由不同单元、层级进行同步处理,从而大大提高性能、效率 和能效,还可以由开发者进行定制,找到更适合特定负载的处理方式, 实现效率最大化。

5. 游戏:硬件及软件技术逐步完善,主打性价比优势

5.1. 作为技术层面的追赶着,主打性价比优势

通过收购开启显卡业务,技术逐步进步。AMD 自 2006 年收购 ATI 后开 始了显卡业务,2012 年发布了 GCN 架构,持续四代。2019 年 AMD 推 出了 RDNA 架构和采用 RDNA 架构的 Radeon RX 5000 系列 GPU,较先 前使用的 GCN 架构有大幅度提升。2020 年推出了采用 RDNA2 架构的 RX6000 系列,首次加入光线追踪和无限缓存技术。2022 年 11 月推出了 目前最新的采用 RDNA 3 架构的 Radeon RX 7000 系列,该系列为第一 款采用了chiplet技术的游戏显卡,具有更高的芯片良品率和更低的成本;内置第二代线追踪加速单元和第二代无线缓存,首次加入了人工智能加 速器和 Radiance Display 引擎;较 RDNA 2 性能功耗比提升多达 50%。 主打性价比优势,迅速抢占中低端市场显卡份额。英伟达的游戏显卡为 GeForce 系列,对比英伟达定位相同的游戏显卡,AMD 产品推出时间更 晚,性能较为落后,但同时价格更低。例如同样作为定位最高的消费级 显卡 Radeon 7900 XTX 和 GeForce RTX 4090,7900 XTX 的性能略低于 RTX 4090,价格低了 600 美元。因此,AMD 在性价比更为重要的中端 与入门级显卡市场占据更多的市场份额。

逐步完善配套技术,向英伟达看齐。英伟达于 2018 年在游戏显卡中加 入光追技术,AMD 于 2020 年加入。英伟达于 2018 年推出 DLSS 技术, 通过机器深度学习来训练人工智能,让人工智能把图像从较低的分辨率 提升到较高的分辨率;AMD 于 2021 年推出对标 DLSS 的 FSR 技术,通 过软件算法以低分辨率渲染输出高分辨率图像的超采样,两者的效果相 似但实现原理不同。对比目前最新的光追技术,英伟达较为领先,对比 DLSS 3.5 和 FSR 3,两者的差距逐渐缩小,且 FSR 可以同时支持 AMD 和英伟达的显卡,范围更广。

5.2. 提供全套方案且性价比较高,游戏半定制业务长年领先

涵盖热门游戏主机及掌机客户,市场占有率第一。AMD 在游戏主机部 分相比其他芯片厂商有以下优势:第一,可以提供整套的 CPU+GPU 方 案,便于整合;第二,价格具有竞争力,综合性价比较高;第三,经历 几代合作后与合作伙伴保持了良好的关系。这几点竞争优势有望在未来 继续维持。目前合作过的方案包括索尼 PlayStation 4、5 的 SoC,微软 Xbox X & S 的 APU、任天堂 Wii U 的 GPU。Ampere Analysis 数据显示, 2022 年索尼 PS 在全球游戏主机硬件、游戏及服务销售中占比为 45%, 任天堂 Switch 为 27.7%,微软 Xbox 为 27.3%,其中 Switch 与英伟达合 作,PS 和 Xbox 与 AMD 合作,AMD 占据更大的市场份额。掌上游戏机 部分,Valve 的 Steamdeck 采用了 AMD 定制的处理器,运用了 AMD 的 CPU 核心和显卡架构。华硕的 ROG Ally 掌机、联想的 Legion Go 都采 用了 AMD 锐龙 Z1 和 Z1 Extreme 系列处理器。 游戏主机进入下行周期,半代升级可提供部分增长动力。游戏主机的产 品更新分为“整代升级”和“半代升级”两种;其中“整代升级”是如 PS 4 到 PS 5,或从 Xbox One 到 Xbox Series S/X,产品周期大约为 5-7 年;“半 代升级”是指如推出 PS5 Pro 版,一般在整代升级的产品周期中间推出。 AMD 的游戏主机业务中,PS 5、Xbox X & S 都于 2020 年 11 月推出, 三年过后需求开始进入下行周期。虽距离整代升级还有 3-4 年,但 PS5 的半代升级版本 PS 5 Pro 预计于 2024 年下半年推出,能够为 AMD 的游 戏主机业务提供动力。

6. 嵌入式:通过收购成为行业龙头,覆盖各行业及各 级市场的应用需求

赛灵思作为最大的 FPGA 厂商,产品覆盖高中低端市场和各行业。不止 局限于传统的 FPGA,赛灵思提供多样化的可编程器件产品,产品类型 涵盖传统的 FPGA(仅包含可编程结构)、SoC(集成单个硬核心处理器 的 FPGA 可编程结构)、MPSoC(集成多个硬核心处理器的 FPGA 可编 程结构)、RFSoC(具有 RF 功能的 MPSoC)和 ACAP(自适应计算加速 平台)。在 FPGA 器件方面,赛灵思提供可满足不同需要的多节点产品, 包括16nm、20nm、28nm、45nm;Zynq系列可编程SoC是一款ARM+FPGA 的 SoC 平台,包含 Zynq 7000 SoC、Zynq UltraScale+ MPSoC 和 Zynq UltraScale+ RFSoC; Versal ACAP 将自适应处理和加速引擎与可编程逻 辑和可配置连接相结合,包含 AI Edge、AI Core、Prime、Premium、HBM 系列。

AMD 的处理器及显卡系列均拥有嵌入式版本。除赛灵思的产品外,AMD 原有的嵌入式产品为锐龙和霄龙系列嵌入式处理器及 Radeon 嵌入式显 卡,已经在汽车、工业、网络、存储等领域有着广泛应用。 通过收购赛灵思,AMD 嵌入式业务迅速庞大。FPGA 市场中赛灵思占约 50%的市场份额,被英特尔收购的 Altera 占 35%,剩余厂商占 10%以下。 通过收购赛灵思,AMD 成为了新的 FPGA 最大的厂商,极大地拓宽了 嵌入式业务的范围,如今涵盖建筑、汽车、医疗、通信、机器人等近 20 个细分行业,在多个细分行业中处于领先地位。

7. AI 浪潮催生千亿算力市场,AMD 有望成为赢家之一,为营收增长提供新动力

7.1. AI 加速器市场格局:垄断局面或被破解

7.1.1. 云计算及科技大厂开启自研芯片

英伟达凭借先发优势和在 GPU 领域的长期深耕,在 AI 浪潮的起步阶段 迅速抢占市场,目前近乎于拥有垄断地位,但这一局面有被打破的趋势。 近年来各云计算及互联网大厂都各自开始研发自己的 AI 芯片,主要基 于以下几个原因:第一,不满于英伟达的垄断地位,拥有自研芯片可以 一定程度上保障算力供给,不再受制于英伟达有限的供给分配;第二, 如达到一定规模,购买及运营成本的节省足以覆盖研发成本,使用自研 芯片可以降低成本,且自研芯片的“存在”本身使得大厂拥有更强的议价 能力,一定程度上可以限制英伟达芯片价格无限上涨;第三,各厂商的 自研芯片在设计时可以侧重自身应用的需求,更加“定制化”,从而提升 效率。 现阶段自研芯片的性能暂落后于英伟达的 H100 和 AMD 的 MI300X, 但均已投入应用,其中谷歌较为领先。目前三大云厂商亚马逊 AWS、微 软云、谷歌云和特斯拉都已自己研发出 AI 芯片,属于 ASIC(针对具体 应用定制开发的专用集成电路)。综合来看,现阶段各厂商的自研芯片性 能大多处于超越 A100,但落后于 H100/H200 的阶段;但各产品均已投 入测试或使用,表明了科技大厂支持自研芯片逐步发展的决心,已成为 了一个必然的趋势。

7.1.2. 谷歌:最早布局自研 TPU,已进入成熟应用阶段

最早开始自研 AI 芯片,专用于处理神经网络工作负载。最早开始自研 芯片的互联网巨头是谷歌,其于 2016 年推出 TPU(张量处理单元),用 于加速机器学习工作负载。采用脉动阵列架构,是专门用于神经网络工 作负载的矩阵处理器。 更新换代迅速,不断提升性能,同时更加多样化。谷歌仅用了 15 个月的 时间就完成了第一代 TPU 的设计、验证、构建并将其部署在了数据中心 里。从自 2016 年第一代推出后,TPU 每隔 1-2 年更新一代。2017 年发 布了第二代,将内存带宽大幅提升到 600 GB/s,性能从而可达到 45TFLOPS;2018 年发布了第三代,性能是第二代的两倍,2021 年发布 了第四代,性能是第三代的 2.1 倍,每瓦性能是第三代的 2.7 倍。谷歌研 究团队发表的论文《TPU v4: An Optically Reconfigurable Supercomputerfor Machine Learning with Hardware Support》称,在类似规模的系统中, TPU v4 比 Nvidia A100 快 1.2-1.7 倍,功耗低 1.3-1.9 倍。《AI and ML Accelerator Survey and Trends》中的数据显示,TPUv4 的表现优于 A100, 略逊于 H100,但功耗均低于 A100 和 H100。2023 年 8 月发布的 TPUv5e 着力于成本效益,拥有成本节省、可扩展性好、通用型强的优点:与 TPU v4 相比,性能提高 2.5 倍,推理延迟降低 1.7 倍;TPU 互联以支持各种 规模的 LLM 和生成式 AI,最高可达 2 万亿个参数;以及拥有强大的 AI 框架和编排支持。2023 年 12 月发布的 TPUv5p 着力于高性能,专为性 能、灵活性和规模而设计,训练大型 LLM 模型的速度比上一代 TPUv4 快 2.8 倍,训练嵌入密集模型的速度比 TPUv4 快 1.9 倍。同时就每个 pod 的可用 flop 总数而言,TPU v5p 的可扩展性比 TPU v4 高 4 倍。

TPU 应用趋于成熟,极大程度上替代了英伟达的芯片。经过不断的技术 更新,TPU 的应用范围逐渐扩大。在谷歌内部的应用中,谷歌团队在 2023 年 4 月发表的论文《TPU v4: An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings》中称,谷歌 90%以上的人工智能训练工作都在使用 TPU。2023 年 12 月发布 TPUv5p 及 Gemini 时表示,长期以来 TPU 一直是 YouTube、Gmail、谷歌 Maps、 谷歌 Play 和 Android 等人工智能产品的训练和支持基础,其最新发布的 最强大、最通用的 AI 模型 Gemini 也是使用 TPU 进行训练和提供支持 的。在提供的谷歌云服务中,客户可以自行选择 TPU 或 GPU。

7.1.3. 亚马逊:Trainium 和 Inferentia 分别覆盖 AI 训练及推理工作负 载

亚马逊 AWS 近年来先后发布推理及训练芯片,加速深度学习工作负载。 亚马逊 AWS 于 2018 年发布推理芯片 Inferentia,于 2020 年发布训练芯 片 Trainium,于 2023 年推出 Inferentia 2,专门为深度学习工作负载而构 建。 Trainium 和 Inferentia 芯片性能亮眼,有效降低实例推理和训练成本。 第一代 Inferentia 拥有容量 8GB、带宽 50GB/s 的 DDR4 内存,第二代 Inferentia 拥有容量 32GB、带宽 820GB/s 的的 HBM 内存。第二代的延 迟低至第一代的 1/10,提供比第一代高 4 倍的吞吐量和高 3 倍的计算性 能,FP16 算力达到 190TFLOPS。根据 AWS 官方数据,基于 Inferentia芯片的 Amazon EC2 Inf1 与同类 Amazon EC2 实例相比,每次推理的成 本可降低多达 70%,吞吐量可提高多达 2.3 倍;基于 Inferentia2 芯片的 Amazon EC2 Inf2 相比同类实例单位功率性能高出了 50%。训练芯片 Trainium 是 AWS 专门为超过 1000 亿个参数模型的深度学习训练打造的 AI 芯片。每个 Trainium 加速器具有 32GB 容量和 820GB/s 带宽的 HBM 内存,FP16 算力达到 190TFLOPS,FP32 算力达到 47.5TFLOPS。采用 实例内、超高速非阻塞互连技术 NeuronLink,互联带宽达到 768GB/s。 根据 AWS 官方数据,由 Trainium 芯片支持的 Trn1 实例为在 Amazon EC2 中进行深度学习模型训练提供最佳性价比以及最快的训练速度,与 P4d 实例(由 A100 Tensor Core GPU 支持)相比,通过 Trn1 实例训练深 度学习模型的成本降低多达 40%。

7.1.4. 微软:Maia 100 进入测试阶段,持续研发将推出更多新品

微软于 2023 年底发布自研 AI 芯片,处于测试与布局阶段。2023 年 11 月微软发布了 Azure Maia AI 加速器(Maia 100),针对人工智能任务和 生成式人工智能进行了优化,专为在微软云上运行通用计算工作负载而 定制。目前 Maia 100 已在微软的 Bing 和 Office AI 产品上测试,OpenAI 也在试用,将于 2025 年初在微软的几个数据中心首次公开亮相,且后续 还会继续研发并更新产品。 Maia 100 算力表现优越,内存略有落后。Maia 系列旨在为 OpenAI 模 型、Bing、GitHub Copilot 和 ChatGPT 等 AI 工作负载运行云端训练和 推理。Maia 100 作为 Maia 系列的第一代,基于台积电 5 纳米工艺打造, 总共包含 1050 亿个晶体管。性能方面,Maia 100 在 MXInt8 下的性能为 1600 TFLOPS,在 MXFP4 下为 3200 TFLOPS,远超 Google 的 TPUv5 以 及亚马逊的 Trainium/Inferentia2 芯片,与 H100 和 MI300X 相比也差距 不远。内存带宽方面,Maia 100 拥有 1.6TB/s 的内存带宽,超越亚马逊 的 Trainium 和 Inferentia2,但落后于 TPUv5,更远低于 H100 和 MI300X。 由于该芯片是在 LLM 浪潮开始之前设计的,其片上内存与片外内存方 面不太平衡:微软在芯片上放置了大量 SRAM,大型缓存通常有助于减 少所需的内存带宽,但不太适用于大语言模型。

7.1.5. 自研芯片会对传统芯片厂商的市场份额造成一定影响,但较难 撼动其在技术上的领先地位

自研芯片主要通过以下两个方式影响到芯片厂商的市场份额:第一,自 研芯片的投入使用减少了云厂商对英伟达芯片的需求量;第二,云厂商 虽不对外出售 ASIC 芯片,但其对外提供基于自研芯片的 AI 算力服务, 通过云业务渗透给客户,间接压缩传统芯片厂商的潜在市场。 市场定位不同决定了技术迭代能力。据 2023 年 5 月 TrendForce 的数据 显示,英伟达的 GPU 在 AI 服务器市场的市占率约为 60–70%,其次为 云厂商自主研发的 AISC 芯片,市占率逾 20%。目前云服务和科技大厂 的自研芯片还大多处于早期阶段,随着微软推出自研芯片和其他厂商的 芯片更新迭代,AISC 的占有率有望进一步提升。但 ASIC 的定位与 GPU 有所不同:自研芯片都只基于个公司自身的业务方向来布局,比如谷歌 的 TPU 针对卷积神经网络,特斯拉的 Dojo 是专门用于 FSD 的机器视觉 分析;而 GPU 则具备更强的通用性。基于这点,针对特定一款 ASIC 来说,其市场规模要小于通用芯片;相比于传统芯片厂商更小的市场规模 和资金投入,一定程度上决定了 ASIC 的峰值性能将不及传统芯片厂商 生产的 GPU,定制化、功耗更低、性价比更高是大厂选择 ASIC 的主要 原因。

7.2. AI 芯片市场高增,逐渐分散化,利好 AMD AI 芯片发展

在 AI 芯片的市场里英伟达是领头羊,但基于以下几个原因,我们认为 AMD 也有望受益于此番 AI 浪潮。

第一,科技大厂因想要打破英伟达的垄断局面,将硬件供给多样化,会 一定程度上支持 AMD 发展,其中以微软为代表。多年前,微软就建立 了 MI50 和 MI100 集群,在 AMD GPU 上使用 ROCm 优化大型模型的训 练和推理;2022 年 5 月微软宣布 Azure 将成为首个采用 AMD Instinct MI200 加速器的公共云,协同其他 AMD 产品共同被用于 Microsoft Azure 上,包括全新发布的 Azure HBv3 虚拟机;2023 年 11 月,微软首先宣布 决定将即将推出的 AMD MI300 Instinct GPU 引入 Azure,为客户提供可 能成为英伟达 GPU 的主要替代方案的早期访问。除此之外,在 2023 年 12月AMD的发布会上,OpenAI 宣布该公司开发的GPU编程语言Triton, 将从接下来的 3.0 版本开始支持 MI300 等 AMD 芯片;Meta 和甲骨文的 高管当场表示,将在自己的 AI 和数据中心服务中使用 Instinct MI300X 加速器。一方面,云计算大厂有意的支持将为 AMD 带来大量订单,另 一方面,如云计算大厂开始部署 AMD 的芯片,会在软件生态上对 AMD 形成帮助。

第二,MI300 系列大概率将维持 AMD 的性价比优势。基于 AMD 在消 费级 GPU 和 CPU 与英伟达及英特尔的定价对比,以及其通过性价比优 势抢占消费级 GPU 和 CPU 市场份额的先例,推测 MI300 系列对比英伟 达的产品仍将维持性价比优势,因此有机会获得更多除云服务巨头以外 客户的市场。其中 AMD 在 2023 年三季度财报发布时提到,AI 初创公 司 Lamini 将在 AMD Instinct 加速器上运行已准备就绪的大语言模型。

第三,AI 加速器的市场足够大,即便处于第二位也能从中受益。人工智 能仍处于早期发展阶段,12 月的发布会上 AMD 将其对人工智能芯片的 市场预测上调至 4000 亿美元,由于受制于台积电有限的产能,英伟达的 供给满足不了市场需求;此外,云服务及科技大厂也想要多个供应商, 打破英伟达的垄断。因此,AMD 拥有很好的机会,只要能够入局。第三季度财报会上 AMD 表示 2024 年预计数据中心 GPU 营收超 20 亿美元, 并表示这部分有足够的供应,其余部分将取决于供应链;如根据 DigiTimes 报道,此前业内人士透露预计 2024 年 MI300 出货量将达到 30-40 万来估计,2024 年数据中心 GPU 的营收将不止 20 亿。而目前 AMD的人工智能业务才刚进入起步阶段,预计未来还将会有大幅增长。

7.3. 拥有丰富的产品组合,或可在 AI 市场差异化竞争

AMD 的优势在于其拥有业内最丰富的 CPU+ GPU+ FPGA+ DPU 产品 组合。据彭博研究数据显示,生成式 AI 市场预计会以 42% CAGR 的速 度增长,短期内由 AI 训练所推动,中长期逐渐转向大语言模型的推理、 数字广告、专业化的软件及服务应用。我们认为,面对中长期市场需求 的转移,AMD广泛的产品组合使其相对而言能够抓住更多的增长机会, 与竞争对手在数据中心领域差异化竞争。

8. 营收重回正增长,高研发投入注入成长动力

营收重回正增长,净利润同比大幅增长。2023 年,AMD 的营收达 226.80 亿美元,较 2023 年的 236.01 亿美元同降 3.9%;2023 年相比 2022 年同 期营收的下降主要是由于客户端收入收到 PC 市场低迷的影响,已于 2023 年第三季度结束。2023 年第四季度,AMD 的营收达 61.68 亿美元, 较 2023 年同期的 55.99 亿美元同增 10.2%,相较上一季度的 58 亿美元 环增 6.3%。AMD 从 23Q3 开始实现营收同比和环比季度的增长,并在 该季度结束了连续五个季度的同比下降。AMD 23Q3 净利润为 2.99 亿 元,23Q4 净利润为 6.67 亿元,同比大幅增长了 367.6%。

AI 趋势引领数据中心业务高增,叠加客户端、游戏和嵌入式业务一定程 度上受到周期影响。根据产品条线划分,AMD 的数据中心业务受益于 AI 算力扩张,短期内增长趋势不减,将为 AMD 提供强劲的营收增长动 力。客户端、游戏和嵌入式业务则一定程度上受到周期的影响。受到 PC 市场持续低迷的冲击,下游客户的库存上涨,AMD 的客户端、游戏显卡 营收自 2022Q3 开始持续下滑;截止 2023Q2 库存水平到达历史高位,增 速收窄,客户端与游戏显卡业务营收开始回升,预计 PC 业务 2024 年会 恢复增长。游戏主机业务在经历了从 2020 年开始的整代升级带来的需 求上涨后开始进入下行周期,预计嵌入式业务收入将同样环比下降,因 为客户在 2024 年上半年将继续应对库存水平上升的问题。

毛利率和净利率持续回升,MI300 有望改善整体产品组合的利润结构。毛 利率和净利率在触底后持续回升,其中较低的净利率部分是由于持续增 加的研发开支。AMD 表示数据中心 GPU的毛利率将超过企业平均水平, 因此有望助推公司毛利率上升,但目前正处于产品升级的极早期阶段, 需几个季度后才能将其提升至正常水平。 运营费用率持平,研发开支率整体呈上升趋势,下一阶段主要集中在 AI 及数据中心领域。公司深度践行产品驱动、简化运营的战略,研发开支 绝对值逐年上升,研发开支率整体呈缓慢上升趋势,多年来公司一直在控制运营支出,销售、一般及行政费用率维持在 10%左右。其中 23Q4 的 研发投入主要集中在 AI 产品,公司在第四财报会中表示,团队在重新 分配预算范围内的资源,真正投资于人工智能和数据中心等最重要的领 域,鉴于其在人工智能和数据中心领域面临巨大的机遇,会同同时增加 研发投资和市场投资。


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告
评论
  • 相关文档
  • 相关文章
  • 全部热门
  • 本年热门
  • 本季热门
  • 全部热门
  • 本年热门
  • 本季热门
分享至