英伟达芯片进展如何?

英伟达芯片进展如何?

最佳答案 匿名用户编辑于2024/10/09 09:45

英伟达 Blackwell 芯片短期延迟小幅影响 2024 年出货节奏,不改 2025 年产业趋势。

1. 英伟达 B 系列芯片小幅延期,未来将推出 B102 和 B200A

根据 Semi Analysis,英伟达 Blackwell 系列芯片量产遇到问题,导致原定 2024Q3/Q4 和 2025H1 的生产目标延后。预计英伟达 Hopper 系列芯片将弥补 Blackwell 系列芯片的出货缺口。

GB200 是英伟达最先进的 Blackwell 芯片,基于 GB200 芯片的 NVL72 机柜的 功率密度约 125kW/rack,但大部分数据中心部署的单机柜功率密度为 12-20kW/rack。由于功率密度和计算能力的复杂程度,量产爬坡的挑战性巨大, 配电、过热、液冷等问题均需要解决。 英伟达 Blackwell 是第一个使用台积电 CoWoS-L 封装工艺的芯片。

CoWoS-L 使用 RDL interposer(RDL 中介层)去桥接各种计算芯片和存储芯片。 CoWoS-L 是 CoWoS-S 的下一代产品。随着 AI 芯片需要满足更多逻辑单元、存储单元和 IO 接口的需求,CoWoS-S 的尺寸和性能面临更多的挑战。台积电已经 将 CoWoS-S 的 Interposer 扩展到了 AMD MI300 芯片约 3.5 倍大小。随着 Interposer 尺寸变得更大,不仅价格更贵,而且生产这种 Interposer 将变得更 难,因为 silicon Interposer 很脆且易碎。CoWoS-L 是一项更复杂的技术,代表 着 CoWoS 封装技术的未来。英伟达和台积电有非常激进的 CoWoS-L 爬坡计划, 计划未来单季度量产 100 万颗以上 CoWoS-L 芯片。

目前台积电没有足够的 CoWoS-L 产能。台积电过去几年建立了大量的 CoWoS-S 产能,其中英伟达占据最大份额。目前随着英伟达迅速将需求转向 CoWoS-L, 台积电一方面为 CoWoS-L 建造了一个新的工厂 AP6,一方面在 AP3 工厂将 CoWoS-S 转向 CoWoS-L。转产 CoWoS-S 将导致 CoWoS-S 产能利用率不足, 且 CoWoS-L 爬坡进度较慢。

由于系统设计复杂和 CoWoS-L 良率较低这两个问题,台积电无法向英伟达提供 足够的 Blackwell 芯片。因此,英伟达几乎完全将其产能集中在 GB200NVL36x2 和 NVL72。B100 和 B200 的 HGX 形态基本被取消了。 英伟达推出 B102(单 die)/B200A。为了满足需求,英伟达将推出一款基于 B102 的 Blackwell GPU,称为 B200A。这款 B102 芯片也将用于中国版 Blackwell, 称为 B20。B102 是一个带有 4 层 HBM 的单 die 计算芯片。这款芯片可以封装 在 CoWoS-S 上,而不是封装 CoWoS-L 上。英伟达其他 2.5D 封装供应商,如Amkor、ASE SPIL 和 Samsung 都可以提供相关的产品。B200A 将取消 C2C I/O, 设计上更为简单。

B200A 将用于满足对中低端 AI 系统的需求,并将取代 HGX 8-GPU 外形尺寸的 B100 和 B200 芯片。B200A 将采用 700W 和 1000W 的 HGX 外形尺寸,HBM3E 达到 144GB,内存带宽高达 4TB/S。B200A 也将有一个 ultra 版本。B200A ultra 不会有内存升级,尽管芯片可能会重新设计以提升 FLOPS。B200A Ultra 还引入 了全新的 MGX NVL36 外形。B200A Ultra 也将像最初的 B200A 一样采用 HGX 配置。 Blackwell Ultra,Blackwell 的中代增强产品,CoWoS-L 封装的 Blackwell Ultra 将被称为B210或B200 Ultra。Blackwell Ultra包含高达288GB的12层HBM3E 内存和性能增强 50%的 FLOPS 算力。 对于超大规模市场的客户来说,GB200 NVL72/36x2 将继续是最具吸引力的,因 为它在推理过程中对超过 2 万亿参数的模型具有最高的性能/TCO。如果超大规 模客户无法获得 GB200 NVL72/36x2,他们可能仍然需要购买 MGX GB200A NVL36。此外,在功率密度较低或非液冷数据中心,MGX NVL36 看起来更有吸 引力。HGX Blackwell 服务器仍将被超大规模云计算客户购买,因为它是用于出 租给外部客户的最小计算单位,但购买量将比以前低得多。对于小型模型,HGX 的性能/TCO 最优,因为这些模型不需要大量的内存,NVL8 的内存可以满足这 些小型模型的需求。

neocloud(新兴云市场)的大多数客户不会购买 GB200 NVL72/36x2,因为难 以寻 找拥 有液 冷或 高能 耗指 标的 托管 服务 提供 商。 此外 ,对 于有 限的 GB200NVL72/36x2 来 说 , 大 多 数 neocloud 客 户 通 常 比 超 大 规 模 客 户 (hyperscalers) 优先级 更靠后。对 于最大的 neocloud 客 户来说, 如 Coreweave,有自建/改造数据中心的需求,将选择 GB200 NVL72/36x2。对于 neocloud 市场的其余客户来说,大多数人将选择 HGX Blackwell 服务器和 MGX NVL36,因为这些服务器只能使用风冷和较低能耗的机架进行部署。目前,大多 数 neocloud 客户的部署都是使用功率密度为 20kW/机柜的 Hopper 服务器; 未来,这些 neocloud 客户有可能部署 MGX GB200 NVL36,因为这只需要 40kW/ 风冷机柜。 MGX GB200A NVL36 SKU 是一款全风冷的 40kW/机架服务器,36 个 GPU 与 NVLink 完全互连。每个机架将有 9 个计算托盘和 9 个 NVSwitch 托盘。每个计 算托盘是 2U,包含一个 Grace CPU 和四个 700W B200A Blackwell GPU,而GB200NVL72/36x2 有两个 Grace CPU 和四个 1200W BlackwellGPU。MGX NVL36 设计的 CPU 与 GPU 的比例仅为 1:4,而 GB200NVL72/36x2 的比例为 2:4。此外,每个 1U NVSwitch 托盘只有一个交换芯片,每个交换芯片的带宽为 28.8Tbit/s。

2. 鸿海:GB200 延迟出货对 2025 年基本无影响

GB200 由于设计缺陷导致短期延迟出货,在英伟达和供应链相关公司的业绩方 面,2024 年或有部分影响,2025 年基本无影响。2024 年 8 月 14 日鸿海法说 会表示,由于 GB200 新产品规格和技术提升较大,设计难度较高,动态调整很 常见,目前开发的 AI 服务器都按照进度进行,2024Q4 开始小批量出货 GB200 服务器,2025Q1 有望放量,后续产品周期有望持续加速。鸿海认为 GB200 由 于设计缺陷导致延迟出货造成的影响已经基本消除。

参考报告

电子行业英伟达产业链跟踪报告:Blackwell将于2025年加速成长,光铜板供应链有望深度受益.pdf

电子行业英伟达产业链跟踪报告:Blackwell将于2025年加速成长,光铜板供应链有望深度受益。英伟达:FY25Q2持续高增长,B系列将成2025年出货主力。Non-GAAP口径下,英伟达FY25Q2收入300.40亿美元,同比增长122%,环比增长15%;FY25Q2数据中心业务收入262.72亿美元,同比增长154%,环比增长16%。英伟达预计FY2025Q3将实现收入325亿美元,毛利率75%。英伟达H200平台在2024Q2开始向客户发货。Hopper出货量预计在2024H2持续增长。Blackwell延迟影响有限,看好Blackwell在2025年的放量趋势。英伟达8月表示Blac...

查看详情
相关报告
我来回答