AI 芯片的最佳显存方案,市场需求高涨。
1. HBM 缓解内存墙问题,满足 AI 高性能动态存储需求
“存”与“算”失调,内存墙问题亟待解决。绝大多数现代计算机都是基于 冯·诺依曼结构建造的。该结构需要 CPU 从存储器取出指令和数据进行相应的计 算。这种“存算分离”结构导致“内存墙”产生:与内存的整体存储容量相比,处 理器与内存之间的数据交换量太小。在高性能计算、数据中心、人工智能(AI)应 用中,顶级高算力芯片的数据吞吐量峰值在数百 TB/s 级别,但主流 DRAM 内存 或显存带宽一般为几 GB/s 到几十 GB/s 量级,与 TB/s 量级有较大差距,DRAM 内存带宽成为制约计算机性能发展的重要瓶颈。而且当数据频繁搬运,在存储、 计算之间来回转移时,还会导致严重的功耗损失:据英特尔的研究表明,当半导 体工艺达到 7nm 时,数据搬运功耗高达 35pJ/bit,占总功耗的 63.7%。 打破内存墙或推动数据科学实现创新:根据《AI and Memory Wall》(Amir Gholami et al.),每当 GPU 内存容量增加时,数据科学家便有机会设计更新模型。
HBM(High Bandwidth Memory)即高宽带存储器,结构上包括多层 DRAM 芯片和一层基本逻辑芯片。参考《高带宽存储器的技术演进和测试挑战》(陈煜海 等),HBM 上部分由多层 DRAM 堆叠组成,不同 DRAM 芯片之间以及 DRAM 和 逻辑芯片之间利用 TSV(硅通孔)和微凸块(Micro bump)实现通道连接。每个 DRAM 芯片可通过多达 8 条通道与外部相连,每个通道可单独访问 1 组 DRAM 阵列,通道间访存相互独立。逻辑芯片可控制 DRAM 芯片,并提供与控制器芯片 连接的接口,主要包括测试逻辑模块和物理层(PHY)接口模块,其中 PHY 接口 通过中间介质层与 CPU/图形处理器(GPU)/片上系统(SoC)直接高速连通, 直接存取(DA)端口提供 HBM 中多层 DRAM 芯片的测试通道。中间介质层通过 微凸块连接到封装基板,从而形成 2.5D 的 SiP 系统。 JEDEC 发布 HBM1 行业标准,多层 DRAM 提升存储容量,多通道数提升访 存性能。国际电子元件工业联合会(JEDEC)发布的第一个 HBM 标准 JESD235 定义了具有 1024bit 接口和单引脚 1Gbit/s 数据速率的 HBM1 存储芯片,该芯片 堆叠了 2 个或 4 个 DRAM,在基本逻辑芯片上,每个 DRAM 芯片具有 2 个 128bit 通道,共有 8 个阵列(B0~B7),最多支持 8 个 128bit 通道(CH0~CH7), 总带宽为 128 GB/s。每个通道实质上是具有 2n(n 代表总线位宽)预取架构的 128 bit DDR 存储器接口,主要包括 128 bit 数据、8 bit 行命令地址和 6 bit 列命 令地址、源同步时钟、校验、数据屏蔽等信号,还包括复位、IEEE 1500 测试端 口和电源、地等公共信号。访存的读、写操作过程基本与 DDR 存储器芯片相同。 HBM1 芯片具备半独立的行、列命令接口,支持读、写命令与其他命令并行执行, 增加了命令接口带宽,提高了访存性能。
较传统 DDR,HBM 高带宽性质打破内存墙,满足 AI 高性能动态存储需求。 1)高速及带宽:虽然 HBM2E 和 HBM3 单引脚最大 I/O 速度不如 GDDR5, 但 HBM 的堆栈方式可以通过更多的 I/O 数量提供远高于 GDDR5 存储器的总带 宽。如 HBM2(1024)带宽可以达到 307 GB/s,而 GDDR5 存储器(32)的带 宽仅为 28 GB/s。 2)低功耗: 由于采用了 TSV 和微凸块技术,DRAM 裸片与处理器间实现了 较短的信号传输路径以及较低的单引脚 I/O 速度和 I/O 电压,使 HBM 具备更好 的内存功耗能效特性,相比传统 GDDR5 存储器,HBM2 的单引脚 I/O 带宽功耗 比数值降低 42%。 3)小体积:HBM 将原本在 PCB 板上的 DDR 内存颗粒和 CPU 芯片一起 全部集成到 SiP 里,因此 HBM 在节省产品空间方面也更具优势,相比于 GDDR5 存储器,HBM2 能节省 94%的芯片面积。
HBM 与先进封装相辅相成。对于 GDDR,32 个引脚只需要铜线相连即可, 不需要单独做微缩处理;而 HBM 引脚数多达 1024 个,在 PCB 板上直接通过铜 线连接并非易事。CoWoS 等 2.5D 先进封装技术通过在 HBM 与 PCB 板之间添加 中介层,以支持 HBM 的高引脚数和短走线长度需要,能够实现 PCB 及封装基板 上无法实现的密集互连。2012 年,台积电开发出可实现异构封装的 CoWoS,2014 年 AMD 与 SK 海力士合作开发 TSV(Through Silicon Via)HBM 产品,采用 HBM 的产品开始正式发布。
2. 从 HBM1 到 HBM3E 性能倍增,三大厂竞争亦越演愈烈
HBM 三大制造商 SK 海力士官网、三星和美光间竞争愈演愈烈。最早由 SK 海力士官网量产 HBM1,HBM2 则是三星拔得头筹。当英伟达 GPU 引爆市场时, SK 海力士官网也凭借率先量产 HBM3 而大获成功。美光最初开发 HMC(混合内 存立方体),而随着 JEDEC 正式认证 HBM 标准,美光在 2018 年放弃 HMC,并 在大幅落后韩国两家制造商后开始 HBM 的开发。据 TrendForce 预测,2024 年 SK 海力士官网可能获得全球市场 52.5%的份额,其次是三星(42.4%)和美光 (5.1%)。

三大制造商新设 HBM 工厂或于 2025 年完工。SK 海力士官网于 2023 年开 始在其工厂 M15 生产 HBM,M16 预计 2025 年实现产能扩张,到 2025 年其在建 的 M15X 工厂将生产 HBM3E 和 HBM4。三星于 2023 年在显示器工厂开始生产HBM,2024 年现有厂房预计接近满产,新厂房 P4L 规划于 2025 年完工。美光或 跳过 HBM3,计划直接参与 HBM3E 的竞争,其 Boise 厂区预期于 2025 年完工 并陆续移机,并计划于 2026 年量产。根据 TrendForce,尽管三大原厂的新厂将 于 2025 年完工,但部分厂房后续的量产时程尚未有明确规划,需依赖 2024 年的 获利,才得以持续扩大采购机台。
从市场表现来看,2024 年上半年 HBM3 为主流,三星 HBM3 通过验证后开 始急转直追。据 TrendForce 在 2024 年 3 月 13 日的报道,截至当时 HBM3 为 2024 年的市场主流。在 HBM3 的产品竞争中,SK 海力士官网的市占率超 9 成。 2024 年 Q1,三星 HBM3 产品陆续通过 AMD MI300 系列验证,市占率急转直追。 美光没有加入 HBM3 供应竞争。 HBM3e 将集中在 2024 年下半年出货。2024 年 5 月 20 日 TrendForce 指出, HBM3e 将在今年成为市场主流,出货量集中在下半年。目前,SK 海力士官网仍 然是主要供应商,与美光一起,都使用 1beta nm 制程,并且都已开始向英伟达供 货。三星使用 1alpha nm 制程,预计将在第二季度完成认证,于年中开始交付。 HBM4 有望 2026 年上市。据 TrendForce,HBM4 预计规划于 2026 年推出。 随着客户对运算效能要求的提升,在堆栈的层数上,HBM4 除了现有的 12 层外, 也将再往 16 层发展。HBM4 12 层产品将于 2026 年推出;而 16 层产品则预计于 2027 年问世。此外,受到规格更往高速发展带动,将首次看到 HBM 最底层的逻 辑芯片采用 12nm 制程 wafer,该部分将由晶圆代工厂提供,使得单颗 HBM 产品 需要结合晶圆代工厂与存储器厂的合作。
3. HBM 单位价格远高于传统存储器,AI 服务器需求猛增有望拉动出货
主流 GPU 芯片的 HBM 用量提升。英伟达 A100 芯片内存分 40GB 和 80GB 两个版本,分别采用 5 颗 HBM2 或 HBM2E;H100PCIe 版本内存 80GB,使用 5 颗 HBM2E;H200 内存 141GB,使用 6 颗 HBM3E;最新发布的 B100 和 B200 内存达到 192GB,使用 8 颗 HBM3E。
价:根据微细加工研究所及 Yole 测算数据,HBM 价格远高于传统 DRAM。 1)单位 GB 价格:无论是各类 HBM 还是常规 DRAM,通常在刚上市时单位 GB 的价格最高,随后价格呈现减少趋势。但是 DRAM 和 HBM 在单位 GB 的价 格会相差 20 倍以上。在 2019 年普通 DRAM 单位 GB 的价格为 0.49 美元,而 HBM2 却是 11.4 美元,高出 23 倍;HBM2E 刚上市时价格为 13.6 美元,高出 28 倍;HBM4 预计上市时价格达到 14.7 美元,高出近 30 倍。 2)HBM 平均价格远高于 DDR 成本:对比 HBM 的平均价格,HBM2 最高价 格为 73 美元,HBM2E 为 157 美元,HBM3 为 233 美元,HBM3E 为 372 美元, HBM4 则达到 560 美元。此外,DRAM 制造商采用 1z 节点工艺生产的 16GB DDR5 DRAM 成本最高为 3-4 美元,而 2024 年 SK 海力士官网发布的 HBM3E 价 格却达到 361 美元,高出约 90-120 倍。
量:AI 服务器出货量高涨,HBM 渗透率大幅提升。 据 IDC 统计,2023 年全球 AI 服务器市场规模预计为 211 亿美元,2025 年 将达到 317.9 亿美元,2023-2025 年 CAGR 为 22.7%。出货量方面,根据 TrendForce 数据,2023 年 AI 服务器出货量近 120 万台,占据服务器总出货量的 近 9%,年增长达 38.4%。TrendForce 预计 2026 年,AI 服务器出货量为 237 万 台,占比达 15%,2024-2026 年复合年增长率约 25.50%。 据 TrendForce 预测,2023-2024 年,产能方面,HBM 占 DRAM 总产能分别 是 2%和 5%,到 2025 年占比有望超过 10%;产值方面,2024 年起 HBM 占比 DRAM 总产值预估可超过 20%,到 2025 年有机会超过 30%。TrendForce 认为 2024 年 HBM 需求增长率接近 200%,2025 年可望将再翻倍。
目前市场上主流的 AI 服务器配置 8 个 GPU 芯片,每个 GPU 芯片配备多个 HBM 芯片,结构上 HBM 芯片中又包含堆叠的 HBM 颗粒,因此可以根据 AI 服务 器出货量推算 GPU 用量个数、HBM 芯片用量个数及 HBM 颗粒的需求量,并由 此测算制备 HBM 芯片所需的晶圆产能需求。根据 TrendForce 集邦咨询资深研究 副总吴雅婷,在同制程同容量下,HBM 颗粒较 DDR5 尺寸大 35%-45%,DDR5面积约 70mm²,HBM 颗粒尺寸约 100mm²,那么每个 12 英寸晶圆除去边角料可 切割约 640 颗;此外 TrendForce 估计 HBM 良率约 50-60%,则每片晶圆切割约 300 个 HBM 颗粒。我们测算得到制造 HBM 颗粒的晶圆产能需求,2023 年约 10.52 万片/月,2024 年约 19.55 万片/月。