HBM 异军突起技术赶超,有望在 2024 年突破产能瓶颈。
1. 需求:模型算力爆发凸显存力瓶颈,HBM 基于 3D 封装提供最优方 案
Transformer 具有高度并行性,大幅提升了内存需求。Transformer 通过其 自注意力机制、多头注意力设计、深层网络结构等特点,实现了对序列数据 的高效处理,其在处理长序列任务时性能卓越,但也导致了参数量的指数级 增加。与以往的 RNN(循环神经网络)和 LSTM(长短期记忆网络)等相 比,Transformer 并非顺序计算,而是使用注意力机制并行处理长序列数据, 需要并行计算输入序列中所有元素之间的注意力分数,涉及大量的矩阵运算。 此外,在模型的前向传播与反向传播阶段,也需要存储大量的中间状态数据, 且每个训练步骤之后,模型的参数需要根据梯度进行更新。对于具有数十亿 甚至数百亿参数的 Transformer 模型来说,上述特性极大地提升了 AI 对内 存吞吐量速度的需求。
需求扩张叠加 GPU 算力飙升,进一步凸显内存性能瓶颈,传统应用无法提供合适方案。Transformer 自身对内存吞吐的高需求,叠加 GPU 算力的指 数级增长,导致内存性能逐渐成为模型效率的瓶颈。在当前的 AI 应用中, 每个 SoC 的带宽需求已经达到 TB/s 级别,而即使是具有 8 个存储器通 道的最先进的 CPU 平台,DDR4 和 DDR5 对应速度也只能达到约 204.8GB/s、307GB/s,迫切需要新的存储技术突破。存算一体是人工智能 存储的终局解决方案,但目前面临生态与编程架构不完善,缺乏相应指令集 与上层软件工具的问题,短期内难以成为主流方案。初创公司 Groq 发布了 搭载 230MB SRAM 的 LPU 芯片,证明了 SRAM 在 AI 推理端使用的可能 性,但是其高昂的价格和有限的使用场景仍旧限制了 SRAM 作为系统缓存 的能力。
综合权衡下,HBM(High Bandwidth Memory,高带宽存储器)是针对高 性能 GPU 的长期解决方案,具有性能、热控制、体积、性价比等综合优势。 HBM 是一种由三星电子、AMD 和 SK 海力士发起研发的一种基于 3D 堆栈 工艺的定制化 DRAM,属于近存计算的一种。从硬件上看,HBM 可以理解成多个 DDR SDRAM 芯片及逻辑控制芯片通过 3D 结构堆叠而成的芯片堆 栈。AMD Radeon Fury 系列显卡是全球首个使用 HBM 的设备。相比于标 准的 DDR、LPDDR、GDDR,其具备显著的高带宽、低延迟、低功耗等特 点,而相比于 SRAM 又具备数量级上的成本优势,因而已经成为高性能 GPU 主内存的最优方案。2013 年 10 月,HBM 正式被 JEDEC 采纳为业界标准, 目前已经成为高度标准化的内存产品,各厂商均按照 JEDEC 制定的公认标 准进行迭代升级。
高通道数、高位宽是 HBM 其实现高带宽的关键,依靠芯片堆叠与 TSV 实 现。通俗来讲,内存总线带宽 = 通道数(Channel)×每个通道位宽(I/O) ×有效频率×传输倍率(HBM/DDR 均为 2 倍)。
以一个计算机有两个通道的内存为例,每通道都配备运行在 1600MHz 时钟 频率的 DDR4-3200 模块,则其理论最大内存带宽为:每秒 1600,000,000 个时钟×2 倍速率(DDR/HBM 均为两倍)×每个时钟 2 个通道×每通道 64 个位(I/O)=每秒 409,600,000,000(4096 亿)比特(约为 50GB/s)。而下 左图所示的 HBM3 总带宽则是 16×64×6.4Gbps÷8 = 819.2GB/s,远高于 通用 DRAM 标准。

平面上的 DDR 和 GDDR 受制于物理空间和长距离带来的信号干扰,难以 大量增加通道数,垂直结构打破这一限制。目前常见 PC 为双通道,而在 HBM 的 3D 堆叠中,多个 DRAM 芯片(Die)通过 TSV 技术连接,不同 DRAM 层的接线数量大幅提升,同时不同 DRAM 层可以共享相同的地址和 控制信号,数据信号可以在不同层之间进行传输。故而 HBM 实现了远超 GDDR 及 DDR 的通道数(HBM 为 8 通道),和总位宽(1024 Bit)。且 HBM 在迭代中优化了早期有效频率(数据速率)较低的特点,故而依靠位宽优势 总带宽较 DDR 实现了数倍的提升。
未来,更高带宽,更大容量是 HBM 的主要迭代目标,堆栈数量、堆叠层数 和单 Die 性能是最直观升级点。在封装面积有限的情况下,提升单层容量则 是提升内存容量的核心方向。目前,掩膜版大小限制了在同一封装中增加 HBM 数量的能力(B100 实现 8 个堆栈,是目前已知最多的方案),台积电 正在开发具有 6 倍掩模版尺寸(5000mm^2)中介层的解决方案,预计将在 一块 GPU 封装中容纳 12 个 HBM 模块。截止至报告发布,三大原厂公布的 量产最高堆栈层数均为 12 层(12HI),目前最高单 DIE(层)容量 3GB, 假设每个GPU配合12颗HBM,则目前可见的HBM理论容量上限为432GB, 核心速率有望超过 10TB/s。
2. 供应链:内存原厂及头部代工厂是主要玩家,晶圆制备及后道封装 是核心壁垒
HBM 供应链中,存储原厂提供 DRAM 晶圆,中道封测厂进行初步封装,台 积电等后道封测厂负责 HBM 堆栈与 GPU 等的集成。前道晶圆制备与后道 封测是核心壁垒。海力士、三星和美光负责 HBM 中存储芯片(晶圆)及对 应控制逻辑芯片的生产,并在晶圆上制备硅通孔(TSV),填充并制备微凸 点(Mircobump),后续由其本身封装产线或第三方封测厂通过键合技术形 成多层 Molded KGSD(模塑封装 KGSD),也就是初步封装成的 HBM 堆 栈。KGSD(Known Good Silicon Die)后送由具备 3D 封装技术的后道封 测厂(如台积电)进行与其他芯片系统机级集成封装,整体供给下游的英伟 达、AMD 等显卡客户。
原厂前道工艺阶段,TSV、Bumping、减薄、键合是 HBM 制备的关键 工艺,混合键合或将成为 HBM4 必需技术。HBM 工艺流程主要分为以 下步骤:(1) 使用深硅刻蚀、铜填充、CMP、后道金属化等工艺,在前道 制造好的 DRAM Die 上制备出金属填充的 TSV,以进行进一步互连;(2) 在 DRAM Die 正面制备微凸点(μBump)和焊球,之后使用倒装工艺, 通过临时键合,减薄 Die 背面,暴露出 TSV,并制备背面凸点;(3) 堆 叠经过以上工艺制备好的 DRAM Die,并完成微凸点键合;(4) 对堆叠好 的堆栈进行测试。目前,基于微凸点和 TCB 的堆叠层数已接近瓶颈。为 了进一步减薄厚度,提升容量及带宽,HBM4 或将成为第一代采用混合 键合技术的 HBM。
后道封装阶段,仅少数厂商具备 3D 封装技术,台积电具有垂直整合优势。 HBM 的超低延迟严重依赖于其与 CPU/GPU/SOC 的集成封装,目前 HBM 主流封装技术为台积电 CoWoS,与其类似的 2.5D 先进封装技术还有三星的 I-Cube/H-Cube、日月光的 FOCoS-Bridge、英特尔的 EMIB 等。三星同 样具备从 GPU 代工到 HBM 集成封装全流程工艺,但暂未被英伟达采用。 美光作为台积电 3Dfabric 联盟的重要成员,主要绑定台积电完成后道系统 级封装。
3. 市场空间:多因素驱动 HBM 渗透率提升,HBM 芯片市场规模已 达百亿美元
HBM 主要用于高性能训练卡中,市场空间已达百亿美元。5 年内或可超 240 亿美元,平均 CAGR 为 21.9%。根据英伟达营收及 GPU 出货量作为参考 基准,假设同一类型 HBM 价格保持高位后下降,单位显卡 HBM 用量逐渐 提升,其他厂商 GPU 及 ASIC 出货量占比逐渐提升,则 2024 年 HBM 芯片 市场空间为 89.8 亿美元,2029 年有望突破 241.9 亿美元,年均 CAGR 达 到 21.9%。
英伟达 GPU 率先使用 HBM3E,其他 GPU 及 ASIC 落后一到半代。在 GTC 2024 上,黄仁勋宣布英伟达最新一代 Blackwell GPU 采用了 192GB 容量 的 HBM3e 内存,内存带宽达到 8 TB/s,是目前量产的最高性能的 HBM 产 品,在售主力 H100 则使用 HBM3。其他厂商 GPU 及 ASIC 多使用 HBM2及 HBM2e 等,预计基于更高堆叠层数设计,单层更大容量的 HBM4 将于 2026 年上市。 HBM毛利率超50%,良率仅50-60%,或将占据原厂先进DRAM产能35%, 截止至2024 年年底,三大原厂 1-α以上节点将占据总 DRAM 产能约40%, 其中 HBM 所用 DRAM 芯片较传统 DRAM 芯片尺寸大 60%,因其良率有限 且需求较高,将优先投产,根据原厂 TSV 产能及对应制程产能计算,预计 2024 年底 HBM 将占到先进制程 DRAM 产能的 35%以上,对 DDR5 及 LPDDR5 有一定挤出作用。
4. 竞争格局:海力士领跑 HBM3,三星及美光交替追赶,或复刻 DRAM 市场格局
海力士是 HBM3/3E 市场绝对领导者,三星在传统型号占有率更高。作为 HBM 的发起者之一,海力士在 HBM3 市场拥有绝对的技术领导地位,其在 2022 年 6 月率先实现 HBM3 的量产。根据 Yole 数据,海力士约占 HBM 全 球 BIT 出货量的 42%,其产品主要集中在较新的 HBM3/3E 市场,是英伟达 H100 HBM3 独家供应商,早期甚至成为 H100 产能爬坡壁垒。未来仍将继 续作为英伟达 H200、B100 所用 HBM3E 主要供应商,2024 年产能已全部 预订。三星约占 HBM 全球 BIT 总量的 53%。作为最早推出 HBM2E 的厂 商,三星顺利成为英伟达 A100 产品核心供应商,在 HBM、HBM2 领域拥 有最高市占率,其 HBM3E 将于 2024 年中实现量产。
美光早期押注 HMC 致使 HBM 起步落后,后异军突起先于三星量产 HBM3E。 美光早年与三星共同研发 HMC(一种同样基于 TSV 技术的 3D RAM)路 线,但由于存储堆栈与处理器没有集成,而是采用 SERDES 连接,先天具 有物理距离较远的缺陷,尽管兼容性较强,却始终未被 JEDEC 接纳为通用 标准,渐渐不敌 HBM 而退出市场。因而美光在 HBM 目前仅占全球 HBM BIT 容量的 7%。但其凭借在 3D 堆叠领域积累的经验及跨越式的布局,成 功实现赶超,直接跳过 HBM3 开始量产 HBM3E,其 HBM3E 产品将成为 NVIDIA H200 GPU 的一部分,于 2024 年 Q2 开始批量发货,证明其 HBM 技术已处于世界领先水平。

制程节点,封装键合是原厂技术差异所在,美光产品功耗较低。美光与海力 士 HBM3E 基于 1-β制程节点制造,而三星仍基于 1-α节点。同时与业界 其他 HBM3 解决方案相比,美光将硅通孔(TSV)数量翻倍,增加 5 倍金 属密度以降低热阻。美光 HBM3E 功耗较对手降低 30%,有助于解决堆叠 散热问题,后续提升堆叠密度潜力较大。在热压键合技术方面。美光及三星 主要采用 TCB(热压合)技术,用非导电薄膜填充微凸点之的间空隙,之 后使用热压键合工艺连接两层 Die,海力士独家采用 MR-MUF(大规模回 流焊-注塑底填充技术),相比下效率更高,同时采用自己独家研发的液体状 EMC 为主要原材料的底料填,散热性能更好。据 TheElec,三星正在尝试 跟进 MUF 技术,在 JEDEC 放宽 HBM 堆叠高度限制,混合键合引入放缓 的情况下,美光采取跟进 MUF 还是继续推进混合键合或将是后续跟踪重点。
美光产品获下游认证,HBM4 或于 26 年量产。2024 年 HBM 订单已被订 满,2025 年供给同样告急。其 HBM4 产品预计于 2026 年到来,届时每个 堆栈将有 2048 位 I/O,单个堆栈带宽预计超过 1.5 TB/s,包括 12-Hi 和 16-Hi 堆栈版本,单堆栈容量 36GB-48GB。据美光发布的 HBM 迭代路线 图,HBM4E 将于 2028 年推出。HBM4E 的时钟频率将提升,带宽将提高 到 2+TB/s,每个堆栈的容量提高到 48GB 至 64GB。
各原厂产能紧缺奠定竞争格局,高管预期有望复刻 DRAM 市场份额。在同 样容量下,美光 HBM 产品成本为传统 DRAM3 倍,产能占用率约为 DRAM 4-5 倍,毛利率约为 50%-60%,将在 FY2024 贡献数亿美元收入(对应市 占率约为 5%-7%)。但美光 DRAM FAB 及 TSV 产能逊于海力士与三星,短 期内限制了其在 HBM 领域市占率的高速提升。目前,三大原厂均在追求 HBM 市场领先地位,三星预计 2024 年 HBM 产能将达到现有的 2.9 倍,海 力士 HBM 产能将提升 1 倍。美光未表示 HBM 明确扩产计划,但其资本开 支将有同比显著提升,美光日本广岛基地已经开始引入 TSV 产能,后续若 资本支出进一步超预期,则其 HBM 市占率有望突破两位数百分比大关。