HBM结构、特点及研发进展如何?

HBM结构、特点及研发进展如何?

最佳答案 匿名用户编辑于2024/07/30 16:31

高带宽低功耗的全新一代存储芯片。

HBM(High Bandwidth Memory)即高带宽内存,作为全新一代的 CPU/GPU 内存芯片,其本质上是指基于 2.5/3D 先进封装技术,把多块 DRAM Die 堆叠起来 后与 GPU 芯片封装在一起,实现大容量,高位宽的 DDR 组合阵列。 在结构上,HBM 是由多个 DRAM 堆叠而成,主要利用 TSV(硅通孔)和微 凸块(Micro bump)将裸片相连接,多层 DRAM die 再与最下层的 Base die 连接, 然后通过凸块(Bump)与硅中阶层(interposer)互联。同一平面内,HBM 与 GPU、CPU 或 ASIC 共同铺设在硅中阶层上,再通过 CoWoS 等 2.5D 先进封装工艺 相互连接,硅中介层通过 CuBump 连接至封装基板上,最后封装基板再通过锡球与 下方 PCB 基板相连。

和传统的 DRAM 相比,HBM 具有高带宽、低功耗、小尺寸三大特点。1)高 带宽:HBM 堆栈没有以物理方式与 CPU 或 GPU 集成,而是通过中介层紧凑而快 速地连接,同时,HBM 通过堆栈结构的改变来增加引脚数量达到每颗 1024bit I/O, 以实现更高带宽。2)低功耗:HBM 通过 TSV 技术实现走线更短,同时 I/O 数据的 传输速度慢,通过重新调整内存的功耗效率,使每瓦带宽比 GDDR5 高出 3 倍。即 功耗降低 3 倍。3)小尺寸:HBM 由于与 GPU 封装在一块,从而大幅度减少了显 卡 PCB 的空间,相比于 GDDR5,HBM 单位容量表面积减少了 94%。

AI 服务器需求驱动,HBM 加速迭代。目前 HBM 已然成为 AI 服务器、数据中 心、汽车驾驶等高性能计算领域的标配,未来其适用市场还在不断拓宽。目前大多 数 AI 训练芯片都用到 HBM,以英伟达 H100 为例,1 每颗英伟达 H100 PICe 需要 通过台积电 CoWoS-S 封装技术将 7 颗芯片(1 颗 GPU+6 颗 HBM)封在一起。而随 着最新的 B200 等芯片发布,对 HBM 的需求也将逐渐增加。 市场需求催化,HBM 研发周期已缩短至一年。自 2013 年 SK 海力士推出第一 代 HBM 以来,在三大原厂的竞合下,至今已历经第二代(HBM2)、第三代 (HBM2E)、第四代(HBM3)、第五代(HBM3E)产品。而第六代(HBM4)也已 经在研发当中。据此前数据来看,自从海力士 2014 年推出全世界第一颗 HBM 后, 从 HBM2 开始大概每两年 HBM 会更新一代。但随着英伟达等主要客户的需求以及 技术的发展,SK 海力士技术长表示,未来 HBM 的开发周期已缩短至大约 1 年。

在 HBM3E 方面:三大存储芯片原厂美光、SK 海力士和三星在 2023 年下半年 陆续向英伟达(NVIDIA)送去了 8 层垂直堆叠的 24GB HBM3E 样品以供验证。三 星旗下的 12 层 HBM3E 产品在 24 年 GTC 大会上被英伟达 CEO 签下“Jensen Approved”,但随或由于发热以及功耗问题,产品未能通过英伟达效能验证。 海力士的 HBM3E 在 1024 位接口上拥有 9.2GT/s 的数据传输速率,单个 HBM3E 内存堆栈可提供 1.18TB/s 的理论峰值带宽。三星在 2023 年第四季度,具有 8 层堆栈的下一 HBM3E 样品已提供给客户,并计划于今年上半年开始量产。据 悉,三星 HBM3E 12H DRAM 高达 1280GB/s 带宽,数据传输速度为每秒 9.8GT, 领先于 SK 海力士的 9GHz 和美光的 9.2GHz。加上 36GB,较前代八层堆叠提高 50%。美光于今年 2 月率先宣布实现 8 层 24GB HBM3 的量产,并确认供货英伟达 H200,该产品数据传输速度为每秒 9.2GT、峰值存储带宽超越每秒 1.2TB。

HBM3E 市场需求 25 年或可翻倍。展望 2025 年,由主要 AI 解决方案供应商的 角度来看,HBM 规格需求大幅转向 HBM3E,且将会有更多 12hi 的产品出现,带 动单芯片搭载 HBM 的容量提升。

HBM4 研发进度:海力士 25 年量产,三星与美光预计 26 年量产。随着人工智 能工作负载发展,内存上的创新也必须跟上步伐。三大厂在 HBM4 市场份额的争夺 战上竞争激烈,海力士预计 25 年提供 HBM4 样品并于当年实现 12 层堆叠 DRAM 的 HBM4 量产,在 26 年实现 16 层 DRAM 的量产,比预期提前一年。同时三星与 美光也表示将于 26 年实现 HBM4 的量产。 HBM4 潜在排列方式:存储芯片垂直堆叠于逻辑芯片上。根据 TrendForce 观察, 针对 HBM4,各买方也开始启动定制化要求,除了 HBM 可能不再仅是排列在 SoC 主 芯片旁边,亦有部分讨论转向堆叠在 SoC 主芯片之上。SK 海力士考虑将 HBM4 堆 栈直接放置在 GPU 上,从而将存储芯片和逻辑半导体集成在同一芯片上。

目前,HBM 的垂直堆叠通常位于 CPU 或 GPU 的邻近中介层之上,并通过 1024 位的接口与处理器逻辑芯片相连。SK 海力士提出了一个目标,即直接将 HBM4 的存储堆叠置于处理器之上,以此来免去 HBM3E 设计中围绕逻辑芯片堆栈 所带来的中介层复杂布线需求。这种方法在概念上与 AMD 的 3D V-Cache 技术相 似,后者将缓存直接集成在 CPU 上。这样的技术带来的好处包括减小封装的体 积、增加存储容量以及提升整体性能。 然而这种垂直堆叠技术在散热,成本,分工等方面也带来了新的挑战。1)在 散热上:以 AMD 的采用 V-Cache 技术的 CPU 为例,它通过降低热设计功耗(TDP) 和处理器频率来抵消由于 3D 缓存带来的额外热量。相比之下,像英伟达 H100 这 样的 GPU 在数据中心中使用的 HBM 存储容量达到 80-96GB,无论是在存储容量还 是发热量方面,都远远超过了 V-Cache。目前,数据中心内的计算卡可能消耗数百 瓦的电力,HBM 组件本身的功耗也相当高,因此需要在 EMC(特种环氧树脂)和芯片间 PMIC 等方面改进现有的散热方案。2)在分工上:此外,采用这种集成方 法还将改变芯片设计和制造流程。存储芯片和逻辑芯片需要使用相同的制造工艺, 并在同一晶圆厂内生产,以确保最终产品的性能。3)在成本上:更高级的集成方 式也将大大增加 HBM 的生产成本。

HBM4 性能相对 HBM3E 提升: 1)存储容量:HBM4 的容量预计将达到 36-48GB,相较于 HBM3E 的 24/36GB,这是一个显著的提升。若未来每个 GPU 搭载 HBM 数量从 6 个升级到 8 个,一个 GPU 的 HBM 搭载容量将会达到 8*36 或 8*48GB。 2)带宽:HBM4 将采用 2048 位接口或更高,比 HBM3E 的 1024 接口数量增 加一倍,同时 HBM4 预计将提供 1.5-2TB/s 的带宽,而 HBM3E 的带宽为 1.2TB/s。 为了控制功耗,HBM4 的数据传输速率预计保持在 6GT/s 左右。更高的带宽有助于 处理更大量的数据,满足高性能计算和 AI 应用的需求。不过,2048 位接口需要更 复杂的布线设计,这将导致 HBM4 的成本高于 HBM3 和 HBM3E。

3)堆叠层数:可实现 16 层 DRAM 堆叠。国际半导体标准组织(JEDEC)的 主要参与者最近同意将 HBM4 产品的标准定为 775 微米(μm),比上一代的 720 微 米更厚。这表示使用现有的键合技术就可以充分实现 16 层 DRAM 堆叠 HBM4。但 更多的层数意味着更高的功耗和热量产生,这需要更有效的散热解决方案来保持芯 片的性能和可靠性。 4)单个 GPU 搭载 HBM 数量:可搭载 8 颗。英伟达下一代 AI 芯片 R 系列 R100 芯片将搭载 HBM4 芯片,该芯片或将于 2025 年第四季度在台积电 3 纳米代工 厂进入量产。据悉 R100 搭载 HBM 数量将超过此前产品的 6 颗,达到 8 颗。 5)制程工艺:目前海力士与美光均采用 1-β 制程工艺,领先于三星的 1-α技 术一代。同时美光预期在 HBM4 上继续采用先进的制程技术,以提升产品性能,并 计划在 2025 年率先量产下一代 1-γDRAM。6)处理能力:有望达到每颗 576GB。台积电此前宣布将把处理单元和 12 层 HBM 芯片整合到一个 AI 芯片中,将其尖端封装技术“CoWoS”(Chip-on-Wafer-onSubstrate)升级为“CoWoS-L”和“CoWoS-R”。当该技术商业化后,搭载 HBM4 的下 一代 AI 半导体的数据处理能力有望达到每颗芯片 576GB。

参考报告

电子行业HBM专题分析:逐鹿顶尖工艺,HBM4的三国时代.pdf

电子行业HBM专题分析:逐鹿顶尖工艺,HBM4的三国时代。算力需求澎湃催化HBM技术快速迭代。目前HBM已然成为AI服务器、数据中心、汽车驾驶等高性能计算领域的标配,未来其适用市场仍在不断拓宽。2024年的HBM需求位元年成长率近200%,2025年可望再翻倍。受市场需求催化,当前HBM的开发周期已缩短至一年。针对HBM4,各买方也开始启动定制化要求,未来HBM或不再排列在SoC主芯片旁边,亦有可能堆叠在SoC主芯片之上。垂直堆叠技术在散热,成本,分工等方面也带来了新的挑战。受先进制程技术和资金投入规模的限制,目前,只有SK海力士、美光和三星有能力生产兼容H100等高性能AI计算系统的HBM芯...

查看详情
相关报告
我来回答