2024年电子行业HBM专题报告:AI的内存瓶颈,高壁垒高增速

  • 来源:中信建投证券
  • 发布时间:2024/03/11
  • 浏览次数:244
  • 举报

一、HBM:算力的内存瓶颈

CPU拥有多级缓存架构,HBM属于内存环节

现代CPU为了提升执行效率,减少CPU与内存的交互(交互影响CPU效率),一般在CPU上集成了多级缓 存架构。CPU缓存即高速缓冲存储器,是位于CPU与主内存间的一种容量较小但速度很高的存储器。由于CPU的 速度远高于主内存,CPU直接从内存中存取数据要等待一定时间周期,Cache中保存着CPU刚用过或循 环使用的一部分数据,当CPU再次使用该部分数据时可从Cache中直接调用,减少CPU的等待时间,提 高了系统的效率。 从CPU到用户数据,需经历“寄存器>SRAM>内存>SSD或HDD” 的路径,HBM属于内存的一种。

存储性能是当下制约高性能计算的关键因素

内存墙(传输带宽慢或容量有限)是算力提升的重要瓶颈。 从存储器到处理器,数据搬运会面临2个问题:(1)数据搬运慢;(2)搬运能耗大。

算力的增速远大于存储的增长速度。目前绝大部分的计算系统基于冯诺依曼计算机体系,而该体系下 存储与计算单元分离,需要通过总线不断在存储与处理器之间传输数据,因此存储的带宽制约了算力 的利用效率。此外,从外部处理器到内存之间不断进行数据的搬运,搬运时间往往是运算时间的成百 上千倍,产生的无用能耗过多。

模型体量的增速远大于算力卡存储容量的增速。随着 Transformer 模型的大规模发展和应用,模型大小 每两年平均增长了240倍,而单个GPU内存容量仅以2年2倍的速度扩大。为了摆脱单一算力芯片内存有 限的问题,可以将模型部署于多颗GPU上运行,但在算力芯片之间移动数据,仍然比单一芯片内部移 动数据低效,因此算力芯片内存容量的缓慢增速制约了更大规模的模型应用。

HBM:基于TSV技术获得的高带宽内存,已成为高性能计算的首选

如同闪存从2D NAND向3D NAND发展,DRAM也正在从2D向3D技术发展,HBM(High Bandwidth Memory,高带宽存储)为主要代表产品。从结构上看其特点有:(1)3D堆叠结构并由TSV互连:HBM 由多颗DRAM die堆叠成3D结构,使用TSV技术实现信号的共享与分配;(2)高I/O数量带来高位宽: HBM的每颗DRAM Die包含多个通道,可独立访问。每个通道又包含多个I/O口,位宽64/128bit,使 HBM的总位宽高达1024bit。

HBM性能优异,主要用于高性能计算芯片。HBM的结构特点为其带来存储密度更大、功耗更低、带宽 更高的优势。HBM通常采用CoWoS等先进封装技术与计算核心进行互连,多用于与数据中心算力芯片 GPU/FPGA/ASIC等配合工作。

HBM优势:相比GDDR,大幅增加计算核心可用的带宽

总带宽=I/O数据速率(Gb/s)*位宽/8。为解决DDR带宽较低的问题,本质上需要对单I/O的数据速率 和位宽(I/O数*单I/O位宽)进行提升,着重于不同方向发力的方案分别为GDDR和HBM。 GDDR提升单I/O的数据速率,总带宽提升有限:GDDR采取大幅提升单I/O数据速率的手段来改善总带 宽,GDDR5和GDDR6的单I/O数据速率已达到7 Gb/s到16Gb/s,超过HBM3的6.4 Gb/s。虽然GDDR的位 宽相比DDR也有提升,但由于GDDR仍然是通过PCB与计算核心进行互连,总位宽的提升受到限制。 HBM利用TSV技术提升I/O数,总带宽提升明显:HBM利用TSV技术在维持较低的单I/O数据速率的情况 下,大幅提升了位宽进而获得了远优于GDDR的总带宽表现。

HBM标准历经多次升级,I/O速率、带宽获得明显提升

三大DRAM原厂推动技术迭代,性能表现持续提升。HBM高带宽的特点使其适合数据中心GPU等高性 能算力芯片,全球三大DRAM原厂陆续加强HBM的技术投入。随着技术的迭代,HBM的层数、容量、 带宽指标不断升级,目前最先进的HBM3e版本,理论上可实现16层堆叠、64GB容量和1.2TB/s的带宽, 分别为初代HBM的2倍、9.6倍和4倍。 容量(GB):由单颗DRAM颗粒的容量、DRAM颗粒的堆叠层数共同决定。 总带宽(GB/s):从HBM1到HBM3e,尽管不同代际之间的I/O数量和单I/O位宽存在差异,但总位宽 均保持为1024bit,因此I/O速率的提升推动了总带宽提升。根据DigiTimes援引Seoul Economy的消息, HBM4有望将总位宽提升至2048bit,即使I/O速率维持不变,总带宽也将有翻倍增长。

更多DRAM厂商正切入HBM赛道,国产HBM有望突破

二线、三线DRAM厂商也正在切入HBM赛道。华邦电于2023年8月介绍了其类HBM高带宽产品CUBEx, 采用1~4层TSV DRAM堆叠,I/O速度500M~2Gbps,总带宽最高可达1024GB/s,颗粒容量为0.5~4GB, 功耗低至不足1pJ/bit。这种比常规HBM拥有更高带宽的CUBEx可用于AR、VR、可穿戴等领域。 国产DRAM厂商有望突破HBM。目前一线厂商DRAM制程在1alpha、1beta水平,国产DRAM制程在 25~17nm水平,中国台湾DRAM制程在25~19nm水平,国内DRAM制程接近海外。且国内拥有先进封装 技术资源和GPU客户资源,有强烈的国产化诉求,未来国产DRAM厂商有望突破HBM。

二、SK海力士HBM工艺分析:TSV、EMC、混合键合成趋势

TSV DRAM

定制DRAM颗粒:用于生产HBM的DRAM颗粒 需要进行TSV打孔以便堆叠,因而需要在生产 DRAM颗粒时,预留不含存储电路的位置用于 TSV打孔。电路布局涉及存储厂商的商业机密, 一般的封测厂商难以获得,也就难以参与HBM 后道的生产,因此存储IDM在前道后道工艺磨 合方面具备先天优势。 TSV属于前道工艺,由存储厂商完成,主要用 到刻蚀设备、薄膜沉积设备、电化学沉积设备 ECD、CMP、清洗设备、退火设备、减薄机、 划片机等,相关供应商包括:AMAT、TEL、 Lam Research等。

MR-MUF工艺

SK海力士HBM领先三星电子和美光的关键在于MR-MUF工艺。HBM制造的关键在于每层TSV DRAM之 间的连接方式,三星电子从HBM生产之初就一直采用热压缩非导电薄膜(TC-NCF)工艺,而SK海力 士采用的则是批量回流模制底部填充(MR-MUF)工艺。

技术路线图显示,从HBM2e开始,海力士放弃了TC-NCF工艺,改用MR-MUF工艺,实现了更低的键合 应力和更优的散热性能。海力士HBM3e将采用改进的MR-MUF工艺,降低键合应力,提升散热性能, 增加堆叠层数。HBM4有可能采用混合键合(Hybrid bonding)工艺,进一步降低TSV DRAM层与层之间 的间隙,实现更高层数堆叠。

填充料EMC

MR-MUF工艺的关键是:(1)晶圆翘曲度的控制(Chip warpage control);(2)填充料的选取 (Gapfill-MUF material)。 晶圆翘曲度:受加工条件(温度、压力等)影响,用量测设备检查,供应商有Camtek、ONTO。 填充料:EMC是先进封装常用的填充料,传统DDR或者Flash用的EMC一般是粉末状或圆柱体,而HBM 中Die与Die之间的间距不足20微米(HBM2e 15微米,HBM3e 13微米),且有微凸点阻挡,粉末或者六 面体流不进去。目前HBM主要使用GMC(Granular Molding Compound)或者LMC(Liquid Molding Compound )。目前海力士的GMC主要由日本Namics供应。

混合键合Hybrid Bonding

混合键合是将两片以上不相同的晶圆通过金属互连的工艺,不使用芯片堆叠之间的微凸点(球形), 而是用铜与铜(片状,copper pad)互连,极大提升了芯片之间的信号传输速率。混合键合并非HBM专 用的技术,CIS、3D NAND、逻辑芯片等均已大规模使用混合键合工艺。

技术优势:(1)允许无焊料键合,减少键合层厚度、缩短电气路径,并降低电阻;(2)通过直接将 铜与铜接合,显著减小凸块间距。目前使用焊料很难实现10微米或更小的间距,而铜对铜直接键合可 以将间距减小到不足1微米,提高芯片设计的灵活性;(3)拥有绝佳的散热性能;(4)极薄的粘合层 和小间距会影响封装的形状因数,可以大大减小封装尺寸。

三、市场测算:未来三年CAGR超80%

AI刺激服务器存储容量扩充,HBM需求强劲

AI服务器刺激更多存储器用量,大容量内存条、HBM、eSSD需求旺盛。根据Trendforce,目前服务器 DRAM(模组形态为常规内存条RDIMM和LRDIMM)的普遍配置约为500~600GB,而AI服务器在单条 模组上则多采64~128GB,单台服务器搭载16~36条,平均容量可达1TB以上。对于企业级SSD,由于AI 服务器追求的速度更高,其要求优先满足DRAM或HBM需求,在SSD的容量提升上则呈现非必要扩大容 量的态势,但配置也显著高于常规服务器。

随着算力卡更新迭代,HBM规格持续提升。未来在AI模型逐渐复杂化的趋势下,服务器的数据计算和 存储需求将快速增长,并同步带动服务器DRAM、企业级SSD以及HBM的需求成长。相较于一般服务器 而言,AI服务器多增加GPGPU的使用,以NVIDIA A100/H100 80GB配置8张计算,HBM用量约为 640GB,超越常规服务器的内存条容量,H200、B100、MI300等算力卡将搭载更高容量、更高速率HBM。

通用服务器呈现弱复苏态势,AI服务器快速增长

传统服务器呈现弱复苏态势,2024年出货量同比增长2%。根据Trendforce,2024年服务器出货驱动力以 北美CSP为主,但受限于通货膨胀高,企业融资成本居高不下,压缩资本支出,整体需求尚未恢复至疫 情前成长幅度,预计2024年全球服务器整机出货量约1365.4万台,同比增长2.05%。

受益于北美CSP订单带动,AI服务器ODM对2024年展望乐观。(1)广达:预计2024年AI服务器出货双 位数增长,订单主要来自于Microsoft及AWS等;(2)Supermicro:预计2024年AI服务器出货量有机会翻 倍成长,订单主要来自CoreWeave与Tesla,积极拓展Apple、Meta等客户AI订单;(3)Inventec:除了北 美CSP需求,中国客户如ByteDance需求最强,预估2024年AI服务器出货量年成长可达双位数,占比约 10~15%;(4)Foxconn:获得Oracle、AWS订单,预计2024年服务器ODM出货量增长5~7%。

报告节选:


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告
评论
  • 相关文档
  • 相关文章
  • 全部热门
  • 本年热门
  • 本季热门
  • 全部热门
  • 本年热门
  • 本季热门
分享至