2024年存储芯片航天专题分析:HBM何以成为AI芯片核心升级点?全面理解AI存储路线图

  • 来源:广发证券
  • 发布时间:2024/04/25
  • 浏览次数:118
  • 举报

一、AI 存储路线图:更大容量、更大带宽、更低功耗

大模型规模指数级增长,内存带宽和容量需求激增。大模型的参数指数级增长,不 仅推升了处理器的算力需求,同时也对与处理器匹配的内存系统提出了更高的要求。 一方面,大量模型数据的传输要求更大的内存带宽,以缓解“内存墙”问题,提升 HPC系统计算效率;另一方面,内存系统的容量需要大幅拓展,以存储千亿参数乃 至更大规模的大模型。 根据美光发布的AI内存路线图,AI内存的发展方向主要为带宽、容量、功耗和低碳 四个方向。高带宽应用方面,HBM是目前带宽最高的内存标准,12-16层HBM4预计 将于2026年推出,将每个堆栈的带宽提高至1.4 TB/s以上,容量提升至36-48 GB。 HBM4E预计将于2028年推出。GDDR作为性价比较高的选项应用于推理、图形等领 域,数据传输速率为32 GT/s,容量为16-24Gb的GDDR7预计于2024年底推出,并 在2026年数据传输速率达到36 GT/s。

大容量应用方面,为了同步提升容量和性能,美光预计将在2025年提供数据传输速 率为8800 MT/s的128GB – 256GB MCRDIMM模块,然后在2026年或2027年提供容 量超过256 GB且数据传输速率为12800 MT/s的MRDIMM。对于需要进一步扩展内 存的设备,CXL 2.0扩展模块具有128 GB– 256GB的容量和高达36 GB/s的带宽。随 后的CXL 3.x标准扩展模块带宽超过72 GB/s,容量超过256 GB。 对于低功耗应用,业界将继续使用LPDDR。根据美光的路线图,具有8533 MT/s或 9600 MT/s数据传输速率的LPDDR5X标准将继续使用一段时间。同时,美光将从 2025年开始提供LPCAMM2模组,随后从2026年年中开始提供LPDDR5X-9600 LPCAMM模组。

本文旨在梳理DDR、LPDDR、GDDR及HBM四类DRAM标准的区别和联系,探讨 HPC系统内存设计的内在逻辑,以理解在AI大模型时代,DRAM从芯片到系统层面 的发展方向。 动态随机存取存储器(Dynamic Random Access Memory,简称DRAM)在现代 计算机、服务器、智能手机和游戏机等各种应用设备中作为主存储器,负责存储处 理器运算和处理的数据。JEDEC定义并开发了标准DDR、移动DDR和图形DDR三 种DRAM标准类别。三类DDR标准存储数据使用的底层DRAM单元相同,但是每个 类别都提供独特的架构功能,旨在最好地满足目标应用程序的要求。 标准DDR面向服务器、云计算、网络、笔记本电脑、台式机和消费类应用,支持更 宽的通道宽度、更高的密度和不同的形状尺寸;移动DDR使用LPDDR标准,面向 移动和汽车这些对规格和功耗非常敏感的领域,提供更窄的通道宽度和多种低功耗 运行状态;图形DDR分为GDDR和HBM两类标准,面向需要极高吞吐量的数据密 集型应用,例如图形相关应用程序、数据中心加速和AI。

应用场景的需求决定内存的选择和升级方向。内存系统是HPC系统最重要的子系统 之一。在设计处理器的内存配置时,需要在容量、带宽、延迟、能耗和性价比中做适 当的权衡,以匹配处理器芯片的性能和用途。随着AI HPC的持续发展,AI处理器的 应用场景和与之相应的内存系统设计也走向多样化。HBM正在以其高带宽、高密度 优势成为当前高端AI训练芯片的首选方案,同时DDR、LPDDR、GDDR也有各自的 难以替代的应用场景及AI需求下的升级方向。

二、如何理解内存系统层级及关键参数?

(一)理解内存系统的层级:从存储单元到内存系统

对于单个乃至多个处理器组成的系统而言,内存系统自下而上可以分为单元、阵 列、die、封装、系统几个层级。 从单元到DRAM Die:DRAM的最底层结构是存储单元,每个单元代表1 bit数据, 由一个存储电荷的电容器和一个负责开关的晶体管组成,即1T1C结构。大量的 1T1C单元排列自下而上组成按行(row)和列(column)排列的库(bank)。单 个DRAM die往往包括多个bank。 从封装到内存系统:DRAM die经过后道工艺,制作成封装好的存储芯片。不同的 DRAM标准下封装形式各有不同。LPDDR封装内往往包括多个DRAM die,GDDR 封装则一般包括1-2个die。封装好的LPDDR芯片和GDDR芯片直接安装在主板PCB 上,通过PCB和处理器通信,某些用于小型系统的DDR芯片也采取这种方式。

不同于LPDDR和GDDR,绝大部分DDR内存通过DIMM(Dual line memory module,双列直插式内存模块)的形式组织,封装好的DRAM芯片被安装在一个小 型PCB电路板上,即DIMM模块,可以直接插入主板上的DIMM插槽,再通过主板 PCB和处理器通信。 HBM则采用独特的垂直堆叠封装方式,同一封装内的多个die垂直堆叠并通过垂直 的TSV(Through Silicon Via,硅通孔)互连。封装好的HBM通过CoWoS技术中 的中介层(Interposer)与处理器通信,其带宽大大高于其他DRAM类型。 绝大多数CPU和GPU均配备多个DRAM芯片/DIMM组成的内存系统。根据处理器设 计和应用的不同,所配置的内存类型、规格选择和配置数量也有所不同,需要和处 理器总线宽度、时钟频率等参数相匹配。内存种类、规格和数量的选择直接决定了内存系统的总容量和总带宽。

(二)理解内存的关键参数:带宽、容量和延迟

内存最重要的性能参数是容量、带宽和延迟,同时还需要考虑能耗和性价比。不同 类型的DRAM各有优势,在设计处理器系统架构的时候需要针对不同的应用,选择合 适的内存系统设计。本章旨在厘清主流DRAM标准中如何理解及计算内容容量和带 宽等关键参数,以在后文进一步理解AI处理器设计中的内存选择和演进方向。

1.带宽

内存带宽是处理器可以从内存中读取数据或将数据存储到内存中的速率,用于衡量 内存的吞吐量,以GB/s为单位。对于单个处理器来说,计算其内存带宽的基本公式为: 内存带宽=处理器内存接口总位宽 × 每秒数据传输次数 对于不同类型的处理器,所使用的内存类型、相应的参数标注方式和使用的单位有 所不同,但是计算带宽的基本方法是相同的。此外,计算时还需要注意数据单位之 间的换算(1 Byte = 8 bit) CPU通常搭配DDR或者LPDDR作为内存,GPU搭配GDDR或者HBM作为内存。消 费级CPU内存接口一般是单通道或双通道,服务器CPU则可以为4通道或8通道。 GPU具有比CPU更多的内核,更适合处理并行任务,因此GPU的内存接口设计一 般支持更多的内存传输通道,具有更高的总位宽和带宽。

2.容量

相比于带宽,内存容量的计算更加直观。对于单个处理器来说,内存总容量(GB)= 单封装容量密度(GB/DIMM数或颗粒数) ×DIMM数或颗粒数,需要注意的是,每个 处理器配置的内存芯片或模组数量并不能随意增加,而受到处理器内存接口和系统 物理规格限制。JEDEC规范中,每种容量密度的DRAM die可以设计为不同的位 宽,从而在内存接口总线位宽一定的情况下组成不同容量的内存系统。

一般来说,CPU可配置的最大内存容量由CPU内存通道数、适用的内存标准、每个 DIMM中可容纳的DRAM die数量、每个DRAM die的容量密度决定。GPU可容纳的最大内存容量由GPU总线带宽、适用的内存标准、封装颗粒的容量密度决定。

3. 延迟

内存延迟是发送数据请求到处理器接收到数据之间的时间,决定了处理器等待数据 的时间,单位为时钟周期或纳秒。根据Crucial官网,延迟一般分为CAS、tRCD、 tRP、tRAS等几个部分。 相比于DDR内存,GDDR内存是为了提高带宽而设计的,牺牲了部分延迟来获得更 高的数据传输速度,因此图形处理和AI训练等数据密集场景更倾向于使用GDDR以 及带宽更高的HBM。而需要进行大量随机数据访问和处理的应用,则可能更倾向于 使用DDR内存,以利用其较低的延迟。

三、DDR+LPDDR 路线图:面向 CPU,构建大容量高 能效内存池

(一)DDR5 带宽和容量提升显著,LPDDR 成为数据中心 CPU 新选择

DDR是最传统、最主流的DRAM类型。广泛用于PC、服务器、HPC等领域。目 前,DDR5是最新一代DDR标准,提供更高的速度、更高的效率和更大的容量。 Rambus将DDR5相比DDR4的进步总结为七大技术指标,包括带宽、能耗、电源架 构、通道架构、突发长度、容量密度及智能性。

LPDDR成为数据中心CPU的新选择。一般来说,LPDDR用于手机、汽车等移动设 备,很少出现在服务器中。但是英伟达在Grace CPU选择了LPDDR5X作为内存方 案。根据Nvidia官网,其原因是需要在大规模AI和HPC工作负载的带宽、能效、容 量和成本之间取得最佳平衡。虽然HBM能够提供大量内存带宽和良好的能效,但其 每GB成本是DDR5或LPDDR5X的3倍以上。此外,HBM的密度和CoWoS封装的尺 寸也限制了其最大容量。而与更传统的8通道DDR5设计相比,Grace CPU LPDDR5X内存子系统的带宽比DDR5系统高53%,并大大提高了功率效率,每GB 只需要八分之一的功率。 我们以Nvidia DGX H100服务器和GH200超级芯片为例分析数据中心CPU的内存 系统。DGX H100系统包括2个8通道Intel Xeon Platinum 8480C CPU,共同控制 32个DDR5 DIMM,每个DIMM容量为64 GB,总内存容量为2 TB。对于单个Xeon CPU来说,内存容量为1 TB,内存带宽为307 GB/s。GH200系统包括1个32通道 Grace CPU,8块LPDDR5X内存通过PCB围绕在Grace CPU周围。Grace CPU具 有32个内存通道,配置最大512 GB LPDDR5X,最大带宽为546 GB/s。可以看 出,DDR DIMM内存设计能够为每个处理器配置更大的容量,但是带宽较低,且DIMM设计占用了很大的服务器内部空间。而LPDDR具有带宽和功耗优势,并且通 过PCB直接和处理器相连,大大节省了空间,但是总体容量相对较小。

(二)DIMM 模组架构创新扩展系统容量及带宽,CXL 互连协议构建高 效内存池

MRDIMM/MCRDIMM通过创新模组架构大幅扩展容量及带宽。随着DRAM技术的演 进,制造成本的增加、邻近效应和存储节点泄漏等问题开始限制DRAM性能的进一 步提升,DRAM芯片本身的性能提升越来越难,从内存模组层面进行性能提升成为 新的方向。根据SK Hynix官网,MCRDIMM(Multiplexer Combined Ranks DIMMs, 多路合并阵列双列直插内存模组)与MRDIMM架构类似,由SK Hynix、Intel和 Renesas合作开发,利用MCR技术安装在MCRDIMM上的数据缓冲区实现了两个 Rank同时运行,MCRDIMM允许一次向CPU传输128字节的数据,而传统DRAM模 块通常为64字节。每次发送到CPU的数据量增加,支持至少8Gbps的数据传输速率, 是单个DRAM的两倍。根据澜起科技2023年年报,MCRDIMM也可以视为MRDIMM 的第一代产品,MRDIMM(Multi-Ranked Buffered DIMMs,多级缓冲内存模组) 是一种高带宽的内存模组,通过MDB芯片可以同时访问两个DRAM内存阵列 (RDIMM只能访问一个),从而实现双倍的带宽。第一代产品可支持8800MT/s速率。

CXL技术推动内存池化,构建高效内存池系统。在传统服务器架构中,CPU和设 备、设备和设备之间的内存存在鸿沟,特别是服务器巨大的内存池和加速器设备之 间,内存的分割造成了巨大浪费。根据Synopsys官网,CXL(Compute Express Link)是一种高速互连技术,旨在提供处理器与专用加速器、高性能存储系统之间 的高效、高速、低延时接口,以满足资源共享、内存池化和高效运算调度的需求。 CXL3.0作为CXL协议的最新版本,于2022年8月发布,拥有更彻底的内存共享机制 以及更灵活的连接结构。基于PCIe6.0,CXL3.0传输速度达64GT/s,Fabric功能使 得CXL3.0设备之间可以构建网络而不局限于CXL2.0的树状结构。

四、GDDR+HBM 路线图:面向 GPU,HBM 高带宽优 势成为 AI 大模型训练推理关键

(一)HBM 成为 AI HPC 首选存储方案,GDDR 性价比具备优势

GDDR是专为图形处理应用设计的高速内存技术,搭配GPU用于图形处理、数据中 心加速和AI等需要高带宽数据处理的场景。HBM相比GDDR具有更高的传输带宽、 更高的存储密度、更低的功耗以及更小的尺寸。近年来,大部分高端数据中心GPU 和ASIC均使用HBM作为内存方案。 虽然相比HBM,GDDR的带宽和容量密度均较低,但每GB单价显著低于HBM,因 此Nvidia在推理产品线L40、L40S、L20等产品中使用GDDR,以获得更高的性价 比。

我们以Nvidia RTX 4090、H100、H200为例分析GPU中GDDR、HBM不同标准和 代际之间的性能差异。RTX 4090配备12颗共24 GB GDDR6X,总带宽为 1008GB/s。H100配备5颗共80GB HBM3,总带宽为670 GB/s,计算得到数据速率 约为5.2 Gbps。H200配备6颗HBM3E,具有更大的141 GB内存容量和4.8 TB/s带 宽。 高位宽是HBM的核心优势。HBM的高带宽主要得益于单个HBM封装具有超宽的 1024 bit位宽,而每个GDDR封装位宽仅为32 bit,因此H100的5颗HBM3的总位宽 高达5120bit,远高于4090 12颗GDDR6X的384bit,在数据速率更低的情况下,配 备HBM3的H100带宽远高于使用GDDR的4090。 HBM代际间升级主要体现在数据速率和容量密度。H200配备的HBM3E的位宽仍然 为1024 bit,但是提升了数据速率和容量密度,因此相比于使用HBM3的H100, H200具有更大的141 GB内存容量和4.8 TB/s带宽。

(二)HBM 持续向更大带宽、更大容量升级

HBM持续向更高带宽、更大容量发展。从HBM2到HBM3E,HBM的容量和带宽都有 了显著的提升。容量的提升主要得益于单个die容量密度的提升和堆叠层数的提升。 带宽的提升则主要来自数据传输速率的提升。根据SK Hynix官网,目前,SK Hynix 的HBM3E数据速率最高为9.2Gbps,对应单个封装的带宽为1.18 TB/s,最多可以堆 叠12层,每个DRAM die容量为24 Gb,12Hi堆栈可提供合计36 GB容量。

HBM4有望2026年进入量产。据Trendforce,下一代HBM4预计将于2026年上市, 规格和能效将进一步提升。HBM4堆栈层数除了现有的12 Hi外,也将往16 Hi发 展。HBM4 12Hi产品预计将于2026年推出;而16Hi产品则预计于2027年问世。此 外,受到规格提升带动,将首次看到HBM最底层的Logic die采用12nm制程wafer。 根据SK Hynix官网,SK Hynix已与台积电签署相关合作备忘录。根据美光发布的AI 内存路线图,美光预计将在2026年至2027年间推出容量为36GB至48GB的12层和 16层HBM4。2028年后,将推出HBM4E,将最大带宽推高至2TB/s以上,并将堆栈 容量增加到48GB至64GB。


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告
评论
  • 相关文档
  • 相关文章
  • 全部热门
  • 本年热门
  • 本季热门
  • 全部热门
  • 本年热门
  • 本季热门
分享至