2024年电子行业中期策略:AI的裂变时刻,算、连、存踏浪而行

  • 来源:广发证券
  • 发布时间:2024/06/18
  • 浏览次数:756
  • 举报
相关深度报告REPORTS

电子行业2024年中期策略:AI的裂变时刻,算、连、存踏浪而行.pdf

电子行业2024年中期策略:AI的裂变时刻,算、连、存踏浪而行。AI的裂变时刻,英伟达GB200新产品周期开启。全球AI的裂变时刻,产业链日新月异百花齐放。ScalingLaw规模定律下,大模型参数量、数据、算力呈现指数级增长。英伟达的GPU产品为算力核心,在AI加速芯片市场一马当先。服务器ODM、PCB、网络交换机、存储等产业链核心环节龙头厂商踏浪而行,伴随大客户和终端需求共同成长。北美云厂商CAPEX持续上修,训练、推理需求驱动算力持续高增长。英伟达发布全新Blackwell架构GPU,GB200超级芯片大幅提升性能及能耗表现,开启新一轮产品周期。算力:GB200NVL72的TCO优势突出...

一、AI 的裂变时刻,英伟达 GB200 新产品周期开启

(一)AI 的裂变时刻,产业链日新月异

全球AI的裂变时刻,产业链日新月异百花齐放。美国OpenAI发布的基于GPT-3.5大 模型的聊天机器人程序ChatGPT在2023年1月末月活用户突破1亿,成为史上用户增 长最快的消费者应用,引爆AIGC奇点。大模型侧,GPT大模型快速更新迭代,参数 量已进入万亿级别,最新发布的GPT-4 Turbo模型在多项性能升级的同时、推理成 本有明显优化;谷歌、百度等海内外云厂商纷纷推出自研大模型,加速追赶。算力 侧,NVIDIA的GPU产品为算力核心,在AI加速芯片市场一马当先;服务器ODM、 高速互联、存储、PCB等产业链核心环节龙头厂商踏浪而行,伴随大客户和终端需 求共同成长。应用侧,ChatGPT功能持续丰富、微软Copilot在AI PC端应用生态不 断完善、各类垂直应用领域产品高频推出。AIPC产业链正经历日新月异、百花齐放 的蓬勃成长阶段。

算、连、存是AI算力硬件的核心。大模型的技术栈从下而上分为计算层、框架层、 模型层、接口层、应用层。算力基础设施硬件位于底层计算层,是大模型技术的基 础,直接决定了模型的规模、训练效率和推理效率。AI算力硬件主要包括算、连、 存三个部分。计算部分主要包括GPU、CPU、ASIC等算力芯片,是AI硬件的核心, 通过执行各种算法和数据处理任务,直接影响AI模型的训练速度和推理效率;存储 部分包括显存、内存、高速缓存和硬盘等,用于存储和快速访问大量数据和模型参 数,并在计算过程中提供快速的数据读写支持,决定了模型的规模和训练及推理的 效率;互连部分包括各种总线、网络和通信协议,用于连接和传输数据,确保各个 硬件组件之间的高效通信,提高整体系统的性能和响应速度。

(二)CSP CAPEX 持续上修,训\推需求驱动算力需求高增长

北美CSP厂商CAPEX持续上修。从24Q1北美四大CSP厂商的CapEx指引来看:(1) 微软本季CapEx为140亿美金,同比+65%,环比+13%;(2)Google本季CapEx 为120亿美金,同比+91%,环比+9.2%;(3)Meta本季CapEx为 64 亿美元,略 低于市场预期;(4)Amazon本季CapEx为149亿美金。

北美四大CSP厂商对24、25年CapEx指引积极。(1)微软指引,预计后续季度CapEx 将环比大幅增加,FY25 CapEx继续高于FY24;(2)Google指引,预计24年至少 480亿美金CapEx,同比约49%;(3)Meta预计FY24 CapEx在350-400亿美金, 同比+28%~47%;(4)Amazon指引24年CapEx meaningful increase,且主要来自 于以AI为主的基础建设投资。

在AI算力需求中,推理和训练占英伟达算力需求比例约4:6。根据英伟达在2024年5 月22日发布的25Q1财报,从需求端来看,数据中心营收中超过40%的比例来自大型 云计算厂商。在英伟达25Q1业绩会交流纪要中表述,过去四个季度中,预计推理贡 献数据中心约40%收入。从训练端来看,Scaling law的持续增长不断驱动算力需求 增长;从推理端来看,CSP厂商通过AI赋能传统业务以及发展AI原生应用。

(三)英伟达 GB200 新产品周期开启,算连存深度受益

在2024 GTC大会,英伟达发布了全新Blackwell架构GPU,包括B200 GPU、与Grace CPU相结合的GB200。B200芯片有2080亿个晶体管,采用台积电定制的4NP工艺制 造,将两个die连接成一个统一的GPU,通信速度可达10TB/秒,使用192GB的HBM3E 内存。GB200由两个B200 Blackwell GPU 和一个基于Arm的Grace CPU组成,能 够在万亿参数的大语言模型(LLM)上构建和运行实时生成式 AI,其成本和能耗较 上一代产品最低可降至1/25。 根据NVIDIA官网,Blackwell凭借六项变革性的技术,能够在拥有高达10万亿参数的 模型上实现AI训练和实时LLM推理,这些技术包括: 1.全球最强大的芯片:Blackwell 架构 GPU 具有 2080 亿个晶体管,采用专门定 制的双倍光刻极限尺寸 4NP TSMC 工艺制造,通过 10 TB/s 的片间互联,将 GPU 裸片连接成一块统一的 GPU。 2.第二代 Transformer 引擎:得益于全新微张量缩放支持,以及集成于 NVIDIA TensorRT™-LLM 和 NeMo Megatron 框架中的 NVIDIA 先进动态范围管理算法, Blackwell 将在新型 4 位浮点 AI 推理能力下实现算力和模型大小翻倍。 3.第五代 NVLink:为了提升万亿级参数模型和混合专家 AI 模型的性能,最新一代 NVIDIA NVLink® 为每块 GPU 提供突破性的 1.8TB/s 双向吞吐量,确保多达576 块 GPU 之间的无缝高速通信,满足了当今最复杂 LLM 的需求。

4.RAS 引擎:采用 Blackwell 架构的 GPU 包含一个用于保障可靠性、可用性和可 维护性的专用引擎。此外,Blackwell 架构还增加了多项芯片级功能,能够利用 AI 预 防性维护来运行诊断并预测可靠性相关的问题。这将最大程度地延长系统正常运行 时间,提高大规模 AI 部署的弹性,使其能够连续不间断运行数周乃至数月,同时 降低运营成本。 5.安全 AI:先进的机密计算功能可以在不影响性能的情况下保护 AI 模型和客户数 据,并且支持全新本地接口加密协议,这对于医疗、金融服务等高度重视隐私问题 的行业至关重要。 6.解压缩引擎:专用的解压缩引擎支持最新格式,通过加速数据库查询提供极其强 大的数据分析和数据科学性能。未来几年,每年需要企业花费数百亿美元的数据处 理将越来越多地由 GPU 加速。 GB200通过900GB/s超低功耗的片间互联,将两个NVIDIA B200 Tensor Core GPU 与NVIDIA Grace CPU相连。NVIDIA还构建了由72张GB200、36张Grace CPU构成 的DGX GB200 NVL72超级计算机。该超级计算机在内部节点间使用铜缆连接,以 降低功耗。此外,GB200 NVL72 还内置 NVIDIA BlueField®-3 数据处理器,可在 超大规模 AI 云中实现云网络加速、组合式存储、零信任安全和 GPU 计算弹性。 对于LLM 推理工作负载,相较于同样数量的 NVIDIA H100 Tensor Core GPU, GB200 NVL72最高可提供 30倍的性能提升以及其成本和能耗最低可降至1/25。

二、GB200 NVL72 的 TCO 优势突出,ODM 竞争格局 变化

(一)GB200 NVL72 的推理性能提升 30 倍

GB200 NVL72系统推理性能大幅提升30倍。英伟达在2024 GTC大会发布的GB200 NVL72系统展现出较强的推理性能;参考公司官网,GPT-MoE-1.8T模型推理, NVL72的单卡每秒吞吐量可以达到HGX H100的30倍。我们在此前发布报告《AI的 裂变时刻系列报告3:为什么H20的推理性价比高》中搭建了一个用于理论推算算力 系统推理能力的框架,并在《AI的裂变时刻系列报告6:为什么GB200 NVL72推理 性能相较于HGX H100提高30倍?》中进一步分析为何NVL72系统的推理能力有如 此显著的提升。 高速、支持互联GPU数量更多的第五代NvLink可以大幅缩减超大模型推理的跨服务 器通信时间。NVL72中72张B200 GPU通过第五代NVLink互联,双向带宽可达 1800GB/s。对于万亿参数量模型,其参数所需显存空间可达1000GB以上(FP8精 度),叠加推理过程中KV Cache所需显存空间,会超出单台8卡AI服务器显存容量; 因此万亿参数量模型的推理通常要在多台服务器组成的算力系统中进行。多卡/多服 务器的算力系统中进行推理会涉及各类并行方式,如张量并行、流水线并行、专家 并行、数据并行等;其中张量并行、专家并行会带来较多的卡间通信需求;对于传 统的英伟达DGX服务器集群,服务器间GPU通过InfiniBand网络互联,带宽明显低 于NvLink网络带宽,使得服务器间通信耗时较长、明显影响推理效率。基于NvLink 全互联的NVL72在执行万亿参数量模型推理时卡间通信时间大幅缩减,提高了算力 利用率。

Blackwell GPU引入新的数据精度FP6/FP4,可提供更快的算力速度。Balckwell GPU配置的第二代Transformer引擎将新的微张量缩放支持和先进的动态范围管理算法 与TensorRT-LLM和NeMo Megatron框架结合,使Blackwell具备在FP4精度的AI推 理能力;在全新FP4精度下,Blackwell GPU的Tensor Core算力是其本身FP8精度 的算力的2倍,AI性能达到Hopper的5倍。同时,使用4位精度相较于8位精度,GPU 从HBM读取模型参数、KV Cache的速率大幅提升,提高了Decode阶段的速率。

其他关键升级点在于显存带宽/容量提升、更适合MoE并行的架构升级等。单颗B200 GPU配有8颗HBM3E显存,显存容量达到192GB,显存带宽达到8TB/s;升级后的 显存配置一方面加速Decode阶段显存读取效率;另一方面可以支持系统进行更大 Batch Size的推理,提高算力利用率。Blackwell GPU引入的第二代Transformer引 擎可以加速混合专家模型的推理,通过使用MoE模式有效降低了计算阶段的浮点运 算次数,缩短Prefill阶段的计算时间。

(二)GB200 NVL72 的 TCO 优势突出

TCO是CSP等厂商的重要考虑因素。从提供云服务的CSP厂商的角度来讲,考虑整 体集群系统的计算效率、能耗关系,因此对产品和解决方案能否提供更好的TCO(总 体拥有成本;Total Cost of Ownership)较为关注。TCO结合算力租赁价格,计算 得出的ROI是数据中心的TCO问题是考虑是否建设新集群和建设集群大小的重要考 虑因素。复盘英伟达的产品升级思路来看,公司产品系列从单GPU芯片性能升级到 推出系统级解决方案平台,产品线也在朝着为客户降低数据中心的TCO的角度而升 级。 GB200 NVL72有利于降低AI集群功耗和TCO。根据2024 GTC大会,液冷GB200 NVL72机架可减少数据中心的碳足迹和能源消耗。液冷增加了计算密度,减少了占 地面积,并促进了与大型NVLink域架构的高带宽、低延迟GPU通信。与同规模H100 相比,GB200 NVL72的成本和能耗最多可降低25倍。过去,训练一个1.8万亿参数 的模型,需要8000个Hopper GPU和15MW的电力,在2万个Blackwell GPU(使用 GB200 NVL72,约278个Rack)就能完成这项工作,耗电量仅为4MW,即约为原有 功耗的1/4。

(三)ODM 竞争格局变化,工业富联受益明显

服务器制造等级按集成度从低到高可分为Level 1-Level 12共12个等级。根据AMAX 定义,服务器制造等级从Level 1(零部件制造,包括未涂漆的零部件和一体成型的零 部件)到Level 6(将主板集成到机箱外壳中并进行上电测试。集成主板/机箱组合, 包括零件,但缺少 CPU、内存、硬盘驱动器、网卡等组件)再到L9 (将 CPU 和 内存集成到具有测试功能的服务器准系统中),再到整机制造Level10,这主要值服 务器的完整组装,完整的系统和组件级测试,操作系统/软件集成,产品配有用户手 册和其他所需文档,并作为完整服务器解决方案交付。此前通用服务器产业链的交 付形式多为L6和L10;最高等级的Level 12指多机架(Rack)等级的集成,包括完 整的软件和网络功能测试、验证和优化。大部分服务器ODM企业一般提供从Level 1-Level 10的制造能力,少部分服务器ODM企业可提供Level 11(单个机架)甚至 Level 12的产品和服务。 英伟达布局机柜级解决方案,GB200按照整机柜形式出货对ODM厂商提出更高要求。 英伟达发布GB200NVL机柜级解决方案,相比传统的八卡单服务器方案,机柜级方 案在基于NVLink的Scale-Up、系统级优化,降低TCO和能耗水平等方面优势更为明 显。英伟达作为AI数据中心方案的领导者和定义者之一,推动者机柜级解决方案成 为AI应用的主流形式之一。在GB200NVL时代,我们预计云服务商、NCP、品牌商 等客户会直接下服务器订单,出货则以整机的形式来进行。在这种情况下,拥有提 供整体解决方案的能力成为了ODM厂商获取订单的关键能力之一。此外,由于单机 柜的价值量远高于此前的八卡DGX/HGX形式的服务器价值量,在buy and sell模式 下,承接Rack需要撬动的资金规模更大,对ODM厂商的现金流合营运能力提出了更 高的要求,因此规模越大、营运能力越强的厂商越具有优势。

CSP是采购AI服务器大头,CSP厂商对于服务器的采购以白牌服务器(ODM)为主。 跟踪英伟达财报披露的季度数据来看,FY24Q2-FY24Q3,英伟达的数据中心收入 中CSP客户和其他客户的占比大致为1:1。格局方面,AI服务器的代工业务主要被 中国台湾ODM厂商主导。工业富联、英业达、广达近年来数据中心营收占比不断提 升。

工业富联核心优势为可提供完整AI服务器解决方案。公司已覆盖全产业链、包括价 值链上游的GPU模组、基板、以及后端AI服务器设计与系统集成等业务。公司是少 有的可提供、从GPU模组、基板、后端AI服务器设计、高速交换机、液冷系统、整 机到数据中心的全产业链服务的厂商。以为公司全资子公司鸿佰科技为例,在英伟 达GTC 2024大会上,鸿佰展出多种AI服务器产品,包括英伟达MGX和HGX平台服 务器、英伟达最新一代数据中心液冷机柜级解决方案GB200 NVL72、采用NVIDIA Spectrum-2以太网交换机的ES2100储存系统等。根据公司一季报,2024Q1,公司 AI服务器占服务器整体收入近四成,AI服务器收入同比增长近两倍,环比呈现近双 位数比率增长。此外,生成式AI服务器同比增加近三倍,环比也呈现双位数比率增 长。

三、连接 1:PCB 价值量持续提升,HDI 占比增加

(一)AI 服务器中 PCB 性能提升,单机价值量持续增长

面积:AI服务器中增加GPU模块,驱动PCB面积大幅提升。GPU模块加入使得AI 服务器新增GPU加速卡OAM和GPU模组板UBB,推动PCB整体面积增加。传统服务 器一般搭载2或4颗CPU,封装对PCB板面积要求较低。而AI服务器中除了CPU之外, 一般还需要搭载4颗至8颗GPU。以英伟达服务器为例,AI服务器DGX A100/H100 都以GPU模组的形式搭载8颗GPU。因此,AI服务器相比传统服务器增加了OAM和 UBB的面积,整体PCB板面积大幅增加。

层数:AI服务器高速传输需求下,总线标准提升促使PCB层数增加。英伟达AI服务 器基于NVLink技术构建了NVSwitch高速互联模组,为计算密集型工作负载提供更高 带宽和更低延迟,H100上总带宽达到了带宽的7倍之多,A100/H100/B100/B200的 双向带宽分别为600/900/1800/1800Gbps,NVlink连接规格快速提升。GPU模块高 速传输的需求,促使走线的密度提升、复杂性提高,要求PCB需要拥有更高层数。 AI服务器用PCB一般具有20-28层,相比之下传统服务器一般最多为16层。PCB每增 加一层,其价值量均有明显提升,层数大幅增加将带动AI服务器用PCB价值量大大 提升。

材料:AI服务器用PCB性能要求高,覆铜板(CCL)需要满足高速高频低损耗等特 征。覆铜板作为PCB的关键原材料,同样需要提升性能参数以适应服务器升级。AI 服务器要求信号传输高频高速、信号损耗较低,使得覆铜板的介质损耗等性能需要 不断提升。以PCIe5.0总线标准为例,其PCB使用CCL材料等级需要达到Very Low Loss,其对应的介质损耗因子Df值需要降至0.006-0.005。NVlink5.0传输速率更高, 因此需要更高等级CCL材料实现高频高速和更低损耗等性能。随着CCL材料等级提 升、Df值降低,制作技术难度越高,CCL单价与毛利率将显著上升。

DGX系列服务器中PCB量价测算:DGX系列服务器中单GPU的PCB价值量为 175~256美金。考虑到母版及UBB使用单位面积价值较低的多层板、OAM使用单位 面积价值较高的HDI板,根据不同类型PCB的层数及面积,我们假设DGX A100/H100/B100中1张母版的价值量分别为196/300/350美金;8张OAM的总体价值 量分别为539/640/800美金;1张UBB的价值量分别为663/700/900美金。由于DGX 系列服务器中含8颗GPU,计算得出,DGX A100/H100/B100的单GPU的PCB价值 量为175/205/256美金,其中,单GPU的HDI价值量为67/80/100美金,单GPU的多 层板价值量为107/125/156美金。

GB200 NVL72中PCB量价测算:GB200 NVL72主板和NVLink switch模组板全面 升级,单GPU价值量显著增加。由于GB200超级芯片性能大幅提升,compute tray 主板集成度更高、线路更复杂,制程要求和制造成本更高。同时,GB200芯片在信 号损耗方面标准更为严格,PCB板材料升级为损耗因子更小的M7+等级材料。同时, GB200 NVL72采用NVLink5.0,带宽达1800Gbps,相较NVLink4.0对传输速率的要 求大幅提升,更适合使用信号传输速率更高的HDI。通过使用HDI板与微孔结构搭配, NVLink switch模组板可以提高布线密度、提高空间利用率和散热效果,并且具有更 高的可靠性。因此,我们推测GB200 NVL72所使用的主板为22层5阶M7 HDI板, NVLink switch模组板为低阶或高阶HDI板。 对GB200 NVL72所用PCB价值量进行敏感性分析,产业链微观层面来看,我们假设 GB200 NVL72中主板单价为412美金,Nvlink switch模组板若为低阶HDI则单价为 686美金,若为高阶HDI则价值量为1029美金,中间板/网卡/DPU板单价分别为 25/20/35美金。由于GB200 NVL72中包含72颗GPU,计算得出,(1)若Nvlink switch 模组板采用低阶方案,则GB200 NVL72单GPU的PCB板价值量为343美金,单GPU 的HDI板价值量为333美金,单GPU多层板价值量为9美金;(2)若Nvlink switch模 组板采用高阶方案,则GB200 NVL72单GPU的PCB板价值量为380美金,单GPU的 HDI板价值量为370美金,单GPU多层板价值量为9美金。

GB200 NVL72相较DGX架PCB用量及规格同步提升,驱动整机PCB价值量大幅增 长。经上述测算,DGX A100/H100/B100的单GPU的PCB总价值量为175/205/256 美金,GB200 NVL72单GPU的PCB板总价值量为343~380美金。相比DGX A100/H100/B100,GB200 NVL72中单GPU的HDI板价值量增加233%~452%,单 GPU的PCB总价值量增加34%~117%。

(二)HDI 在 AI 服务器 PCB 中占比提升,主要由于其优越性能

GB200 NVL72相较DGX架构HDI用量及规格同步提升。根据我们测算,DGX A100/H100/B100中OAM为HDI,单GPU的HDI板价值量为67~100美金,而GB200 NVL72中主板、网卡、DPU、以及Nvlink switch模组板均为HDI,单GPU的HDI板价 值量为333~370美金,相比DGX系列HDI价值量增加233%~452%。 HDI和PCB比较:HDI技术能够进一步缩小PCB上的布线空间和元件间距,提高服 务器的集成度和性能。从数据传输角度来看,NVLink3.0/4.0/5.0双向带宽分别为 600/900/1800Gbps,对PCB传输速率的要求大幅提升,HDI内部布线密度高、信号 传输路径短,因此能够实现高速、高频率的信号传输;从空间利用角度来看,HDI板与微孔结构搭配,可以采用更小的线宽/间距、更高的布线密度以达成更小的面积 和厚度以提高AI服务器空间利用率和散热效果;从电气性能角度来看,HDI板高密度 布线有利于先进SMT构装技术的使用,其电气性能和讯号正确性比普通PCB板更高。 从降低成本角度来看,当普通PCB板的层数增加超过八层后,以HDI微盲埋孔技术 来制造,其生产成本将较传统复杂的压合制程来得更低。此外,HDI板对于射频干扰、 电磁波干扰、静电释放等具有更佳的改善。

AI服务器PCB市场规模:AI服务器PCB市场规模持续增长,AI服务器HDI占比大幅 提升。具体来看,AI服务器中PCB主要包括CPU主板、UBB、OAM,随着AI技术的 不断进步和应用场景的日益拓展,AI服务器的渗透率持续提升,推动PCB产品的市 场规模不断扩大。另一方面,随着AI服务器的持续迭代升级,PCB规格与性能的相 应提升,带动HDI占比大幅增长。根据前文测算,A100中母板、OAM、UBB的价值 量 分 别 为 196/539/663 美 元 , 假 设 A100 出 货 量 在 2023/2024/2025 年 分 别 为 8.6/1.6/0.0万台,其市场规模在2023/2024年分别为1.2/0.2亿美元;H100中母板、 OAM、UBB的价值量分别为300/640/700美元,假设H100出货量在2023/2024/2025 年分别为13.1/33.6/2.5万台,其市场规模在2023/2024分别为2.2/5.5亿美元;H200 中母板、OAM、UBB的价值量分别为300/640/700美元,假设H200出货量在 2024/2025年分别为4.4/2.0万台,其市场规模在2024/2025年分别为0.7/0.3亿美元; H20中母板、OAM、UBB的价值量分别为300/640/700美元,假设H20出货量在 2024/2025年分别为3.4/2.0万台,其市场规模在2024/2025年分别为0.6/0.3亿美元; B100中母板、OAM、UBB的价值量分别为350/800/900美元,假设B100出货量在 2024/2025年分别为4.3/18.8万台,其市场规模在2024/2025年分别为0.9/3.84亿美元; 此外,GB200中主板/中间板/网卡板/DPU板/Nvlink switch板价值量分别为 411.8/25.3/20.0/35.3/1085.3美元,假设其在2025年的出货量为3.1万台,其市场规 模在2025年可达8.6亿美元。在上述AI服务器PCB中,采用HDI的有OAM和GB200 的主板、网卡板、DPU板和Nvlink switch板。因此,根据我们测算,AI服务器PCB 的市场规模预计将从2023年的3.7亿美元增长至2025年的14.4亿美元,占整体PCB 比例将从2023年的5%上升到2025年的15%;AI服务器PCB中HDI的市场规模预计将 从2023年的1.3亿美元增长至2025年的10.3亿美元,占AI服务器PCB比例将从2023年的2%上升到2025年的10%。

(三)国产厂商竞争优势明显,积极布局 AI 服务器 PCB

国内HDI起步较晚,目前国内量产的HDI公司有超声、方正、悦虎(原为台资雅新)、 Multek(原为美资伟创力旗下公司,现被东山精密收购)、生益电子、五株、博敏、 崇达、景旺等近20家,整体规模偏小,主要侧重于低端HDI的生产,极少数公司具 有SLP、Anylayer、刚-挠性结合板的制造能力,但规模及技术能力等方面发展速度 较快。

国内厂商积极布局AI服务器相关PCB产品,沪电股份与胜宏科技为领军企业。沪电 股份与胜宏科技在AI PCB领域的产品包括多层板与HDI。具体到产品进度而言,根 据沪电股份2023年年报,公司112Gbps速率的产品已开始进行产品认证及样品交付, 3阶HDI的UBB产品已开始量产交付,基于PFGA、GPU、XPU等芯片架构的新平台 部分目前在规划布局中;网络交换部分,公司基于112Gbps速率51.2T的盒式800G 交换机已批量交付,224Gbps速率的产品(102.4T交换容量1.6T交换机)开始进行预 研,NPO/CPO架构的交换/路由目前正配合客户在研发中;半导体芯片测试用产品 中的高复杂PCB已批量交付并同步规划多阶HDI产品。根据胜宏科技2023年年报, 公司应用于Eagle/Birch Stream级服务器领域的产品均已实现产业化作业,公司已实 现5阶20层HDI产品的认证通过和产业化作业,并加速布局下一代高阶HDI产品的研 发认证;HPC领域,公司实现了AI PC产品的批量化作业,并同步开展AI手机的产品 认证;在高阶数据传输领域,1.6T光模块已完成打样;高端SSD已实现产业化作业。

四、连接 2:集群规模指数级增长,交换机量价齐升

(一)GPU 集群规模指数级增长,国内外大厂积极建设

鉴于爆发增长的计算量,大语言模型相比小模型对以GPU集群为形式的大规模分布 式并行训练有更强的诉求。随着近年来硬件算力和大模型架构领域的研究与工程突 破,大模型Scaling Laws逐渐得到证实,模型大小和训练数据大小成为决定模型能 力的关键因素。面对参数量不断膨胀的趋势,以GPU集群形式的分布式并行训练能 够有效节省训练时间与提升GPU内存使用效率,存在无可比拟的优势。

GPU集群规模呈指数级增长趋势。在COMPUTEX 2024演讲中,NVIDIA发布其GPU 集群互联规模及以太网交换机SPECTRUM-X的升级规划,集群规模呈指数级增长趋 势:

2024年,英伟达使用交换容量为51.2T、64端口的X800以太网交换机,配套400G 网卡,互联GPU量级超一万颗。 2025年,英伟达预计使用交换容量为51.2T、64端口的X800 Ultra交换机,配套800G 网卡,互联GPU量级超十万颗; 2026年,英伟达则预计使用交换容量为102.4T、64端口的X1600交换机,配套1.6T 网卡,互联GPU量级超百万颗。 国际大厂积极推进集群搭建,推进大模型快速迭代。英伟达以GB200为基础组成的 集群规模最高可达3.2万个GPU,可提供645EFlops算力,相较于前一代10752个 H100 GPU组成的EOS超算集群,单集群算力提升超15倍。Meta于24年搭建了两个 分别包含24,576个NVIDIA H100 GPU的集群,分别采用(1)基于Arista 7800以及 Wedge400和Minipack2 OCP机架交换机构建的RoCE方案和(2)基于NVIDIA Quantum2的IB方案,且均使用400 Gbps端点互联,能够支持比22年搭建的RSC集 群训练更大、更复杂的模型。

国内厂商也在积极推进大规模集群搭建。字节跳动于2月23日发布万卡集群方案 MegaScale。MegaScale是一个规模超过10,000个GPU的集群。在12288块GPU上 训练1750亿参数大语言模型时,MegaScale实现了55.2%的算力利用率(MFU), 能在1.75天内完成GPT-3规模模型(175B)的训练。百度智能云则联同NVIDIA共同 完成了万卡以上规模的IB网络架构设计,于22年4月将集群建设完成,提供单集群 EFLOPS级别的算力,目前该集群的规模正不断扩大。

(二)交换机量价齐升,产业链厂商深度受益

胖树架构广泛应用于计算集群网络搭建中。在GPU集群通过并行计算的形式对大模 型进行训练的过程中,单次计算迭代内梯度同步需要的通信量就达到了百GB量级, 再叠加有各种并行模式以及训练加速算法框架新增的通信需求,集群内网络搭建需 要满足高带宽和低延迟的需求。因此,使用Fat-Tree(胖树)架构的CLOS网络正被 广泛应用于计算集群中。

集群规模扩张推动网络层数增加。Fat-Tree架构下,每层交换机之间的总带宽保持 不变,且交换机的数量和连接方式都是对称的,同时一般情况下,Fat-Tree中所有 交换机都有相同个数的端口。因此,随着计算集群规模的持续扩大,以胖树架构组 成的交换机网络层数将随之提升。 网络层数增加提升交换机配比。以英伟达最新的SPECTRUM-X系列以太网交换机为 例,主流型号SN5600拥有64个800Gbps端口,以该交换机组成计算集群网络,不 同层数的胖树架构互联GPU的上限分别为: (1)2层架构:计算网络最多使用96个交换机,最多互联2,048个GPU,GPU与计 算网络交换机的配比为64:3;(2)3层架构:计算网络最多使用5,120个交换机,最多互联65,36个GPU,GPU与 计算网络交换机的配比为64:5 ;(3)4层架构:计算网络最多使用229,376个交换机,最多互联2,097,152个GPU, GPU与交计算网络机的配比为64:7。

在计算集群规模指数增长趋势明确的背景下,集群交换机用量将得到显著提升。依 照英伟达于COMPUTEX 2024发布的升级规划,24年互联一万颗GPU需要使用三层 CLOS非阻塞架构;25年互联十万颗GPU以及26年互联百万颗GPU量级,则需要使 用四层CLOS非阻塞架构,才可实现对十万/百万级规模计算集群的互联。 大规模GPU集群需要交换机的交换容量和交换速率提升,进而提升交换芯片及交换 机PCB板的价值量,交换机将迎来量价齐升的机遇期。 (1)交换机芯片方面,随计算集群中GPU运算能力的升级以及数据交互需求的增加,GPU之间的互联速度也快速提升,交换机中交换芯片的交换容量也随之呈倍数 提升,目前博通的Tomahawk 5交换芯片容量已达51.2Tb/s,可支持64个800Gbps 端口的数据交换。展望未来,随着1.6Tbps光模块推出,交换机芯片交换容量将提升 至102.4Tb/s,交换芯片价值量有望获得持续提升。

(2)交换机PCB方面,根据沪电股份年报,对于51.2T的盒式800G交换机,需要 PCB支持112Gbps的传输速率,而对于102.4T交换容量1.6T交换机,则需要支持 224Gbps的传输速率。随着交换速率的持续提升,高速网络系统对PCB的速率、层 数、材料都提出了更高的需求,其高负载工作环境也对PCB的规格、品质提出了更 高的要求,交换机内部PCB价值量将持续提升。 华勤技术服务器与交换机ODM业务推进迅速。华勤技术从2017年开始布局数据中心 领域,经数年潜心研发和技术积淀,公司产品覆盖通用服务器、网络交换机、异构 服务器、边缘服务器等全栈产品,具备从L3到L11一站式交付能力,拥有自研产品 +ODM/JDM多种合作模式。数据中心交换机赛道具有壁垒高,竞争格局良好,长期 需求受益于数据处理下提升、升级换代等动力。根据华勤公司投资者关系活动记录 表。2023年三季度,公司实现头部互联网客户TH5主流交换机中标,成功突破交换 机大客户,且通过推出自主规划的AI服务器和交换机服务渠道客户,逐步构建覆盖 各类行业客户能力。未来交换机业务有望成为公司数据中心业务中较重要增长动力 之一。

五、HBM 规格持续升级,国产 HBM 亟待突破

(一)HBM 规格持续升级

大模型规模指数级增长,HBM需求激增。大模型的参数指数级增长,不仅推升了处 理器的算力需求,同时也对与处理器匹配的内存系统提出了更高的要求。一方面, 大量模型数据的传输要求更大的内存带宽,以缓解“内存墙”问题,提升HPC系统 计算效率;另一方面,内存系统的容量需要大幅拓展,以存储千亿参数乃至更大规 模的大模型。HBM是目前带宽最高的内存标准,其中领先的HBM产品12-16层HBM4 预计将于2026年推出,将每个堆栈的带宽提高至1.4 TB/s以上,容量提升至36-48 GB, HBM4E预计将于2028年推出。

HBM持续向更高带宽、更大容量发展。从HBM2到HBM3E,HBM的容量和带宽都 有了显著的提升。容量的提升主要得益于单个die容量密度的提升和堆叠层数的提升。 带宽的提升则主要来自数据传输速率的提升。根据SK Hynix官网,目前,SK Hynix 的HBM3E数据速率最高为9.2Gbps,对应单个封装的带宽为1.18 TB/s,最多可以堆 叠12层,每个DRAM die容量为24 Gb,12Hi堆栈可提供合计36 GB容量。

高位宽是HBM的核心优势。HBM的高带宽主要得益于单个HBM封装具有超宽的 1024 bit位宽,而每个GDDR封装位宽仅为32 bit,因此H100的5颗HBM3的总位宽高 达5120bit,远高于4090 12颗GDDR6X的384bit,在数据速率更低的情况下,配备 HBM3的H100带宽远高于使用GDDR的4090。 HBM4有望2026年进入量产。据Trendforce,下一代HBM4预计将于2026年上市, 规格和能效将进一步提升。HBM4堆栈层数除了现有的12 Hi外,也将往16 Hi发展。 HBM4 12Hi产品预计将于2026年推出;而16Hi产品则预计于2027年问世。此外,受 到规格提升带动,将首次看到HBM最底层的Logic die采用12nm制程wafer。根据SK Hynix官网,SK Hynix已与台积电签署相关合作备忘录。根据美光发布的AI内存路线 图,美光预计将在2026年至2027年间推出容量为36GB至48GB的12层和16层HBM4。 2028年后,将推出HBM4E,将最大带宽推高至2TB/s以上,并将堆栈容量增加到 48GB至64GB。

HBM价值量显著高于传统DRAM,需求持续高企推动原厂积极扩产。据Trendforce, HBM销售单价相较DDR5价差大约五倍。截至2024年底,整体DRAM产业规划生产 HBM TSV的产能约为250K/m,占总DRAM产能(约1,800K/m)约14%,供给位元 年成长约260%。受益于价格较高及快速扩产,Trendforce估计2023年HBM产值占 比DRAM整体约8.4%,至2024年底将扩大至21%。根据Yole,2024年全球HBM市 场规模将达到141亿美元,同比增长超过150%。

(二)HBM 对于 GPU 的推理性能至关重要——以 H20 为例

2023年10月,美国商务部发布更新针对AI芯片的出口管制规定,对出口中国的AI算 力芯片产品的算力、算力密度、带宽等上限提出了明确要求。基于出口管制要求, NVIDIA为中国市场定制了H20、L20等产品。从表观参数来看,H20的FP16、INT8 等主要算力参数仅为A100的不足1/2,更是仅为H100的约1/7;L20的主要算力参数 相较于L40、L40S分别下降约1/3、2/3。这些最新的针对中国市场定制的产品算力 参数被大幅阉割,使得市场大多对其性能表现、性价比持悲观或怀疑态度。我们基 于理论计算,研究了H20、L20等产品在大模型推理端的性能表现;推算结果显示, H20、L20均展现出较优异的推理性能。

H20推理性能优于A100、H100,仅略逊于H200。分别使用单张H20、A100、H100、 H200进行推理,推理场景为:Llama2-13B模型,数据格式FP16,Batch Size=16; 3组输入输出,输入/输出Tokens数量分别为128/3968、512/3584、2048/2048。以 整个推理阶段推理系统平均每秒输出(单位:Tokens/s)作为推理能力衡量标准。 参考图1,在3组推理场景下,H20的推理速度均明显优于A100,;在前两组推理场景 下,H20的推理速度优于H100,第三组推理场景下H20与H100推理速度基本持平。 取三组平均值,H20平均推理速度是A100的1.8倍,是H100的1.1倍。

L20推理性能与L40、L40S基本相同。分别使用单张L40S、L40、L20进行推理,推 理场景为:Llama2-7B模型,数据格式FP16,Batch Size=16;3组输入输出,输入 /输出Tokens数量分别为128/3968、512/3584、2048/2048。以整个推理阶段推理系 统平均每秒输出(单位:Tokens/s)作为推理能力衡量标准。参考图3,在前两组推 理场景中,L40S、L40、L20的推理速度无明显差异;仅在最后一组场景(ISL/OSL 2048/2048)中,L40S推理速度相较于L40、L20优势较明显。取三组平均值,L20 推理速度仅比L40S速度慢约2%。

推理过程分为Prefill环节、Decode两个环节。Prefill阶段算力负载体现在对用户所 有输入Tokens进行一次并行计算;显存带宽负载主要体现在参数量从HBM向算力芯 片的传输。在大多数推理场景下(如输入Tokens较长、或Batch Size较大),Prefill 阶段计算耗时高于显存传输的耗时,因此该环节的耗时(也被称为First token latency) 通常是由算力芯片的算力能力决定,Prefill阶段属于算力密集场景。 参考表13,由于H20的算力较弱,在Prefill环节H20耗时明显高于其他三款芯片。这 也意味着在使用H20进行推理时,用户从完成问题输入、到看到问题第一个文字的 输出,中间需要等待较长时间。

在Prefill阶段结束后,大模型开始生成回答,该过程被称为Decode。由于Decode过 程中,回答的Tokens必须逐个生成,且每个Token生成过程中,都需要重复一次参 数从HBM向算力芯片的传输,且Decode阶段不断扩大的KV Cache也需要在HBM和 算力芯片间往复传输,使得Decode阶段通常显存传输耗时明显高于计算耗时; Decode阶段属于显存带宽密集场景,更高的显存带宽对加速Decode至关重要。 参考表14,由于H20具有较高的显存带宽,在Decode阶段H20每生成1个Token所需 时间低于A100、H100,这也使得H20在整个推理过程具有较高的推理速度。

多数应用场景下,站在H20推理使用用户角度,在输入问题后,等待界面出现第一 个回答文字的等待时间会较长(相较于使用A100/H100/H200进行推理),但考虑到 这一时长也仅为2.8s,对用户使用体验的负面影响是有限的。(备注:实际用户等 待时间还包括网络延迟、用户端侧延迟等) 而在回答开始后,使用H20的用户会体验到回答生成速度较快(相较于使用 A100/H100进行推理),每秒57个Tokens的生成速度明显高于人类阅读速度。(备 注:通常每秒生成20个及以上Tokens就能给用户带来较舒适的在线阅读体验) 站在H20持有人角度,持有人更关心一个推理系统Throughput的速度,因为对相同 一套推理系统或成本相近的不同推理系统,平均Throughput(Tokens/s)越高,意 味着每Token所平摊的系统硬件成本越低。从性价比角度看,假设H20与H100售价 相近,在多数情况下,H20也有望成为性价比更高的推理芯片选择。

(三)国产 HBM 亟待突破

HBM产业链目前主要以海外厂商为主,其中HBM颗粒厂商主要包括海力士、三星和 美光,根据Trendforce数据,2023年三者所占市场份额分别为53%、38%和9%。在 HBM生产环节,HBM的制造技术带动了相关工艺设备的发展,尤其是层间键合和 TSV等关键环节,因HBM颗粒厂商主要以海外厂商为主,大部分半导体设备材料公 司也主要存在于海外市场,如BESI、ASMPT、K&S等设备厂商占据了混合键合、 TCB等先进封装关键设备大部分市场份额,技术处于领先地位。 HBM是AI算力芯片的核心环节,有望成为本土AI算力产业链的重要突破口,本土市 场空间广阔。国内相关厂商有望凭借已有的产业发展基础,加速产业链各环节的技 术突破,提升在HBM市场的份额。


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告
评论
  • 相关文档
  • 相关文章
  • 全部热门
  • 本年热门
  • 本季热门
  • 全部热门
  • 本年热门
  • 本季热门
  • 最新文档
  • 最新精读
分享至