2025年AI算力行业专题报告:从英伟达的视角看算力互连板块成长性,Scale Up 网络的“Scaling Law”存在吗?

  • 来源:东吴证券
  • 发布时间:2025/08/21
  • 浏览次数:223
  • 举报
相关深度报告REPORTS

AI算力行业专题报告:从英伟达的视角看算力互连板块成长性,Scale Up 网络的“Scaling Law”存在吗?.pdf

AI算力行业专题报告:从英伟达的视角看算力互连板块成长性,ScaleUp网络的“ScalingLaw”存在吗?我们认为ScaleUp网络存在ScalingLaw,ScaleUp柜间第二层网络会逐渐出现,光+AEC连接多出与芯片1:9的配比需求,交换机多出与芯片4:1的配比需求,相较ScaleOut网络均倍增:1.英伟达持续扩大ScaleUp规模:英伟达正通过两大路径持续扩大ScaleUp网络规模。2)提升单卡带宽:NVLink持续迭代,NVLink5.0单卡带宽达7200Gb/s;2)扩大超节点规模:ScaleUp超节点规模不断扩大,从H100NVL8到GH200再到G...

1. 英伟达持续扩大Scale Up规模

英伟达持续尝试扩大Scale Up规模

英伟达从单卡带宽与超节点规模两个路径升级Scale Up;NVLink跟随每一代GPU架构进行升级,目前最新用于B系列 GPU的NVLink 5.0可支持单卡7.2Tb的带宽,相较用于H100的 NVLink 4.0带宽翻倍; Scale Up超节点规模在H100之后经历了GH200、GB200等方案, 从NVL8拓展至NVL72甚至更高,这个扩展路径是复杂但必需 的。

H100 NVL8到GH200 NVL 256:前瞻但过于激进的一步

英伟达在2023年基于H200发布了GH200 NVL256超节点,后者由32个计算Chassis组成,每个 Chassis由8张GH200组成; Chassis内8张GH200通过L1 NVSwitch连接,32个Chassis间通过L2 NVSwitch连接; L2 NVSwitch通过光连接,每张GPU配套8个800G光模块,大约每7张GPU对应一台L2 NVSwitch; 单张GPU配套Scale Up的通信硬件成本较高与GPU为同一数量级,且训练、推理性能提升尚不明 显,GH200 NVL 256未实现大范围推广,英伟达后续推出成本更低的GB200 NVL72的前身 GH200 NVL32。

GB与VR机柜:有效但并非Scale Up最终形态

GB与VR的机柜方案已经讨论了很多,这里主要阐述我们对这类机柜产品的判断: 机柜方案延续了英伟达在GH200 NVL256上的思路,即除了提升NVLink带宽外,还要提高 Scale Up超节点的规模,升级为机柜方案是为了增加GPU密度,节省物理空间的同时缩小 GPU间连接距离,以使用相比于光连接成本更低的PCB、铜连接; 铜连接、PCB、液冷、电源等都随着GPU密度提高实现单张GPU对应价值量的跃升; 机柜方案实现的NVL72、NVL144等Scale Up确实可以提高训练、推理效率,但并不是英伟 达Scale Up的上限, NVL72、NVL144等机柜方案后续会作为最小的Scale Up节点(Node) 存在,像积木一样在柜与柜之间进一步拼出更大的Scale Up超节点,届时需要光连接等进 行通信。可具体参考后续章节对Scale Up需求的底层逻辑以及趋势的分析。

2. 为什么需要Scale Up网络

Scale Up与Scale out的特点与作用各不相同

若干超节点(SuperPod,如NVL 72)组成集群(Cluster,如万卡、十万卡集群); Scale Out网络实现集群内所有GPU卡互联,亮点在于网络内连接GPU数量大,与传统数 据中心网络类似; Scale Up网络实现超节点内所有GPU卡互联,亮点在于网络内单卡通信带宽高,组网规 模尚小,为AI算力场景下新兴的网络架构; Scale Up并不仅限于柜内,柜外也可进行Scale Up。

“内存墙”问题需要Scale Up网络将显存池化来缓解

训推计算的“内存墙”催生出通过Scale Up网络将显存池化的需求: 单一大模型的参数量与单卡显存的差距(即模型内存墙)、单卡算力与单卡显存间的差距 (即算力内存墙)均逐代放大。除模型参数外,推理计算生成的KV Cache(关键中间值的缓存,用于简化计算)占用显存 大小也可达模型的50%甚至以上。 因此单卡运算时需从多张卡的显存读取所需参数、数据,为了尽可能减少数据传输时延, 目前产业化应用最优解是使用Scale Up网络将显存池化,如NVL72。

AI训推计算范式推动Scale Up升级、单卡带宽提升

AI训推需要分布式并行计算,基于对计算效率不断提升的追求,并行计算方式有数据并行(DataParallelism)、流水线并行(Pipeline Parallelism)、专家并行(MoE Parallelism )及张量并行 (Tensor Parallelism)。 数据并行:将输入数据分配给各个负载,各负载上基于不同数据进行同一模型的训练/推理; 流水线并行:将模型分为若干层分配给各个负载,各负载分别进行不同层的计算; 张量并行:将模型参数运算的矩阵拆分为子矩阵传输至各个负载,各负载分别进行不同的矩阵运算。

张量并行可优化计算效率

目前模型训推主要采用混合并行,即多种并行方式同时进行,可从不同维度切分/编组进行并行 。张量并行、专家并行是粒度更细的并行方式,更高效利用单张芯片配套内存,因此可以明显提升计算效率。

3. 为什么需要更大的Scale Up网络

Scale Up可加速推理,且增益随推理负载提升而扩大

我们认为Scale Up规模越大,集群算力有效利用率往往越高,且随着单用户推理负载增加,增益 会越来越大,这里以GB200 NVL72、B200 NVL8的对比为例。测试配置:各类方案都是基于33000张GPU的Scale Out集群进行测试,GB200 NVL72采用了 NVL72 Scale Up超节点、Grace CPU、FP4精度,B200 NVL8采用了NVL8 Scale Up超节点、Intel Xeon CPU、FP8精度,因此精度优化可为GB200 NVL72直接带来1倍单卡性能提升; 模型:GPT MoE 1.8T模型,采用混合并行推理(最多64维并行),FTL=5s,TTL=50ms, input/output长度分别为32768 /1024; 坐标轴含义:横轴代表单用户每秒收到的Token数(Tokens Per Second,TPS),亦即用户体验或 模型推理的实际输出能力;纵轴代表集群内每张GPU每秒输出的Token数,亦即推理时单张卡的 实际性能或有效利用程度;  每条曲线每点对应各单用户TPS下,所有混合并行方案及Chunk Size组合中单卡性能最大值。 可以初步观测到横纵坐标成反比,主要原因为单用户TPS提升后需要在单位时间内用更多GPU输 出更多Token,通信阻塞变大,GPU等待数据传输的时间增加,利用率下降。

在单用户TPS为10 Tokens/s时,GB200 NVL72的单卡实际性能约为B200 NVL8的3倍,考虑FP4精 度优化带来的约1倍提升后,Scale Up+Grace CPU带来约50%的性能提升; 在单用户TPS为20 Tokens/s时,GB200 NVL72的单卡实际性能约为B200 NVL8的7倍,考虑FP4精 度优化带来的约1倍提升后,Scale Up+Grace CPU带来约250%的性能提升; 我们认为随着单用户TPS增加,Scale Up带来的单卡利用率增益会越来越大。

NVL72、144不是推理Scale Up的上限

我们认为机柜对应的NVL72、NVL144等方案并不是Scale Up超节点的上限,机柜会像积木一样 进一步拼出更大的超节点,这主要来自硬件TCO、用户体验、模型能力拓展三层因素; 当单用户TPS沿横轴提高到50 Tokens/s时,B200 NVL8、H200 NVL8的单卡真实性能已经没有实 际意义,GB200 NVL72仍有70 Tokens/s的单卡TPS,但已相较最大性能缩减50%; 要继续提高纵轴单卡性能,我们认为除了在软件层面引入新的推理引擎,如英伟达Dynamo外, 还需提升Scale Up规模,以及增加混合并行线路数。

组建更大Scale Up网络的TCO优于堆更多GPU

基于以上分析与结论,我们认为在前图中横轴单用户TPS达到某一个数值时(很可能在100 tokens/s之前),GB200 NVL576的单卡TPS可做到GB200 NVL72的两倍,且单用户TPS继续增长 时,性能差距会进一步扩大,这时可选择两种方案:1)继续采用NVL72 或 2)采用NVL576, 投入更多网络成本以提高单GPU有效利用率: GB200 NVL72需每两颗B200实现对标性能 。 GB200 NVL576在柜内L1 NVSwitch基础上再加一层L2 NVSwitch,每颗GPU需多接9个 1.6T端口(可光可电),每4颗GPU多出一台NVSwitch 。 NVL576方案TCO更优,且单用户TPS继续提升后,TCO的优势还将随着单卡性能差距持续扩大。

4. 怎么组建更大的Scale Up网络

网络架构:柜外搭建第二层Scale Up交换机网络

英伟达的机柜中加入了一层NVSwitch, 以GB200 NVL72为例,单颗B200 NVLink带宽7.2Tb (单向带宽,下同),9个Switch Tray总带宽57.6Tb×9=518.4T,刚好与72颗B200进行无阻 塞通信,这意味着如果在柜内继续增加GPU,需要同步增加配套Switch Tray,需要的物理空 间和距离增加。因此我们认为在GB机柜使用铜连接,VR机柜有望增加PCB后,柜内扩展难 度增加,需要增加第二层交换机做柜间Scale Up; 对于NVL72而言,则需要改为NVL36×2以使得第一层Switch Tray翻倍至18个,以提供连接 至第二层NVSwitch的上行带宽。

连接方式:第二层Scale Up网络中光与AEC并存

在单通道200G速率下,无源铜(如DAC)的有效距离上限在1m左右,因此基本无法满足跨 柜Scale Up的连接需求,有源铜(如AEC)的有效距离上限在3米左右,因此可满足部分跨柜 Scale Up的连接需求,光(如AOC、光模块)可满足所有跨柜Scale Up的连接距离要求; 我们认为“能用铜的地方就不会用光”,在第二层柜间Scale Up场景会有光与AEC并存。

连接方式:第二层Scale Up网络带来的网络增量需求有多少

按照最新的NVLink 与IB标准测算,第二层Scale Up网络中1颗GPU需要9个额外的等效1.6T 连接(等于第一层),每4颗GPU需要额外1台NVLink 5.0交换机;两到三层Scale Out中1颗 GPU对应2-3个等效1.6T连接,每30-48颗GPU对应一台Quantum-X800 Q34xx系列交换机。 目前Scale Up与Scale Out并存,其最终形态是做到与Scale Out相近的规模后取代Scale out,但 需要考虑到在成本与物理空间维度都数倍增长的网络连接。

连接方式:潜在技术路线适用于Scale Up吗?

我们认为CPO、OCS等潜在的新技术在Scale Up中的应用会比Scale Out更难,这些新技术 在Scale Out中规模化应用后,对它们在Scale Up中应用可能性的讨论才有实际意义。

报告节选:


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告
评论
  • 相关文档
  • 相关文章
  • 全部热门
  • 本年热门
  • 本季热门
  • 全部热门
  • 本年热门
  • 本季热门
  • 最新文档
  • 最新精读
分享至