2026年通信行业深度报告：超节点，光、液冷、供电、芯片的全面升级

来源：开源证券
发布时间：2026/01/29
浏览次数：154
举报

相关深度报告REPORTS

通信行业深度报告：超节点，光、液冷、供电、芯片的全面升级.pdf

通信行业深度报告：超节点，光、液冷、供电、芯片的全面升级。超节点：依托网络互联下的“超大型GPU/ASIC”超节点集群（SuperPod）最早由英伟达提出，随着AI模型迭代对算力需求不断增长，集群从千卡扩散至万卡、百万卡等，而扩张方式主要为ScaleUp（纵向扩展）和ScaleOut（横向扩展）两个维度。我们认为构造超节点的核心在于更大的节点内互联，硬件与软件协议需互相适配整合，使得数个分离的算力芯片通过网络互联整合成逻辑上的一台“大型GPU/ASIC”，突破单一8卡服务器在效率、可靠性上的瓶颈。超节点Rack网络互联重点在于Scaleup互联协...

模型发展下的必然，算力基础设施迈入超节点时代

AI 模型加速迭代，从预训练转为多方面 Scaling，对 AI infra 要求持续提升。当前 AI 模型持续迭代，GPT-5、Gemini 3 pro、Deepseek V3.2 等大模型呈现出长序列输入输出、多模态输入/输出、长思维等特点，模型参数持续突破（从千亿级陆续走向万亿级），训练数据量持续扩张（单模型训练数据达 EB 级）。从大语言到多模态，模型参数量提升至万亿级。随着基础大模型参数量从千亿迈向万亿，大模型预训练过程对底层智能算力的诉求进一步升级。头部基础大模型的训练算力需求已达到十万亿兆量级，且仍以每年 4.1 倍的速度快速增长，例如 Qwen3-Max 模型总参数超过 1T，预训练使用 36T tokens；文心 5.0 原生全模态大模型参数量达 2.4T。模型预训练对千卡、万卡算力集群需求愈加迫切。 Scaling Law 泛化至全流程。Scaling Law 从预训练扩展到后训练和逻辑推理全流程，模型不光随着参数量提升而提高性能，还能基于强化学习、思维链等算法创新在后训练和推理阶段更多的算力投入，可以进一步大幅提升大模型的深度思考能力。据 OpenAI 介绍，在开发 OpenAI o3 时在训练计算和推理时间方面都增加了一个数量级，发现了明显的性能提升，验证了模型的性能会随着思考的次数的增长而不断提高，并首次将图片整合到思维链中，算力需求持续提升。

什么是超节点？超节点集群（SuperPod），最早由英伟达提出，随着 AI 模型迭代对算力需求不断增长，集群从千卡扩散至万卡、百万卡等，而扩张方式主要为 Scale Up（纵向扩展）和 Scale Out（横向扩展）两个维度。我们认为，集群的最小单元则是算力芯片处于同一个 HBD（High Bandwidth Domain，高带宽域）的超节点计算柜 Rack，其中 ICT 设备包括 Computer tray（计算节点）、Switch tray（交换节点）、TOR 交换机等，同时需搭配供电、制冷设备等其他设备以确保超节点机柜的运行。

过去算力集群扩张主要采用 Scale-Out 架构，通过以太网连接大量 AI 服务器，以构建千卡、万卡集群，然而随着以 Deepseek 为代表的 MOE 架构，成为可扩展模型的核心架构方向，而大模型分布式训练，使得跨服务器的带宽与时延成为根本瓶颈，制约整体训练效率。而 Scale Up 域互联则是协同多个 GPU、CPU 的算力以及域内互联的内存池，使集群形成逻辑上的“一个超级 GPU”工作，解决“通信墙”问题。

基础设施逐步走向超节点时代： 1、训练侧：随着模型参数规模持续增长，对基础设施集群能力要求日益严苛，单卡 GPU 远不足以承载模型，高带宽域+大内存需求逐步提升，AI 基础设施单卡逐步迈入超节点时代：

（1）单卡阶段（CV 模型主导）：在计算机视觉模型为主的时期，模型可以完全放入单个加速卡中进行训练。此时的并行策略主要是数据并行，单卡的计算能力是主要瓶颈。（2）八卡模组阶段（小参数 NLP 模型主导）：随着 NLP 模型的出现，单卡显存不足以容纳整个模型，训练扩展到单机八卡。此时，数据并行和模型并行结合使用，节点内部的通信带宽成为瓶颈。（3）超节点服务器集群阶段（大模型主导）：当模型参数达到千亿乃至万亿级别，单机已无法满足需求，必须使用大规模服务器集群进行训练，以 GPT4 1.8T 为例，模型部署需要超 10TB 显存占用，远超 GPU 单卡甚至单服务器容量上限。由此业界通过引入序列并行、专家并行等更复杂的并行策略，进行分布式训练，训练集群的总规模（卡数）是数据并行（DP）、张量并行（TP）、流水并行（PP）和序列并行（CP）等多种并行维度的乘积。

2、推理侧：随着模型向稀疏化架构演进，总参数量与专家数量不断增长，推理模式也从单卡单机走向多机大专家并行，随着用户数量持续增长，需同时兼顾多并发需求。语言模型走向多模态/多任务理解和生成，对算力及访存需求变大，此外，模型输入序列长度不断增长，对 KV Cache 缓存提出新挑战。

超节点：依托网络互联下的“超大型 GPU/ASIC”

早期的 scale up 主要是从单卡扩张为 8 卡 GPU 模组，再以 8 卡为一个单元对外扩展，搭配 8 卡 GPU 服务器模组的 AI 服务器，多采用 full mesh 直连拓扑，GPU 之间通过 PCIe 等互联协议直连或通过引入交换芯片方式提高 GPU 点对点的连接带宽。

进入超节点机柜服务器时代，我们认为构造超节点的核心在于更大的节点内互联，硬件与软件协议需互相适配整合，使得数个分离的算力芯片通过网络互联整合成逻辑上的一台“大型 GPU/ASIC”，突破单一 8 卡服务器在效率、可靠性上的瓶颈。超节点 Rack 网络互联重点在于 Scale up 互联协议以及拓扑结构。

2.1、 Scale up 组网架构包括：Fat-tree 胖树拓扑、Mesh 类拓扑、Torus 拓扑等

（1）胖树架构超节点：以一层胖树架构的 scale up 网络的 GB200 NVL72 为例，机柜主要含 18 个 Computer tray，通过 9 个 NVlink Switch tray 将其中的 36 个 Grace CPU和72个 Blackwell GPU整合在一起，形成一个高带宽、低延迟的统一计算单元。 B200 与 NVswitch 的拓扑为 1 层胖树架构，每颗 B200 GPU 支持 18 条 NVLink 5 链路，每条链路双向带宽 100 GB/s，单颗总带宽达到 1800GB/s，72 颗 GPU 形成总带宽为 130TB/s 的全 mesh 网络，所有 GPU 之间实现了点对点的全互联，可以任意访问其他 GPU 的内存空间。通过 NVLink 组成全互联无阻塞架构，减轻因通信延迟导致的计算单元空转造成的算力浪费。通过引入 scale up 交换机可使 GPU 的互联带宽具有带宽池化能力，任意流量模式都可以高效使用 GPU 互联带宽。

若需要进一步扩张超节点 scale up 规模，可采用两层 Clos 拓扑实现更多算力卡互联。以 2 层 Clos 拓扑的 GB200 NVL576 为例，整个网络分为框与系统两个层级，单个框包含 36 个 B200 和 L1 层的 NVSwitch，整个组网包含 16 个框，框间互联由 L2 层 NVSwitch 负责。

此外，由 ODCC 牵头，联合中国信通院、腾讯等发起的国产超节点 ETH-X 项目，采用 RoCE 方案，整机柜 GPU 互联带宽为 204.8Tbps。8 个 Switch Tray 支持 409.6Tbps 的带宽，一半用于超节点柜内连接 GPU，另一半的带宽用于背靠背连接旁边机柜的超节点或者通过 L2 层 HB Switch 做更大的 HBD 域 Scale Up 扩展，该架构适配于物理承重与供电能力受限的机房环境。

（2）Mesh 类架构超节点：Fullmesh 组网下，节点需求随组网规模的增长而增长，为缓解规模扩展的问题，可采用提升拓扑维度 nD-Fullmesh 的方式，优先考虑短程直接互连路径。1D-FullMesh 为最简单的 FullMesh 类拓扑，其组网形态为全互联结构，即任意两个节点都有一条边互联。以 AMD MI350 scale up 网络为例，采用 Infinity Fabric 互联，实现 8 个节点的 MI350 的 Fullmesh 互联；华为通过灵衢协议 UB-Mesh，柜内 64 个 NPU 采用 2Dfullmesh 互联，柜外可采用 3D、4DFullmesh 等更高维度拓扑实现机房级、楼层级、数据中心级互联。

（3）Torus 拓扑超节点：谷歌自研 TPU 芯片采用 2D/3DTorus 架构组网，立方体（Cube）内的 TPU 处理器通过铜互连（铜 ICI）连接，而不同立方体之间则通过光互连实现拼接。以 TPU v4 为例，其超级集群由 64 个 4×4×4 立方体构建块（对应 64 个机架）组成，可组合出最大 8×16×16（2048 颗芯片）的切片；TPU v5p 的最大切片尺寸扩展至 16×16×24（6144 颗芯片）；TPU v7 则进一步支持 9216 颗芯片集群，该架构将故障域缩小至单个立方体，提升系统可靠性。

2.2、 Scale up 协议：从大厂私有逐步走向开源开放

传统 PCIe 互联带宽有限、演进缓慢，难以满足超节点中数据在 HBM 与 HBM、 HBM 与寄存器、寄存器与寄存器之间的高频率传输需求，需要通过其他总线协议实现 XPU 间大带宽、低延时的内存语义通信，支持共享内存模型和统一地址空间。（1）NVLink：NVLink 最初于 2016 年与英伟达 P100 GPU 一同发布，采用多条高速差分信号通道组成链路的方式进行点对点通信，允许同时进行多个数据传输会话，支持 GPU 之间直接进行内存访问，有效提高了数据传输效率，降低通信延迟，每个 NVLink 链路都提供双向数据传输能力，带宽远高于 PCIe，从 P100 的 160GB/s 迭代至 B200 的 1.8TB/s，单卡带宽年复合增长率超 60%。 NVlink 早期相对封闭，厂商难以创新，于 2025 年 5 月，英伟达推出了 NVLink Fusion 开放互连技术方案，允许第三方厂商（例如高通、富士通等）的定制 CPU 或 AI 加速器通过 NVLink 协议与英伟达 GPU/CPU（如 Grace、Blackwell 系列）实现高速互联，通过开放生态策略支持异构计算（如 ASIC 与 GPU 协同）。

（2）UAlink：UAlink 联盟最初成立于 2024 年 5 月，由 AMD、AWS、谷歌、英特尔、博通、Meta、微软等公司共同发起的一项开放式互连标准，后续阿里、苹果等厂商相继加入，成员均可参与开发和采用，从而促进生态系统的创新和丰富。 UAlink 在物理层和链路层同样复用以太网技术，UALink 1.0 支持每通道最高 200 GT/s 的数据传输速率，信令速率高达 212.5GT/s，可配置为单通道（x1）、双通道（x2）或四通道（x4）链路，通过 UALink 交换机（ULS）可连接最多 1024 个加速器或端点组成的整个 POD 上进行 Load / Store 操作。

（3）SUE：博通在 2025 年 4 月正式发布 SUE（Scale Up Ethernet）框架，旨在将以太网的优势引入 AI 系统内部 Scale Up 领域，以太网为基础构建传输层和数据链路层，直接在 XPU 间高效搬运内存事务。在部署模型上，SUE 支持单跳交换拓扑或直接互联的 Mesh 拓扑。每个 SUE 实例可灵活配置端口数（1/2/4 个），例如 800G 实例可拆分为 1×800G、2×400G 或 4×200G 端口，以适应交换机端口密度和冗余需求。单个 XPU 可集成多个 SUE 实例（如 8 或 16 个），通过多实例叠加实现超高带宽（如 64 个 XPU 各配 12 个 800G SUE 时，任意 XPU 对间带宽达 9.6Tbps），以支持大规模数据集处理、深度神经网络训练及并行任务执行。博通于 2025 年 7 月正式发布 Tomahawk Ultra，将传统以太网的报文从 46 字节精简到 10 字节，降低了控制开销，在 51.2 Tbps 全吞吐量下实现 250ns 低交换延迟， XPU 与 XPU 之间（含交换机传输时间）通信延时低于 400ns。SUE 要求端到端往返延迟（RTT）低于 2 微秒，单跳网络最多支持 1024 个 XPU。

（4）UB：华为于 2019 年开始研究灵衢（UnifiedBus），随后发布灵衢 1.0 商用验证，于 2025 年 9 月发布并开放灵衢 2.0 技术规范。UB 协议栈由物理层、数据链路层、网络层、传输层、事务层、功能层以及 UMMU、UBFM（UB Fabric Manager）组成，对于内存交互，UB 支持 UBPU 中的计算单元直接发起同步和异步访存指令，减少控制命令交互，实现百 ns~us 级低时延；对于集群大规模组网，UB 除了支持采用多级 UB Switch 扩展组网之外，还支持通过 UBoE 与以太 Switch 对接，实现融合组网，以及通过 OCS 组网，实现可变拓扑，助力集群规模扩张。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）