2026年通信行业深度报告:超节点,光、液冷、供电、芯片的全面升级
- 来源:开源证券
- 发布时间:2026/01/29
- 浏览次数:154
- 举报
通信行业深度报告:超节点,光、液冷、供电、芯片的全面升级.pdf
通信行业深度报告:超节点,光、液冷、供电、芯片的全面升级。超节点:依托网络互联下的“超大型GPU/ASIC”超节点集群(SuperPod)最早由英伟达提出,随着AI模型迭代对算力需求不断增长,集群从千卡扩散至万卡、百万卡等,而扩张方式主要为ScaleUp(纵向扩展)和ScaleOut(横向扩展)两个维度。我们认为构造超节点的核心在于更大的节点内互联,硬件与软件协议需互相适配整合,使得数个分离的算力芯片通过网络互联整合成逻辑上的一台“大型GPU/ASIC”,突破单一8卡服务器在效率、可靠性上的瓶颈。超节点Rack网络互联重点在于Scaleup互联协...
模型发展下的必然,算力基础设施迈入超节点时代
AI 模型加速迭代,从预训练转为多方面 Scaling,对 AI infra 要求持续提升。当 前 AI 模型持续迭代,GPT-5、Gemini 3 pro、Deepseek V3.2 等大模型呈现出长序列 输入输出、多模态输入/输出、长思维等特点,模型参数持续突破(从千亿级陆续走 向万亿级),训练数据量持续扩张(单模型训练数据达 EB 级)。 从大语言到多模态,模型参数量提升至万亿级。随着基础大模型参数量从千亿 迈向万亿,大模型预训练过程对底层智能算力的诉求进一步升级。头部基础大模型 的训练算力需求已达到十万亿兆量级,且仍以每年 4.1 倍的速度快速增长,例如 Qwen3-Max 模型总参数超过 1T,预训练使用 36T tokens;文心 5.0 原生全模态大模 型参数量达 2.4T。模型预训练对千卡、万卡算力集群需求愈加迫切。 Scaling Law 泛化至全流程。Scaling Law 从预训练扩展到后训练和逻辑推理全流 程,模型不光随着参数量提升而提高性能,还能基于强化学习、思维链等算法创新 在后训练和推理阶段更多的算力投入,可以进一步大幅提升大模型的深度思考能力。 据 OpenAI 介绍,在开发 OpenAI o3 时在训练计算和推理时间方面都增加了一个数量 级,发现了明显的性能提升,验证了模型的性能会随着思考的次数的增长而不断提 高,并首次将图片整合到思维链中,算力需求持续提升。

什么是超节点?超节点集群(SuperPod),最早由英伟达提出,随着 AI 模型迭 代对算力需求不断增长,集群从千卡扩散至万卡、百万卡等,而扩张方式主要为 Scale Up(纵向扩展)和 Scale Out(横向扩展)两个维度。我们认为,集群的最小单元则 是算力芯片处于同一个 HBD(High Bandwidth Domain,高带宽域)的超节点计算柜 Rack,其中 ICT 设备包括 Computer tray(计算节点)、Switch tray(交换节点)、TOR 交换机等,同时需搭配供电、制冷设备等其他设备以确保超节点机柜的运行。
过去算力集群扩张主要采用 Scale-Out 架构,通过以太网连接大量 AI 服务器, 以构建千卡、万卡集群,然而随着以 Deepseek 为代表的 MOE 架构,成为可扩展模 型的核心架构方向,而大模型分布式训练,使得跨服务器的带宽与时延成为根本瓶 颈,制约整体训练效率。而 Scale Up 域互联则是协同多个 GPU、CPU 的算力以及域 内互联的内存池,使集群形成逻辑上的“一个超级 GPU”工作,解决“通信墙”问 题。
基础设施逐步走向超节点时代: 1、训练侧:随着模型参数规模持续增长,对基础设施集群能力要求日益严苛, 单卡 GPU 远不足以承载模型,高带宽域+大内存需求逐步提升,AI 基础设施单卡逐 步迈入超节点时代:
(1)单卡阶段(CV 模型主导):在计算机视觉模型为主的时期,模型可以完全 放入单个加速卡中进行训练。此时的并行策略主要是数据并行,单卡的计算能力是 主要瓶颈。 (2)八卡模组阶段(小参数 NLP 模型主导):随着 NLP 模型的出现,单卡显存 不足以容纳整个模型,训练扩展到单机八卡。此时,数据并行和模型并行结合使用, 节点内部的通信带宽成为瓶颈。 (3)超节点服务器集群阶段(大模型主导):当模型参数达到千亿乃至万亿级 别,单机已无法满足需求,必须使用大规模服务器集群进行训练,以 GPT4 1.8T 为 例,模型部署需要超 10TB 显存占用,远超 GPU 单卡甚至单服务器容量上限。由此 业界通过引入序列并行、专家并行等更复杂的并行策略,进行分布式训练,训练集 群的总规模(卡数)是数据并行(DP)、张量并行(TP)、流水并行(PP)和序列并 行(CP)等多种并行维度的乘积。

2、推理侧:随着模型向稀疏化架构演进,总参数量与专家数量不断增长,推理 模式也从单卡单机走向多机大专家并行,随着用户数量持续增长,需同时兼顾多并 发需求。语言模型走向多模态/多任务理解和生成,对算力及访存需求变大,此外, 模型输入序列长度不断增长,对 KV Cache 缓存提出新挑战。
超节点:依托网络互联下的“超大型 GPU/ASIC”
早期的 scale up 主要是从单卡扩张为 8 卡 GPU 模组,再以 8 卡为一个单元对外 扩展,搭配 8 卡 GPU 服务器模组的 AI 服务器,多采用 full mesh 直连拓扑,GPU 之 间通过 PCIe 等互联协议直连或通过引入交换芯片方式提高 GPU 点对点的连接带宽。
进入超节点机柜服务器时代,我们认为构造超节点的核心在于更大的节点内互 联,硬件与软件协议需互相适配整合,使得数个分离的算力芯片通过网络互联整合 成逻辑上的一台“大型 GPU/ASIC”,突破单一 8 卡服务器在效率、可靠性上的瓶颈。 超节点 Rack 网络互联重点在于 Scale up 互联协议以及拓扑结构。
2.1、 Scale up 组网架构包括:Fat-tree 胖树拓扑、Mesh 类拓扑、Torus 拓扑等
(1)胖树架构超节点:以一层胖树架构的 scale up 网络的 GB200 NVL72 为例, 机柜主要含 18 个 Computer tray,通过 9 个 NVlink Switch tray 将其中的 36 个 Grace CPU和72个 Blackwell GPU整合在一起,形成一个高带宽、低延迟的统一计算单元。 B200 与 NVswitch 的拓扑为 1 层胖树架构,每颗 B200 GPU 支持 18 条 NVLink 5 链路,每条链路双向带宽 100 GB/s,单颗总带宽达到 1800GB/s,72 颗 GPU 形成总 带宽为 130TB/s 的全 mesh 网络,所有 GPU 之间实现了点对点的全互联,可以任意 访问其他 GPU 的内存空间。通过 NVLink 组成全互联无阻塞架构,减轻因通信延迟 导致的计算单元空转造成的算力浪费。通过引入 scale up 交换机可使 GPU 的互联带 宽具有带宽池化能力,任意流量模式都可以高效使用 GPU 互联带宽。

若需要进一步扩张超节点 scale up 规模,可采用两层 Clos 拓扑实现更多算力卡 互联。以 2 层 Clos 拓扑的 GB200 NVL576 为例,整个网络分为框与系统两个层级, 单个框包含 36 个 B200 和 L1 层的 NVSwitch,整个组网包含 16 个框,框间互联由 L2 层 NVSwitch 负责。
此外,由 ODCC 牵头,联合中国信通院、腾讯等发起的国产超节点 ETH-X 项目, 采用 RoCE 方案,整机柜 GPU 互联带宽为 204.8Tbps。8 个 Switch Tray 支持 409.6Tbps 的带宽,一半用于超节点柜内连接 GPU,另一半的带宽用于背靠背连接 旁边机柜的超节点或者通过 L2 层 HB Switch 做更大的 HBD 域 Scale Up 扩展,该 架构适配于物理承重与供电能力受限的机房环境。
(2)Mesh 类架构超节点:Fullmesh 组网下,节点需求随组网规模的增长而增 长,为缓解规模扩展的问题,可采用提升拓扑维度 nD-Fullmesh 的方式,优先考虑短 程直接互连路径。1D-FullMesh 为最简单的 FullMesh 类拓扑,其组网形态为全互联 结构,即任意两个节点都有一条边互联。以 AMD MI350 scale up 网络为例,采用 Infinity Fabric 互联,实现 8 个节点的 MI350 的 Fullmesh 互联;华为通过灵衢协议 UB-Mesh,柜内 64 个 NPU 采用 2Dfullmesh 互联,柜外可采用 3D、4DFullmesh 等更 高维度拓扑实现机房级、楼层级、数据中心级互联。
(3)Torus 拓扑超节点:谷歌自研 TPU 芯片采用 2D/3DTorus 架构组网,立方 体(Cube)内的 TPU 处理器通过铜互连(铜 ICI)连接,而不同立方体之间则通过 光互连实现拼接。以 TPU v4 为例,其超级集群由 64 个 4×4×4 立方体构建块(对 应 64 个机架)组成,可组合出最大 8×16×16(2048 颗芯片)的切片;TPU v5p 的 最大切片尺寸扩展至 16×16×24(6144 颗芯片);TPU v7 则进一步支持 9216 颗芯 片集群,该架构将故障域缩小至单个立方体,提升系统可靠性。

2.2、 Scale up 协议:从大厂私有逐步走向开源开放
传统 PCIe 互联带宽有限、演进缓慢,难以满足超节点中数据在 HBM 与 HBM、 HBM 与寄存器、寄存器与寄存器之间的高频率传输需求,需要通过其他总线协议实 现 XPU 间大带宽、低延时的内存语义通信,支持共享内存模型和统一地址空间。 (1)NVLink:NVLink 最初于 2016 年与英伟达 P100 GPU 一同发布,采用多 条高速差分信号通道组成链路的方式进行点对点通信,允许同时进行多个数据传输 会话,支持 GPU 之间直接进行内存访问,有效提高了数据传输效率,降低通信延迟, 每个 NVLink 链路都提供双向数据传输能力,带宽远高于 PCIe,从 P100 的 160GB/s 迭代至 B200 的 1.8TB/s,单卡带宽年复合增长率超 60%。 NVlink 早期相对封闭,厂商难以创新,于 2025 年 5 月,英伟达推出了 NVLink Fusion 开放互连技术方案,允许第三方厂商(例如高通、富士通等)的定制 CPU 或 AI 加速器通过 NVLink 协议与英伟达 GPU/CPU(如 Grace、Blackwell 系列)实现 高速互联,通过开放生态策略支持异构计算(如 ASIC 与 GPU 协同)。
(2)UAlink:UAlink 联盟最初成立于 2024 年 5 月,由 AMD、AWS、谷歌、 英特尔、博通、Meta、微软等公司共同发起的一项开放式互连标准,后续阿里、苹 果等厂商相继加入,成员均可参与开发和采用,从而促进生态系统的创新和丰富。 UAlink 在物理层和链路层同样复用以太网技术,UALink 1.0 支持每通道最高 200 GT/s 的数据传输速率,信令速率高达 212.5GT/s,可配置为单通道(x1)、双通道(x2) 或四通道(x4)链路,通过 UALink 交换机(ULS)可连接最多 1024 个加速器或端 点组成的整个 POD 上进行 Load / Store 操作。
(3)SUE:博通在 2025 年 4 月正式发布 SUE(Scale Up Ethernet)框架,旨在 将以太网的优势引入 AI 系统内部 Scale Up 领域,以太网为基础构建传输层和数据 链路层,直接在 XPU 间高效搬运内存事务。在部署模型上,SUE 支持单跳交换拓扑 或直接互联的 Mesh 拓扑。每个 SUE 实例可灵活配置端口数(1/2/4 个),例如 800G 实例可拆分为 1×800G、2×400G 或 4×200G 端口,以适应交换机端口密度和冗 余需求。单个 XPU 可集成多个 SUE 实例(如 8 或 16 个),通过多实例叠加实现超 高带宽(如 64 个 XPU 各配 12 个 800G SUE 时,任意 XPU 对间带宽达 9.6Tbps), 以支持大规模数据集处理、深度神经网络训练及并行任务执行。 博通于 2025 年 7 月正式发布 Tomahawk Ultra,将传统以太网的报文从 46 字节 精简到 10 字节,降低了控制开销,在 51.2 Tbps 全吞吐量下实现 250ns 低交换延迟, XPU 与 XPU 之间(含交换机传输时间)通信延时低于 400ns。SUE 要求端到端往返 延迟(RTT)低于 2 微秒,单跳网络最多支持 1024 个 XPU。
(4)UB:华为于 2019 年开始研究灵衢(UnifiedBus),随后发布灵衢 1.0 商用 验证,于 2025 年 9 月发布并开放灵衢 2.0 技术规范。UB 协议栈由物理层、数据链 路层、网络层、传输层、事务层、功能层以及 UMMU、UBFM(UB Fabric Manager) 组成,对于内存交互,UB 支持 UBPU 中的计算单元直接发起同步和异步访存指令, 减少控制命令交互,实现百 ns~us 级低时延;对于集群大规模组网,UB 除了支持采 用多级 UB Switch 扩展组网之外,还支持通过 UBoE 与以太 Switch 对接,实现融合 组网,以及通过 OCS 组网,实现可变拓扑,助力集群规模扩张。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
- 沙利文咨询:2025全球通信站点储能系统白皮书.pdf
- 各国电信-信息通信技术的经济问题.pdf
- 通信行业AI电源专题:AI能耗高速增长引发电源架构重要变革.pdf
- 通信设备行业ESG白皮书.pdf
- 通信服务行业ESG白皮书.pdf
- 一文看懂产业链:存储芯片本轮涨价能走多远?.pdf
- 存储芯片行业:存储芯片本轮涨价能走多远?一文看懂产业链.pdf
- 电子行业深度报告:2026年端侧AI产业深度,应用迭代驱动终端重构,见证端侧SoC芯片的价值重估与位阶提升.pdf
- 百度集团_SW港股公司深度报告:AI全栈布局,云+芯片+Robotaxi有望驱动价值重估.pdf
- 半导体行业2月投资策略:存储价格保持强势,模拟芯片周期向上.pdf
- 专用设备行业:AI算力驱动散热架构升级,液冷一次侧设备迎来价值重估——AIDC液冷深度报告.pdf
- 新材料——散热材料行业深度报告(一):AIGC与新能源驱动液冷散热景气上行.pdf
- 英维克首次覆盖深度报告:国内温控龙头,AI时代液冷前景广阔.pdf
- 2025年液冷全产业链解析:AI时代散热革命,各环节下的价值拆解.pdf
- 德昌电机控股公司研究报告:车用电机龙头,AIDC液冷+机器人开启成长新曲线.pdf
- 相关文档
- 相关文章
- 全部热门
- 本年热门
- 本季热门
- 1 国网信通(600131)研究报告:国网系信息通信服务商,云网融合优势突出.pdf
- 2 5G大产业机遇深度解析(115页PPT).pdf
- 3 5G行业发展最新进展研究报告(45页PPT).pdf
- 4 射频前端滤波器产业105页深度研究报告
- 5 光模块行业深度报告:产业拐点+市场共振.pdf
- 6 中国UWB定位技术企业级应用市场调研(2019 版).pdf
- 7 国家电网:被忽略的5G网络建设方、使用方、运营商.pdf
- 8 物联网产业104页深度研究报告:物联网研究框架与投资机会分析
- 9 车联网产业链深度研究:大幕开启,科技新基建先行.pdf
- 10 光模块专题报告:电信与数通共振,光模块迎高景气.pdf
- 1 2025低空经济场景应用与通信需求白皮书.pdf
- 2 通信行业分析:硅光加速渗透拐点已至.pdf
- 3 通信行业专题报告:国防信息化与智能化建设有望提速,关注板块修复机会.pdf
- 4 光通信行业深度:驱动因素、发展趋势、产业链及相关公司深度梳理.pdf
- 5 通信运营商专题:2024年业绩总结与云计算业务重估.pdf
- 6 通信行业专题报告:数据中心互联技术专题五,液冷—智算中心散热核心技术.pdf
- 7 仕佳光子研究报告:AI驱动光通信技术升级,AWG、MPO打开成长空间.pdf
- 8 政策与产业共振,卫星通信板块迎“奇点时刻”.pdf
- 9 通信行业专题研究:DeepSeek算力效率提升≠算力通缩,国产算力需求方兴未艾.pdf
- 10 通信行业专题报告:光铜共进,AEC等或受益于AI高速短距连接需求.pdf
- 1 政策与产业共振,卫星通信板块迎“奇点时刻”.pdf
- 2 通信行业光通信系列报告一:AI需求与产品高端化,共驱光模块市场增长新周期.pdf
- 3 通信行业深度:无光不AI,硅基光电子引爆新一轮算力革命.pdf
- 4 光通信行业系列报告二:光电共封装重构算力互连架构,CPO开启高密度高能效新时代.pdf
- 5 通信行业深度报告:超节点,光、液冷、供电、芯片的全面升级.pdf
- 6 通信行业深度报告:超节点:光、液冷、供电、芯片的全面升级.pdf
- 7 通信行业:AI强者恒强,卫星拐点已至.pdf
- 8 2026年通信行业年度投资策略:AI基建与应用加速,卫星互联趋势明显.pdf
- 9 光通信行业深度:驱动因素、发展趋势、产业链及相关公司深度梳理.pdf
- 10 移远通信深度报告:从连接模组到智能生态,领军5G_A与AI时代.pdf
- 全部热门
- 本年热门
- 本季热门
- 1 2026年通信行业AI电源专题:AI能耗高速增长引发电源架构重要变革
- 2 2026年通信·行业专题报告:数据中心互联技术专题,AI变革推动OCS新技术快速发展
- 3 2026年通信行业专题报告:商业航天快速发展,火箭及卫星制造率先受益
- 4 2026年通信设备行业“液冷加速度”系列报告三:液冷0→1后,从头部厂商表现再看行业变化
- 5 2026年通信行业端侧AI崛起:场景化硬件重构人机交互,引爆产业链新机遇
- 6 2026年通信行业:光纤行业迎来景气周期
- 7 2026年通信行业投资策略:谷歌TPU v7与OCS光交换,架构革新与产业链机遇
- 8 2026年通信行业投资策略:商业航天建设期主线确立,AI算力提供景气强化
- 9 2026年光通信行业深度:驱动因素、发展趋势、产业链及相关公司深度梳理
- 10 2026年通信行业:云厂商大幅提升资本开支预期推动AI建设,量子计算产业进入发展新阶段
- 1 2026年通信行业AI电源专题:AI能耗高速增长引发电源架构重要变革
- 2 2026年通信·行业专题报告:数据中心互联技术专题,AI变革推动OCS新技术快速发展
- 3 2026年通信行业专题报告:商业航天快速发展,火箭及卫星制造率先受益
- 4 2026年通信设备行业“液冷加速度”系列报告三:液冷0→1后,从头部厂商表现再看行业变化
- 5 2026年通信行业端侧AI崛起:场景化硬件重构人机交互,引爆产业链新机遇
- 6 2026年通信行业:光纤行业迎来景气周期
- 7 2026年通信行业投资策略:谷歌TPU v7与OCS光交换,架构革新与产业链机遇
- 8 2026年通信行业投资策略:商业航天建设期主线确立,AI算力提供景气强化
- 9 2026年光通信行业深度:驱动因素、发展趋势、产业链及相关公司深度梳理
- 10 2026年通信行业:云厂商大幅提升资本开支预期推动AI建设,量子计算产业进入发展新阶段
- 1 2026年通信行业AI电源专题:AI能耗高速增长引发电源架构重要变革
- 2 2026年通信·行业专题报告:数据中心互联技术专题,AI变革推动OCS新技术快速发展
- 3 2026年通信行业专题报告:商业航天快速发展,火箭及卫星制造率先受益
- 4 2026年通信设备行业“液冷加速度”系列报告三:液冷0→1后,从头部厂商表现再看行业变化
- 5 2026年通信行业端侧AI崛起:场景化硬件重构人机交互,引爆产业链新机遇
- 6 2026年通信行业:光纤行业迎来景气周期
- 7 2026年通信行业投资策略:谷歌TPU v7与OCS光交换,架构革新与产业链机遇
- 8 2026年通信行业投资策略:商业航天建设期主线确立,AI算力提供景气强化
- 9 2026年光通信行业深度:驱动因素、发展趋势、产业链及相关公司深度梳理
- 10 2026年通信行业:云厂商大幅提升资本开支预期推动AI建设,量子计算产业进入发展新阶段
- 最新文档
- 最新精读
- 1 2026年中国医药行业:全球减重药物市场,千亿蓝海与创新迭代
- 2 2026年银行自营投资手册(三):流动性监管指标对银行投资行为的影响(上)
- 3 2026年香港房地产行业跟踪报告:如何看待本轮香港楼市复苏的本质?
- 4 2026年投资银行业与经纪业行业:复盘投融资平衡周期,如何看待本轮“慢牛”的持续性?
- 5 2026年电子设备、仪器和元件行业“智存新纪元”系列之一:CXL,互联筑池化,破局内存墙
- 6 2026年银行业上市银行Q1及全年业绩展望:业绩弹性释放,关注负债成本优化和中收潜力
- 7 2026年区域经济系列专题研究报告:“都”与“城”相融、疏解与协同并举——现代化首都都市圈空间协同规划详解
- 8 2026年历史6轮油价上行周期对当下交易的启示
- 9 2026年国防军工行业:商业航天革命先驱Starlink深度解析
- 10 2026年创新引领,AI赋能:把握科技产业升级下的投资机会
