2026年超节点与Scale up网络行业:谷歌、AMD、国产超节点持续发力,打破英伟达独大格局
- 来源:东兴证券
- 发布时间:2026/03/04
- 浏览次数:94
- 举报
超节点与Scale up网络行业:谷歌、AMD、国产超节点持续发力,打破英伟达独大格局.pdf
超节点与Scaleup网络行业:谷歌、AMD、国产超节点持续发力,打破英伟达独大格局。超节点与Scale-up网络是突破算力与通信瓶颈、支撑万亿级大模型与高实时性应用的关键基础设施。本篇超节点与Scaleup网络行业深度报告,详细研究英伟达、谷歌、AMD以及华为四家头部AI算力芯片厂商在此领域的布局进展以及各自优势。我们认为,超节点与Scale-up网络正处于快速发展期,并将成为算力芯片、网络部件(PCB板、交换芯片、光器件、高速铜缆)、存储部件、供电和散热设施部件等新兴技术的重要应用市场。(1)英伟达:超节点领先优势建立在NVLink和NVLinkSwitch。在超节点技术方案上,英伟达处于...
LLM 训练要求高带宽与延迟,驱动超节点成为 AI 算力网络创新方向
大语言模型(LLM)参数规模从千亿级向万亿级乃至十万亿级演进,跨服务器张量并行(TP)成为必然选择; 此外混合专家(MoE)模型在 Transformer 架构 LLM 中的规模化应用,更使跨服务器专家并行(EP)成为 分布式训练和推理的关键技术需求。为应对 TP 和 EP 对网络带宽与延迟的极为严苛的要求,构建超高带宽、 超低延迟的 Scale up 网络(纵向扩张网络)成为业界主流技术路径。

根据阿里云给出的定义为:Scale up 是在一定范围内,于成本和互联技术约束下实现的超高带宽互联。其 范围固定且带宽是 Scale out 的数倍以上,可在协议层面优化以支持内存语义。我们对 Scale up 网络与 Scale out 网络特点对比如下: Scale up(左)vs Scale out(右)。 算力规模:数十卡至千卡级 vs 万卡至十万卡级; 资源利用率:80%以上 vs 30%-50%; 通信延迟:百纳秒级 vs 微秒级; 内存访问:统一内存或全局地址空间 vs 独立内存空间; 标准化:定制化程度高 vs 基于开放网络标准,相对统一。
超节点主要由计算节点、交换节点和 Scale-up 网络互联构成。通过 Scale up 网络,可将几十、上百甚至上 千张 XPU 高速互联构建为超节点(SuperPoD),像一台超级 XPU 服务器一样实现高效的计算和通信协同 能力。 其中 Scale up 网络互联是超节点的核心要素。Scale up 网络互联方案直接影响超节点系统的功耗、散热、 成本、规模、可靠性和可维护性等关键指标。目前主流的互联方案有铜缆互联和光纤互联两大类:
铜缆互联方案(如英伟达的 NVL72 超节点及 NVSwitch Scale-Up 网络采用的 DAC 即无源铜缆技术) 具有功耗低、成本低、可靠性高的明显优势。不过,受限于铜缆的信号传输距离,单个超节点的规模较 小,目前商用的英伟达 NVL72 超节点最大支持 72 张 XPU 卡。
光纤互联方案(如华为的 CloudMatrix384 超节点及 Unified Bus (UB)Scale-Up 网络采用的 AOC 技术) 则突破铜缆距离限制,超节点规模可以做的更大,目前商用的华为 CloudMatrix384 超节点可支持多达 384 张 XPU 卡,但这种互联技术方案也存在明显短板,如光模块功耗大,成本高,故障率高。
目前英伟达、谷歌、AMD 以及华为四家头部 AI 算力芯片厂商均推出各自的 Scale up 协议。英伟达在 AI 数 据中心的 Scale up 网络中采用自研的 NVLink 高速互连技术;AMD 与 AWS、思科、谷歌等公司组成超以太 网联盟(UALink);Google 采用私有 ICI 协议,机柜之间运用 OCS 光交换技术;华为推出自研的灵衢协议 技术(UB)。
Scale up 网络主要有两个技术方向。一是封闭的私有技术方向,以英伟达、Google 为典型代表,二者均采 用专有协议:NVLink 仅向第三方半开放 CPU/Chiplet 接入权限;Google ICI Link 则服务于自研 TPU 集群; 二是基于 Ethernet 的开放技术方向,以各大互联网和云计算公司以及一些 GPU 芯片公司为代表。开放标准 以 UALink 和华为灵衢为代表,UALink 基于标准以太网组件打造开放互联协议,华为灵衢协议从 2.0 版本起 转向开放标准。目前两者均处于生态建设初期。

英伟达:超节点领先优势建立在 NVLink 和 NVLink Switch
2.1 Scale up 网络核心技术:NVLink 与 NVLink 交换机
NVLink 与 NVLink 交换机是英伟达构建单机柜 Scale up 网络的核心技术组合。二者协同演进,从早期点对 点互联发展到如今全互联通信,并支持多代 GPU 架构算力芯片。2026 年 1 月,英伟达发布第六代 NVLink 以及 NVLink 交换机,两者支持最新的 Rubin 架构。从性能指标看,第六代 NVLink 交换机支持的 GPU-to-GPU 通信带宽为 3.6TB/s;在 VR NVL72 系统中提供 260TB/s 聚合带宽。其中每 GPU 的 NVLink 带宽保持不变, 与 NVLink5.0 一致,仍为 100GB/s。
NVLink 重新设计通信架构,推出网状拓扑理念。为实现 AI 训练集群高带宽与低延迟数据传输,NVLink 允 许 GPU 之间形成多对多的直接通信网络,每个 GPU 都可以同时与多个其他 GPU 建立高速通信链路。NVLink 协议创新如下: 在物理层面,NVLink 采用差分信号传输技术,具有高带宽和高抗干扰性能。每个链路由多对差分信号线组成, 每对信号线负责传输一个方向的数据。SerDes 模块是 NVLink 物理层的核心组件,负责将并行数据转换为高 速串行流,并在接收端进行反向转换。NVLink 的 SerDes 设计采用时钟数据恢复技术,以及集成复杂的自适 应均衡电路。 在链路层,NVLink 定义多种类型的符号,包括数据符号、控制符号和填充符号,实现复杂的通信协议功能; 设计精细的信用机制,实现不同优先级的流量调度。 除此之外,NVLink 其他创新之处包括多 Lane 绑定技术、统一内存空间等。
NVSwitch 是实现 Scale up 网络复杂交换的关键设备。 早期的 NVLink 实现主要采用点对点连接模式,GPU 之间通过直接的串行链路进行通信。当系统包含多个 GPU 时,点对点模式的连接复杂度呈平方级增长。 作为专门的交换芯片,NVSwitch 可以提供多端口的高速交换能力。NVLink 的交换网络采用多阶 Clos 网络 架构,Clos 网络通过多级交换结构实现输入端口到输出端口的任意连接。

2.2 GB200 NVL72 超节点:铜缆互联,总交换容量 129.6TB/s
目前英伟达超节点已经推出成熟方案,在行业中处于领先地位。2024-2026 年,英伟达陆续推出 GH200 NVL72、GB200/ GB300 NVL72、VR200 NVL72 三代超节点。
Hopper 架构开启超节点 Scale up 初步探索。GH200 通过 NVLink 和 NVLink-C2C(Chip-to-Chip)技 术,使得每个 GPU 可以访问其他所有 CPU 和 GPU 芯片的内存,实现 GPU 与 CPU 内存统一编址。
Blackwell 架构推动 Scale up 标准化。GB200 NVL72 将 Scale-up 规模稳定在 72 个 GPU/机柜,形成 可复制标准化方案。NVL72 由 18 个 Compute Tray(计算托架)和 9 个 Switch Tray(网络交换托架) 构成。其中,Compute Tray 是计算核心单元,负责提供强大的计算能力;Switch Tray 是高速通信枢纽, 用于实现 GPU 之间的高速数据交换。NVL72 背板通过“NVLink5 私有协议 + 铜线缆”将 18 个 Compute Tray 中的 72 颗 B200 GPU 和 9 个 Switch Tray 中的 18 颗 NVSwitch 芯片进行满带宽全连接。
Rubin架构推动Scale up方案带宽倍增。2026年1月CES展会,英伟达发布Rubin架构VR200 NVL72。 其中 NVLink 6 Switch 实现单 GPU 的互连带宽提升至 3.6 TB/s,上代为 1.8TB/s。Scale out 方面, Spectrum-6 交换机支持 CPO(共封装光学)技术,将 32 个 1.6Tb/s 硅光光学引擎与交换芯片直接封装 集成。
目前全球算力芯片公司进入芯片性能与超节点性能并行竞争的新阶段。GB200 NVL72 作为全球超节点发展 的标杆产品,我们将从多个维度拆解其硬件构成以及重点性能指标。 从算力和通信性能看:GB200 NVL72 提供 180 PFLOP 的 TF32 Tensor Core 算力,总内存容量 13.8TB,内 存带宽 576TB/s;Scale up 单向带宽 64800 GB/s。
除了算力与通信性能,尺寸、重量、功耗均是超节点 TCO(总体拥有成本)的关键影响因素。GB200 NVL72 机柜尺寸为长 1068 毫米、宽 600 毫米、高 2495 毫米;重约 1.36 吨;功耗 145KW。
单台 GB 200 NVL72 机柜有 18 个计算节点。GB200 NVL72 超节点主要由 18 个 Compute Tray(计算托盘) 和 9 个 Switch Tray(网络交换托盘)构成。每个计算托盘容纳 4 颗 B200 GPU 和 2 颗 Grace CPU,构成两 个 GB200 超级芯片。
GB 200 NVL72 机柜有 9 个网络交换托盘。每个网络交换托盘中包含两颗 NVLINK Switch5 芯片,合计 18 颗 NVSwitch5 芯片。单颗 NVSwitch5 芯片交换容量为 7.2TB/s,总交换容量 129.6TB/s。网络交换托架中金 色电缆用于 NVLink 连接,与电缆盒相连,机箱前面的蓝色电缆用于 OSFP 接口,实现不同版本的扩展。
电缆盒负责垂直方向信号重组。电缆盒有 8 个底部连接器和 10 个顶部连接器,每个连接器可处理一个 GPU 的全部带宽。
GB200 NVL72 实现 72 颗 B200 完全互联,总交换带宽 129.6TB/s。 计算节点访存带宽为 7.2TB/s:B200 设置 18 个端口(Port)。每个端口采用 224G Serdes,由四对差分线 构成。每个端口的传输速率为 200Gbps * 4(4 对差分线)/8 =100GB/s(双向)。每个计算托盘容纳 4 颗 B200 GPU,则每个计算节点 72 个 NVLink5 Port,总访存带宽为 7.2TB/s。 交换节点访存带宽为 14.4TB/s:NVSwitch5 芯片由 72 个 NVLINK Port(上下各 36 个 Port)。同样,每个 Port 采用双路 200Gbps 速率的 SerDes 高速串行接口,则每个 Port 带宽为 100GB/s。每个交换托盘两颗 NVLINK Switch5 芯片。每个交换节点 144 个 NVLINK Port,总访存带宽为 14.4TB/s。

GB200 NVL 72 Scale up 方案中以铜缆互联为主。GB200 NVL72 在互联方案中主要采用直连铜缆(DAC), 在某些特殊场景(如跨托盘连接或需要稍长传输距离的场景)中,会采用 ACC 铜缆。ACC(主动铜缆,在 DAC 基础上增加有源信号处理芯片)的信号增强能力可以弥补 DAC 在较长距离传输时的信号衰减问题,确 保数据传输的稳定性和可靠性。 在 GB200 NVL 72 中所需铜缆数量:18(托盘数量)×4(GPU 数量)×4(GPU 到 NVSwtich 单端口铜缆 数量)×18(NVSwtich 数量)=5184 根。(100GB/s 单端口由 4 根 DAC 铜缆组成)
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
- AI算力行业周报:AMD拿下Meta订单,英伟达业绩超预期.pdf
- 通信行业超节点与Scale up网络专题之英伟达:行业标杆,领先优势建立在NVLink和NVLink Switch.pdf
- 汽车行业周报:英伟达发布自动驾驶模型平台,Robotaxi产业化持续推进.pdf
- 英伟达:全栈算力之巅,物理AI新纪元.pdf
- 科技行业:英伟达吸收Groq定义AI下半场!.pdf
- 通富微电研究报告:AI浪潮下,AMD合力与先进封装的价值重估之路.pdf
- AI时代的三个案例公司-微软、AMD、英伟达专题分析.pdf
- 通富微电研究报告:国内封测龙头,受益PC市场复苏及AMD AI芯片放量.pdf
- 通富微电研究报告:AMD产业链核心封测厂,先进封装多点开花.pdf
- AMD公司研究:24年成长可期,AI芯片MI300驱动公司转型.pdf
- 2026年AI智能体趋势报告重塑角色工作流程与商业价值的五大转向-谷歌云.pdf
- AI算力行业周报:谷歌预期2026年资本开支翻倍,SpaceX收购xAI拟打造太空数据中心.pdf
- 谷歌公司研究报告:云营收加速增长,资本开支指引激进.pdf
- 长芯博创公司研究报告:光电互连综合提供商,谷歌算力扩容核心受益.pdf
- 谷歌独立站GEO全链路实操指南:AI搜索时代的外贸增长新范式.pdf
- 相关文档
- 相关文章
- 全部热门
- 本年热门
- 本季热门
- 1 半导体行业专题研究:从英伟达看国产GPU发展机遇与挑战.pdf
- 2 英伟达研究报告:GPU设计到软件CUDA+ Omniverse开发,建立人工智能和元宇宙生态系统.pdf
- 3 英伟达(NVDA.US)研究报告:重塑计算,世界AI的引擎.pdf
- 4 英伟达深度跟踪报告:从ChatGPT看英伟达AI业务的短期弹性、中期空间.pdf
- 5 英伟达研究报告:受益数据中心AI芯片高景气度,上游供应链响应快速.pdf
- 6 GB200 Hardware Architecture - Component Supply Chain & BOM
- 7 英伟达GTC专题分析:新一代GPU、具身智能与AI应用.pdf
- 8 英伟达2024 GTC大会要点梳理.pdf
- 9 电子行业专题报告:英伟达产业链在A股的映射及投资机会.pdf
- 10 芯片巨头之战:英伟达、AMD、英特尔.pdf
- 1 英伟达研究报告:“三芯”齐驱,高速互联,再战10万卡集群.pdf
- 2 半导体行业SiC深度分析:先进封装,英伟达、台积电未来的材料之选.pdf
- 3 汽车行业周报:英伟达发布自动驾驶模型平台,Robotaxi产业化持续推进.pdf
- 4 2025超节点商业化路径研究报告.pdf
- 5 Bernstein : U.S. Semiconductors NVIDIA Fine China.pdf
- 6 通信行业超节点与Scale up网络专题之英伟达:行业标杆,领先优势建立在NVLink和NVLink Switch.pdf
- 7 英伟达:全栈算力之巅,物理AI新纪元.pdf
- 8 科技行业:英伟达吸收Groq定义AI下半场!.pdf
- 9 电力设备行业产业周跟踪:英伟达电力短缺会议下周召开,经济工作会议要求推动全面绿色转型.pdf
- 10 新材料产业行业周报:英伟达AI超级计算平台Vera Rubin全面投产,AS700取得国产载人飞艇生产许可证.pdf
- 1 汽车行业周报:英伟达发布自动驾驶模型平台,Robotaxi产业化持续推进.pdf
- 2 2025超节点商业化路径研究报告.pdf
- 3 通信行业超节点与Scale up网络专题之英伟达:行业标杆,领先优势建立在NVLink和NVLink Switch.pdf
- 4 英伟达:全栈算力之巅,物理AI新纪元.pdf
- 5 科技行业:英伟达吸收Groq定义AI下半场!.pdf
- 6 电力设备行业产业周跟踪:英伟达电力短缺会议下周召开,经济工作会议要求推动全面绿色转型.pdf
- 7 新材料产业行业周报:英伟达AI超级计算平台Vera Rubin全面投产,AS700取得国产载人飞艇生产许可证.pdf
- 8 超节点与Scale up网络行业:谷歌、AMD、国产超节点持续发力,打破英伟达独大格局.pdf
- 9 AI算力行业周报:AMD拿下Meta订单,英伟达业绩超预期.pdf
- 全部热门
- 本年热门
- 本季热门
- 1 2026年超节点与Scale up网络行业:谷歌、AMD、国产超节点持续发力,打破英伟达独大格局
- 2 2026年第9周AI算力行业周报:AMD拿下Meta订单,英伟达业绩超预期
- 3 2026年通信行业超节点与Scale up网络专题之英伟达:行业标杆,领先优势建立在NVLink和NVLink Switch
- 4 2026年第3周汽车行业周报:英伟达发布自动驾驶模型平台,Robotaxi产业化持续推进
- 5 2026年英伟达公司研究报告:全栈算力之巅,物理AI新纪元
- 6 2026年科技行业:英伟达吸收Groq定义AI下半场!
- 7 2026年第2周新材料产业行业周报:英伟达AI超级计算平台Vera Rubin全面投产,AS700取得国产载人飞艇生产许可证
- 8 2025年第50周电子行业周报:英伟达对华芯片出口限制缓和,亚马逊Trainium3正式推出
- 9 2025年第49周全球产业趋势跟踪周报:谷歌TPU挑战英伟达,中国商业航天产业加速
- 10 2025年半导体行业SiC深度分析:先进封装,英伟达、台积电未来的材料之选
- 1 2026年超节点与Scale up网络行业:谷歌、AMD、国产超节点持续发力,打破英伟达独大格局
- 2 2026年第9周AI算力行业周报:AMD拿下Meta订单,英伟达业绩超预期
- 3 2026年通信行业超节点与Scale up网络专题之英伟达:行业标杆,领先优势建立在NVLink和NVLink Switch
- 4 2026年第3周汽车行业周报:英伟达发布自动驾驶模型平台,Robotaxi产业化持续推进
- 5 2026年英伟达公司研究报告:全栈算力之巅,物理AI新纪元
- 6 2026年科技行业:英伟达吸收Groq定义AI下半场!
- 7 2026年第2周新材料产业行业周报:英伟达AI超级计算平台Vera Rubin全面投产,AS700取得国产载人飞艇生产许可证
- 8 2025年第50周电子行业周报:英伟达对华芯片出口限制缓和,亚马逊Trainium3正式推出
- 9 2025年第49周全球产业趋势跟踪周报:谷歌TPU挑战英伟达,中国商业航天产业加速
- 10 2025年半导体行业SiC深度分析:先进封装,英伟达、台积电未来的材料之选
- 1 2026年超节点与Scale up网络行业:谷歌、AMD、国产超节点持续发力,打破英伟达独大格局
- 2 2026年第9周AI算力行业周报:AMD拿下Meta订单,英伟达业绩超预期
- 3 2026年通信行业超节点与Scale up网络专题之英伟达:行业标杆,领先优势建立在NVLink和NVLink Switch
- 4 2026年第3周汽车行业周报:英伟达发布自动驾驶模型平台,Robotaxi产业化持续推进
- 5 2026年英伟达公司研究报告:全栈算力之巅,物理AI新纪元
- 6 2026年科技行业:英伟达吸收Groq定义AI下半场!
- 7 2026年第2周新材料产业行业周报:英伟达AI超级计算平台Vera Rubin全面投产,AS700取得国产载人飞艇生产许可证
- 8 2025年第50周电子行业周报:英伟达对华芯片出口限制缓和,亚马逊Trainium3正式推出
- 最新文档
- 最新精读
- 1 2026年中国医药行业:全球减重药物市场,千亿蓝海与创新迭代
- 2 2026年银行自营投资手册(三):流动性监管指标对银行投资行为的影响(上)
- 3 2026年香港房地产行业跟踪报告:如何看待本轮香港楼市复苏的本质?
- 4 2026年投资银行业与经纪业行业:复盘投融资平衡周期,如何看待本轮“慢牛”的持续性?
- 5 2026年电子设备、仪器和元件行业“智存新纪元”系列之一:CXL,互联筑池化,破局内存墙
- 6 2026年银行业上市银行Q1及全年业绩展望:业绩弹性释放,关注负债成本优化和中收潜力
- 7 2026年区域经济系列专题研究报告:“都”与“城”相融、疏解与协同并举——现代化首都都市圈空间协同规划详解
- 8 2026年历史6轮油价上行周期对当下交易的启示
- 9 2026年国防军工行业:商业航天革命先驱Starlink深度解析
- 10 2026年创新引领,AI赋能:把握科技产业升级下的投资机会
