2025年智算中心高速互联网络分析：万卡集群催生TB级带宽需求

来源：其他
发布时间：2025/10/10
浏览次数：185
举报

相关深度报告REPORTS

ODCC开放数据中心委员会：2025年下一代智算DC高速互联网络需求白皮书.pdf

ODCC开放数据中心委员会：2025年下一代智算DC高速互联网络需求白皮书。人工智能大模型的迅猛发展正以前所未有的速度重塑算力格局。千亿乃至万亿参数模型的训练与推理，催生了GPU/TPU等XPU集群向数十万乃至数百万卡规模演进，其核心瓶颈已从单点算力转向集群互联网络。传统数据中心网络在带宽、延迟、扩展性和能效上遭遇严峻挑战。AI训练特有的AllReduce，MOE等高密度、低延迟、高同步性通信模式，要求网络具备微秒级低延迟、超高吞吐、有界性能，智能拥塞控制和高安全。同时，混合负载、云边协同与绿色低碳需求叠加，使得网络成为制约智算中心效能的“生命线”。面向未来，构建高带宽...

随着人工智能大模型的迅猛发展，智算数据中心正面临前所未有的网络互联挑战。根据开放数据中心委员会（ODCC）发布的最新白皮书，千亿乃至万亿参数模型的训练与推理，正在推动GPU/TPU集群向数十万乃至数百万卡规模演进。在这一背景下，传统数据中心网络在带宽、延迟、扩展性和能效方面遭遇严峻挑战，新一代高速互联网络成为释放AI算力潜能的关键所在。本报告将从智算网络发展现状、新型拓扑结构需求、高可靠高安全要求以及运维检测创新等维度，深入分析智算中心高速互联网络的发展趋势和技术演进路径。

一、智算网络规模化发展趋势：从万卡集群向百万卡集群演进

人工智能大模型计算需求持续攀升，直接驱动集群组网规模扩张。目前已经涌现出万卡集群训练的大模型，如字节跳动的MegaScale使用了12288张GPU训练175B参数；多模态GPT-4o虽未公开披露具体卡数，业内普遍认为其使用了万卡级别的算力。在推理侧，2024年12月Deepseek v3发布，最大参数规模671B，序列长度128K，使用"单卡-单专家"部署将单实例算力需求提高到百卡级别。结合业界最新提出的Attention-MoE分离技术，推理算力池预计可以扩大到K~10K级。基于AI训推业务的演化趋势预测，未来五年AI集群规模将从万卡级别向10万卡迈进。

从全球发展现状来看，海外AWS/Oracle/Meta正领衔数十万卡智算集群的建设，业界对Scale Out网络规模的预期被锚定在百万卡级，相关能源和技术层面的挑战正在被突破。NVL72/CloudMatrix 384超节点对推理性能和集群算力利用率提升效果明显，千卡以下规模的超节点成为行业头部竞争焦点。在光互联技术的加持下，Scale Up网络正在突破单机柜的物理限制，向着多机柜高速互联方向扩展。以太网技术在标准组织和产业上下游的共同努力下，在与Infiniband技术的竞争中取得明显优势，已经成为万卡以上集群Scale Out网络的首选，并开始向Scale Up网络场景延伸。

智算网络的发展呈现出明显的技术融合特征。以AMD为首的UALink 1.0协议规范的发布以及博通SUE技术架构的公开为开放式Scale Up网络注入新的发展动能。国内各种Link小生态也蓬勃发展如UB-mesh，ETHLink，ETH-X,ETH+等，Scale Up网络正式进入"总线网络化"和"网络总线化"技术路线的混战时期。这种多元化技术路线的竞争格局，为智算网络创新提供了丰富的技术选择和解决方案。

从市场需求角度分析，AI负载展现出对规模、带宽和延迟性能的极度贪婪，智算网络从单点优化进入体系化创新发展的快车道。谷歌AI基础设施总经理Amin Vahdat在Hot Interconnect 2025会议上指出："我们正处于分布式计算的第五个历史性时刻，生成式AI对连接性能的需求跃迁意味着我们需要重新审视未来的网络"。伴随着Generative AI发展不足五年的时间，算力需求保持每年10倍的增长态势，网络带宽需求迅速从百G时代攀升至Tb级时代，延迟需求也相应提升了十倍甚至更多。

二、新型拓扑结构创新：从分层架构向扁平化稀疏化演进

智算中心的网络设计需满足高性能、低延迟、高扩展性和可靠性的需求。不同业务对网络性能的要求不同，因此需要选择合适的网络设计。目前，主流的智算中心组网拓扑结构包括Clos/Fat-Tree、Dragonfly等，扁平化新型拓扑GW-DF+(Group-Wise DragonFly+)、BST(Balanced Sparse Tree)也以低成本大规模的优势进入视野。

现有的集群拓扑以分层设计为主，带宽逐级收敛，追求性能、规模和成本的最优平衡点。在智算中心中，Clos/Fat Tree拓扑是最广泛使用的拓扑，使用Leaf和Spine角色创建无阻塞的网络。Fat-Tree网络拓扑通过避免带宽收敛，实现了无阻塞连接。与传统树形拓扑不同，Fat-Tree中带宽逐级无收敛，最大化了数据吞吐量，并具备低延迟和可扩展的特性，具有出色的灵活性。Clos/Fat-Tree拓扑中，Leaf和Spine之间的多条上行链路可通过ECMP方式实现路由转发，可避免对单一链路的依赖引起故障。

Dragonfly拓扑是HPC中常用的拓扑结构，是当前应用最广泛的直连拓扑网络架构。Dragonfly的拓扑结构分为3层：Switch层，Group层和System层。本地通信通过组内交换机完成，组间通信通过高效的全局链路完成，减少了传统分层结构中的多跳路径。在Dragonfly的基础上，可进一步升级为Dragonfly+拓扑，将Group内的通信结构变为了Fat-tree，主要在拓扑结构、全局链路分布、路由策略以及可扩展性方面进行了改进。

然而，在绕路场景下，Dragonfly+组网中每个交换组内的多个L2交换机所有端口与其他组采用1D-FullMesh连接，导致通过其他交换组绕路时需要在组B中Down-Up绕行才能实现绕路，影响组B内部的通信流量。Group-Wise Dragonfly+通过改变Dragonfly+组网中L2交换机连线密度，即每个组内的同号L2交换机之间采用1D-FullMesh连接，实现了路由上的改进。Group-Wise Dragonfly+由于中间交换组的每个L2交换机连接了所有组的同号L2交换机，因此不需要Down-Up绕行就能实现绕路，简化了均衡、路由、流控防死锁设计。

相比Clos、GW-DF+，业界希望进一步实现极致扁平化组网架构。原因是随着规模扩张而叠加更高层级的组网架构，节点间的物理距离逐渐变远，节点间的流量也会逐渐收敛变小。超节点规模之上的组网，需要使用光模块、光纤来实现信号的低损耗传输。此时，链路的静态延迟天然会增大到us级别，甚至到毫秒级。由于时延的增加，以及网络规模增大带来的异步、故障等问题，也需要更复杂的传输、流控和路由协议，这些都会进一步增加网络通信时延。

基于高性能、低成本、大规模等多重优化目标下，BST拓扑提出稀疏性和均衡性两点设计原则。稀疏性指上层、下层节点间非完全二部图连接，而是稀疏性连接结构；均衡性指任意两下层节点间通信带宽相同。BST相比Clos能够实现10倍规模扩张，在2层组网架构下构建10万卡集群。虽然稀疏化互联在一定程度上牺牲了P2P的通信带宽，然而AI集群参数面网络主要运行集合通信流量，这类流量通常为M2M通信。因此，BST的均衡性设计原则又保障了M2M通信具有与Clos持平的通信带宽为目标，实现集合通信无损。

三、高可靠高安全需求：差异化保障与全方位防护体系

随着算力与网络的深度融合，下一代智算网络承载更多元化、异构化的智算应用与业务已成为不可逆转的趋势。这种异构化不仅体现在应用类型的丰富性上，更凸显在不同业务场景对网络性能的差异化需求上。其中高可靠性作为众多智算业务的核心诉求，因场景特性不同而呈现出显著差异。

大规模训练场景对可靠性要求极高，通常需要万级乃至十万级GPU/NPU芯片组成集群，通过分布式训练框架实现参数同步与梯度交换。单轮训练可能持续数天甚至数周，期间每一次参数更新都依赖全集群的精准协同。任何单个节点的故障都可能导致整体训练过程出现偏差，轻则延长收敛时间，重则导致模型精度降低甚至loss无法收敛。MoE推理场景则需要时延可靠双重保障，核心逻辑是将复杂任务分配给多个专业化"专家子模型"并行处理，再通过门控网络整合结果。用户请求需要实时响应，对Token生成的速率都有严格要求；推理过程中"门控网络与专家子模型""不同专家子模型之间"的交互频繁，任何一次数据传输失败或延迟超标，都会导致整个推理结果错误或超时。

多元化AI智能应用场景的可靠性需求随应用自定义，需要弹性适配各类业务。覆盖范围从消费端的视频生成、智能客服，到产业端的具身智能、智慧医疗影像分析，再到公共服务领域的城市交通调度、应急响应指挥等，其核心特点是应用场景碎片化、需求差异显著，因此对网络的高可靠诉求无法用统一标准定义，而是呈现"按需自定义"的弹性特征。这种自定义本质上是应用根据自身业务价值、实时性要求、容错能力等因素，对网络可靠性进行灵活配置的过程。

在当前集群已有的逐跳可靠性保障的基础上，下一代智算DC需要进一步升级各类故障恢复策略，同时灵活适配各类业务场景的异构化可靠性需求，提供差异化的可靠性方案。检纠分离可靠性机制探索将故障检测与故障恢复拆分为独立但协同的环节：通过精细化的检测机制快速定位故障根源，再根据不同业务场景的可靠性诉求，匹配差异化的恢复策略，既保证故障处理的效率，又避免"一刀切"式恢复造成的资源浪费或体验损耗。

在安全方面，AI大模型及智能体等技术驱动了高性能集群网络的蓬勃发展，也带来了海量重要数据资产泄露、模型窃取、数据投毒等诸多安全威胁。智算网络的安全技术应用场景主要包括AI训练、推理、Agent协作带来的端云协同网络安全传输，以及智算网络内部实体之间交互安全。需要设备认证技术确保智算网络中的实体是合法的、可信的；安全传输技术确保连接的真实可信、传输数据的机密性和完整性；密钥安全管理提供高安全的全生命周期密钥管理；安全隔离与访问控制技术防范非法的访问。

高精度时间同步也成为智算网络的重要需求。随着智算网络业务的发展，分布式业务部署越来越普遍，如何保证训练推理任务运行的一致性，以及异地数据的读写一致性变得尤为重要。通过设备间PTP同步技术、设备内PTM同步技术以及设备的高精度时间保持能力，下一代智算网络可以达到微妙级时间同步精度，从而提升高频遥测与性能调优、集合通信业务、单向时延拥塞控制和分布式数据库业务等场景的业务效率和可靠性。

四、运维检测创新：智能运维与故障自愈体系构建

在动态流量下的性能波动实时监测方面，智算业务会产生突发性强、粒度细的流量，且不同任务对网络性能的敏感度差异显著。传统"秒级/亚秒级"监控粒度无法捕捉毫秒级拥塞波动，而缺乏对"业务级根因"的关联分析。内存语义下，传统网络监控缺少上下文信息，无法与端侧协同进行故障定界。逐包场景下，需要全局同步细粒度测量来捕捉多径通信行为。

针对这些挑战，需要部署微秒级Telemetry系统，实时采集流量、时延、丢包等数据，精准捕捉大象流、老鼠流的毫秒级波动。针对原生ld/st甚至需要亚微秒级的测量精度。构建业务-网络联动引擎，关联网络指标与任务状态，快速定位链路拥塞、路由异常或硬件故障等根因，避免人工排查低效问题。采用智能调度算法，为大象流分配PFC/ECN无损通道保障带宽，对老鼠流实施QoS分级降低时延敏感度，解决传统静态哈希导致的资源分配不均问题。建立亚微秒级故障检测机制，结合BFD和AI预测模型实现毫秒级感知；通过冗余路径切换和流量重定向，快速恢复业务，减少训练中断时间。

在超大规模网络故障快速定位与自愈方面，万卡级GPU集群中，单交换机或链路的故障可能影响数十甚至上百个计算节点的连通性，而大规模网络中链路/节点数量激增，故障事件呈指数级增长。传统依赖人工经验逐跳排查的方式无法满足"算力零中断"要求。需要部署全链路可观测系统，通过微秒级Telemetry采集流量、时延、丢包等数据，结合AI算法实时分析异常模式，实现毫秒级故障感知与根因定位，突破传统人工逐跳排查的低效性。构建冗余网络架构，结合快速重路由技术，在链路故障时自动切换备用路径，确保业务中断时间<50ms，避免训练任务因网络问题回滚。采用分布式训练容错机制，结合硬件级RAS技术，降低单点故障对集群的影响，保障任务连续。

在跨地域多DC协同的运维一致性挑战方面，跨数据中心互联需聚合分散算力资源，但不同DC的网络设备、协议栈及拓扑结构存在异构性，导致故障现象可能在不同DC表现为差异化性能问题。传统"分散运维"模式难以实现全局状态同步与协同处置，易引发"局部故障扩散为全局风险"。需要构建多厂商设备兼容的集中监控平台，实时采集网络状态及协议指标。建立分布式追踪与拓扑分析机制，还原业务调用链，精准定位跨区域故障根因。开发协议转换引擎，对实时任务采用SRv6无损通道，非实时任务通过BGP负载均衡，避免单一协议故障影响全局。

以上就是关于智算中心高速互联网络的分析。本报告深入探讨了在人工智能大模型、生成式AI、科学计算及边缘智能等新兴应用驱动下，下一代智能计算数据中心对高速互联网络提出的全新挑战与核心需求。当前，AI训练已进入万卡乃至十万卡级集群时代，模型参数规模突破万亿，训练任务动辄持续数周甚至数月。在此背景下，互联网络不再仅仅是数据传输的"管道"，而是决定整体算力利用率、训练效率与成本的关键因素。

传统网络架构在带宽密度、通信时延、能效比和可扩展性等方面均已难以满足大规模分布式训练的需求，特别是All-Reduce、All-to-All等高并发集合通信操作极易成为性能瓶颈。因此，下一代智算网络必须在大带宽、低时延、高可靠、高安全、智能调度，组播通信与高精度时钟等维度实现全面跃升。从技术发展趋势来看，新型拓扑结构从分层架构向扁平化稀疏化演进，高可靠高安全需求呈现差异化特征，运维检测体系向智能运维与故障自愈方向发展。

展望未来，智算网络将逐步从"连接"向"赋能"演进，形成算网深度融合的新型基础设施。开放标准、协同创新的产业生态将成为推动技术规模化应用的关键。预计到2030年，具备高吞吐、低延迟、自适应与绿色低碳特性的新一代高速互联网络，将成为支撑人工智能产业持续领先和数字经济高质量发展的核心引擎。随着技术的不断成熟和应用场景的持续拓展，智算中心高速互联网络将在推动人工智能产业发展中发挥更加重要的作用。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）