2024年AI基础设施网络架构分析:单层光互连与千卡Scale-up系统的未来之路

  • 来源:其他
  • 发布时间:2025/10/09
  • 浏览次数:107
  • 举报
相关深度报告REPORTS

金杜律师事务所:2025年海南自由贸易港法律政策研究报告III.pdf

金杜律师事务所:2025年海南自由贸易港法律政策研究报告III。2025年12月18日,海南自由贸易港将封关运作。根据中共中央、国务院关于《海南自由贸易港建设总体方案》的要求,为封关运作,这几年,国家和海南省有关部门,不断出台新的法律法规、规章和规范性文件,对标国际先进经验,出台新政策、新做法,进行制度创新。金杜海口、三亚两个办公室与金杜海内外其他办公室一道,参与了国家有关部门和海南省有关部门的立法、制度设计等课题研究、咨询工作,同时,也为诸多客户利用海南自贸港的政策优势发展业务,在公司架构设计、交易模式设计和企业合规建设等方面提供法律服务。也根据企业需求,向有关部门提出政策、制度等方面的建议...

随着人工智能技术的飞速发展,大模型训练与推理对算力的需求呈指数级增长。AI集群规模已从万卡级别向十万卡甚至数十万卡迈进,网络架构已成为制约算力扩展的关键瓶颈。阿里云智能集团网络研发发布的《UPN512技术架构白皮书》提出了一种基于单层光互连的超高性能网络(UPN)架构,旨在突破传统铜缆互连在规模、成本与可靠性方面的限制。本文将围绕AI基础设施网络的发展趋势、光互连技术的演进与挑战、UPN512的系统设计及其在传输语义与在网计算方面的创新,展开深入分析。

一、AI基础设施网络的发展趋势:从MoE结构到训推一体

近年来,人工智能模型结构从稠密(Dense)模型逐渐转向混合专家(Mixture of Experts, MoE)模型。MoE通过多个专家网络并行处理不同数据子集,显著提升了模型容量与计算效率。例如,开源模型Mixtral 8x7B仅具备8个专家,而2024年主流模型如Qwen3、DeepSeek-v3和Kimi K2已分别扩展至128、256和384个专家。这一变化对网络架构提出了更高要求:MoE模型通常采用专家并行(Expert Parallelism, EP)策略,依赖超大带宽与超低时延的网络通信,且更大的EP并行域成为提升计算效率的关键。

与此同时,智算集群的负载模式也从预训练向“训推一体”演进。同一集群中同时运行离线训练、强化学习和在线推理任务,使得网络流量模型愈发复杂。分布式推理优化技术如PD分离、AF分离和大EP推理等进一步增加了网络架构的设计难度。多种并行模式与不同计算密度负载的共存,要求网络具备更高的灵活性与资源调度能力。

在这一背景下,通过xPU Scale-up网络实现算力集群化扩展成为主流技术路径。NVIDIA、华为等厂商已推出72卡、384卡的超节点系统,旨在通过大带宽低时延互联提升整体算力。然而,传统的铜缆互连方案在高密机柜设计中面临可靠性、散热与扩展性等多重挑战,光互连技术因其在距离与带宽方面的优势,正逐渐成为下一代Scale-up系统的核心选择。

二、光互连技术的演进与挑战:成本、可靠性与架构创新

光互连技术在Scale-up系统中的应用仍面临成本与可靠性两大核心挑战。根据白皮书中的成本模型分析,在64至128 xPU规模内,铜缆方案的整体成本约为光互连方案的50%,优势明显。但在超过128 xPU的大规模场景中,传统单层光互连方案的成本已低于双层(铜+光)架构,显示出其在大规模扩展中的经济性。

在光互连技术中,LPO(Linear Pluggable Optics)和NPO(Near-Packaged Optics)因其在功耗、时延和成本方面的优势,成为UPN512系统的优选方案。LPO去除DSP芯片,成本降低约30%,但依赖主芯片SerDes性能;NPO则通过近封装设计进一步提升带宽密度与信号完整性,更适合高速率、高密度场景。相比之下,CPO(Co-packaged Optics)虽在性能上更具优势,但因生态封闭与标准化难度高,在实际部署中面临更大挑战。

可靠性方面,光互连需应对链路信号质量与节点故障两类问题。传统FEC(前向纠错)与LLR(链路级重传)机制已能有效处理链路错误,但在大规模系统中,端到端重传机制与系统级容错设计变得尤为关键。根据阿里云实际运行数据,铜缆链路的故障概率是基于FRO光互连的6倍,而LPO/NPO技术在去除DSP后进一步提升了信号稳定性与模块可靠性。

三、UPN512系统架构设计:单层光互连与解耦理念

阿里云UPN512架构的核心创新在于其单层光互连与解耦设计。该系统通过High Radix以太网交换芯片实现512个xPU的全互连,未来可扩展至1024卡及以上规模。光互连突破距离限制,使得xPU与交换机可分布在不同机柜中,摆脱了传统AI Rack在高密设计中的物理约束。

在设备形态上,UPN512采用盒式设计,回归标准机柜部署模式,显著降低了系统复杂度与运维成本。与传统NVL72等铜缆系统相比,UPN512在故障隔离与部件更换方面具备显著优势。例如,铜缆系统中的电缆托盘(cable tray)一旦损坏需整体更换,而光模块支持端口级热插拔,平均修复时间(MTTR)可控制在分钟级别。

UPN512支持LPO与NPO两种光互连方案,并根据场景需求灵活选择。在带宽密度要求较低、芯片SerDes能力较强的场景中,LPO因其标准化与多源供应优势成为首选;而在高带宽、高密度场景中,NPO则凭借其更高的带宽密度与更低的信号损耗占据优势。

四、传输语义与在网计算:提升通信效率与算力利用率

随着xPU算力与显存带宽的不断提升,网络通信所占用的计算资源日益显著。例如,在DeepEP实现中,网络传输最高可占用15%的GPU计算资源。为降低这一开销,UPN512定义了三种低时延通信语义:内存语义(Load/Store)、消息语义(Send/Recv)与张量语义(Push/Pull)。

内存语义适用于小数据块同步访问,控制精度高但算力消耗大;消息语义通过DMA引擎实现异步大数据传输,显著减轻核心负担;张量语义则针对1-100KB规模的张量数据传输进行优化,支持流式传输、动态压缩与显隐式确认机制,适用于MoE模型中的Dispatch与Combine操作。

在网计算方面,UPN512基于以太网交换芯片实现集合通信加速,支持AllReduce、AllGather、ReduceScatter等操作。通过虚拟地址映射与分组广播机制,系统在对称与非对称通信模式中均能实现高效的数据聚合与分发,显著降低通信延迟与显存带宽占用。

以上就是关于2024年AI基础设施网络架构的分析。从MoE模型的结构演进到训推一体负载的复杂化,从铜缆互连的物理限制到光互连技术的成本与可靠性挑战,阿里云UPN512架构通过单层光互连、解耦设备设计、LPO/NPO光模块优化以及创新的传输语义与在网计算机制,为下一代Scale-up系统提供了一条可行的技术路径。该架构不仅具备规模扩展能力,还在成本控制、可靠性提升与算力利用率优化方面表现出显著优势,有望推动AI基础设施向更大规模、更高性能的方向持续演进。


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告
评论
  • 相关文档
  • 相关文章
  • 全部热门
  • 本年热门
  • 本季热门
  • 全部热门
  • 本年热门
  • 本季热门
  • 最新文档
  • 最新精读
分享至