2024年AI基础设施网络架构分析:单层光互连与千卡Scale-up系统的未来之路
- 来源:其他
- 发布时间:2025/10/09
- 浏览次数:107
- 举报
金杜律师事务所:2025年海南自由贸易港法律政策研究报告III.pdf
金杜律师事务所:2025年海南自由贸易港法律政策研究报告III。2025年12月18日,海南自由贸易港将封关运作。根据中共中央、国务院关于《海南自由贸易港建设总体方案》的要求,为封关运作,这几年,国家和海南省有关部门,不断出台新的法律法规、规章和规范性文件,对标国际先进经验,出台新政策、新做法,进行制度创新。金杜海口、三亚两个办公室与金杜海内外其他办公室一道,参与了国家有关部门和海南省有关部门的立法、制度设计等课题研究、咨询工作,同时,也为诸多客户利用海南自贸港的政策优势发展业务,在公司架构设计、交易模式设计和企业合规建设等方面提供法律服务。也根据企业需求,向有关部门提出政策、制度等方面的建议...
随着人工智能技术的飞速发展,大模型训练与推理对算力的需求呈指数级增长。AI集群规模已从万卡级别向十万卡甚至数十万卡迈进,网络架构已成为制约算力扩展的关键瓶颈。阿里云智能集团网络研发发布的《UPN512技术架构白皮书》提出了一种基于单层光互连的超高性能网络(UPN)架构,旨在突破传统铜缆互连在规模、成本与可靠性方面的限制。本文将围绕AI基础设施网络的发展趋势、光互连技术的演进与挑战、UPN512的系统设计及其在传输语义与在网计算方面的创新,展开深入分析。
一、AI基础设施网络的发展趋势:从MoE结构到训推一体
近年来,人工智能模型结构从稠密(Dense)模型逐渐转向混合专家(Mixture of Experts, MoE)模型。MoE通过多个专家网络并行处理不同数据子集,显著提升了模型容量与计算效率。例如,开源模型Mixtral 8x7B仅具备8个专家,而2024年主流模型如Qwen3、DeepSeek-v3和Kimi K2已分别扩展至128、256和384个专家。这一变化对网络架构提出了更高要求:MoE模型通常采用专家并行(Expert Parallelism, EP)策略,依赖超大带宽与超低时延的网络通信,且更大的EP并行域成为提升计算效率的关键。
与此同时,智算集群的负载模式也从预训练向“训推一体”演进。同一集群中同时运行离线训练、强化学习和在线推理任务,使得网络流量模型愈发复杂。分布式推理优化技术如PD分离、AF分离和大EP推理等进一步增加了网络架构的设计难度。多种并行模式与不同计算密度负载的共存,要求网络具备更高的灵活性与资源调度能力。
在这一背景下,通过xPU Scale-up网络实现算力集群化扩展成为主流技术路径。NVIDIA、华为等厂商已推出72卡、384卡的超节点系统,旨在通过大带宽低时延互联提升整体算力。然而,传统的铜缆互连方案在高密机柜设计中面临可靠性、散热与扩展性等多重挑战,光互连技术因其在距离与带宽方面的优势,正逐渐成为下一代Scale-up系统的核心选择。
二、光互连技术的演进与挑战:成本、可靠性与架构创新
光互连技术在Scale-up系统中的应用仍面临成本与可靠性两大核心挑战。根据白皮书中的成本模型分析,在64至128 xPU规模内,铜缆方案的整体成本约为光互连方案的50%,优势明显。但在超过128 xPU的大规模场景中,传统单层光互连方案的成本已低于双层(铜+光)架构,显示出其在大规模扩展中的经济性。

在光互连技术中,LPO(Linear Pluggable Optics)和NPO(Near-Packaged Optics)因其在功耗、时延和成本方面的优势,成为UPN512系统的优选方案。LPO去除DSP芯片,成本降低约30%,但依赖主芯片SerDes性能;NPO则通过近封装设计进一步提升带宽密度与信号完整性,更适合高速率、高密度场景。相比之下,CPO(Co-packaged Optics)虽在性能上更具优势,但因生态封闭与标准化难度高,在实际部署中面临更大挑战。
可靠性方面,光互连需应对链路信号质量与节点故障两类问题。传统FEC(前向纠错)与LLR(链路级重传)机制已能有效处理链路错误,但在大规模系统中,端到端重传机制与系统级容错设计变得尤为关键。根据阿里云实际运行数据,铜缆链路的故障概率是基于FRO光互连的6倍,而LPO/NPO技术在去除DSP后进一步提升了信号稳定性与模块可靠性。
三、UPN512系统架构设计:单层光互连与解耦理念
阿里云UPN512架构的核心创新在于其单层光互连与解耦设计。该系统通过High Radix以太网交换芯片实现512个xPU的全互连,未来可扩展至1024卡及以上规模。光互连突破距离限制,使得xPU与交换机可分布在不同机柜中,摆脱了传统AI Rack在高密设计中的物理约束。

在设备形态上,UPN512采用盒式设计,回归标准机柜部署模式,显著降低了系统复杂度与运维成本。与传统NVL72等铜缆系统相比,UPN512在故障隔离与部件更换方面具备显著优势。例如,铜缆系统中的电缆托盘(cable tray)一旦损坏需整体更换,而光模块支持端口级热插拔,平均修复时间(MTTR)可控制在分钟级别。
UPN512支持LPO与NPO两种光互连方案,并根据场景需求灵活选择。在带宽密度要求较低、芯片SerDes能力较强的场景中,LPO因其标准化与多源供应优势成为首选;而在高带宽、高密度场景中,NPO则凭借其更高的带宽密度与更低的信号损耗占据优势。

四、传输语义与在网计算:提升通信效率与算力利用率
随着xPU算力与显存带宽的不断提升,网络通信所占用的计算资源日益显著。例如,在DeepEP实现中,网络传输最高可占用15%的GPU计算资源。为降低这一开销,UPN512定义了三种低时延通信语义:内存语义(Load/Store)、消息语义(Send/Recv)与张量语义(Push/Pull)。
内存语义适用于小数据块同步访问,控制精度高但算力消耗大;消息语义通过DMA引擎实现异步大数据传输,显著减轻核心负担;张量语义则针对1-100KB规模的张量数据传输进行优化,支持流式传输、动态压缩与显隐式确认机制,适用于MoE模型中的Dispatch与Combine操作。
在网计算方面,UPN512基于以太网交换芯片实现集合通信加速,支持AllReduce、AllGather、ReduceScatter等操作。通过虚拟地址映射与分组广播机制,系统在对称与非对称通信模式中均能实现高效的数据聚合与分发,显著降低通信延迟与显存带宽占用。

以上就是关于2024年AI基础设施网络架构的分析。从MoE模型的结构演进到训推一体负载的复杂化,从铜缆互连的物理限制到光互连技术的成本与可靠性挑战,阿里云UPN512架构通过单层光互连、解耦设备设计、LPO/NPO光模块优化以及创新的传输语义与在网计算机制,为下一代Scale-up系统提供了一条可行的技术路径。该架构不仅具备规模扩展能力,还在成本控制、可靠性提升与算力利用率优化方面表现出显著优势,有望推动AI基础设施向更大规模、更高性能的方向持续演进。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
- 正泰安能:向设计要效益:AI自动化设计的实践与回报.pdf
- 艺恩报告:智驾未来:AI重塑汽车消费新纪元.pdf
- 清鹏算电:AI与电力市场应用探索——清鹏能源大模型智能体实践与展望.pdf
- 启信慧眼:全球布局洞见先行:构建AI时代的供应链韧性-2026供应链风控白皮书.pdf
- 计算机:通过AI原生,提升驾驶敏捷性和商业价值统一采购平台(英文版).pdf
- 文化旅游基础设施与运营行业2025年信用回顾与2026年展望.pdf
- 数字基础设施建设投资能否改善就业结果?.pdf
- 北京金融科技产业联盟:金融业AI基础设施发展报告(2024-2025年).pdf
- 联想:2026年联想算力基础设施产品集白皮书-金融行业解决方案.pdf
- 国家及各省市算力基础设施产业相关政策汇编(2024年6月至2025年12月).pdf
- 相关标签
- 相关专题
- 相关文档
- 相关文章
- 全部热门
- 本年热门
- 本季热门
- 1 人工智能AI产业链全景图.pdf
- 2 铀行业专题报告:AI时代的关键资源品,全球核电复兴,铀矿景气反转.pdf
- 3 元宇宙177页深度报告:人类的数字化生存,进入雏形探索期.pdf
- 4 智慧城市专题研究:AIoT时代的智慧城市跃迁.pdf
- 5 2024年AI医学影像行业发展现状与未来趋势蓝皮书.pdf
- 6 中国AI智慧操场行业研究报告.pdf
- 7 人工智能行业专题报告:从CHAT~GPT到生成式AI(Generative AI)-人工智能新范式,重新定义生产力.pdf
- 8 5G+AI的杀手级应用:VR+AR深度研究报告.pdf
- 9 埃森哲人工智能应用之道(92页).pdf
- 10 新能源行业深度研究报告:新能源+AI三大方向展望,加速增长期来临.pdf
- 1 中国AI智慧操场行业研究报告.pdf
- 2 新能源行业深度研究报告:新能源+AI三大方向展望,加速增长期来临.pdf
- 3 金域医学研究报告:数据资产价值重估,AI技术驱动创新应用场景拓展.pdf
- 4 MIM(金属粉末注射成型)行业专题报告:MIM在机器人、AI、消费电子领域应用前景广阔:破界生长,智领未来.pdf
- 5 医疗AI专题报告:多组学篇,AI技术驱动精准诊断实现重要突破.pdf
- 6 AI的宏观悖论与社会主义全球化.pdf
- 7 洞隐科技2025中国物流与供应链领域AI应用研究报告.pdf
- 8 电力设备与新能源行业深度报告:AI动力打造固态电池发展新引擎.pdf
- 9 2025年金融服务业中国AI现状与趋势.pdf
- 10 人工智能行业分析:AI新纪元,砥砺开疆·智火燎原.pdf
- 1 讯飞医疗科技公司研究报告:AI医疗先行者,贯通式布局医疗信息化.pdf
- 2 医药生物行业医疗器械2026年度策略:把握出海陡峭曲线,卡位AI医疗商业化落地.pdf
- 3 艾瑞咨询:2025年中国企业级AI应用行业研究报告.pdf
- 4 新经济中工作的四大未来:2030年的AI与人才(英译中).pdf
- 5 2026年半导体设备行业策略报告:AI驱动新成长,自主可控大时代.pdf
- 6 青矩技术公司研究报告:全过程工程咨询服务领军者,积极布局AI推行数智化咨询新模式.pdf
- 7 AI医疗行业专题报告:AI重构医疗,从场景落地到变现讨论.pdf
- 8 专题报告:个人AI助理OpenClaw部署及其在金融投研中的应用研究——AIAgent赋能金融投研应用系列之二.pdf
- 9 2026年AI行业应用深度展望:AI应用重塑流量格局,字节阿里腾讯C端布局加快.pdf
- 10 讯飞医疗科技公司研究报告:AI医疗龙头,GBC全场景贯通&中试基地卡位明确,规模化落地有望加速.pdf
- 全部热门
- 本年热门
- 本季热门
- 1 2026年创新引领,AI赋能:把握科技产业升级下的投资机会
- 2 2026年新消费行业年度策略:新消费三大引擎,AI+消费、情绪经济、新质零售
- 3 2026年AI“创造性破坏”重构产业生态——多行业联合人工智能3月报
- 4 2026年AI“创造性破坏”下的产业重构
- 5 2026年计算机行业OpenClaw:吹响AI Agent时代号角
- 6 2026年专用设备行业:AI算力驱动散热架构升级,液冷一次侧设备迎来价值重估——AIDC液冷深度报告
- 7 2026年腾讯控股重新探讨腾讯的AI争议:嵌入式工作流为何胜过单品表象
- 8 2026年汇量科技公司研究报告:出海程序化广告龙头构筑AI飞轮
- 9 2026年轻松健康公司研究报告:深耕AI医疗的数字健康生态构建者,数据与技术双轮驱动
- 10 2026年房地产行业深度报告:地产+AI工具系列报告之二,基于OpenClaw的房地产股票投研生产力提升实践
- 1 2026年创新引领,AI赋能:把握科技产业升级下的投资机会
- 2 2026年新消费行业年度策略:新消费三大引擎,AI+消费、情绪经济、新质零售
- 3 2026年AI“创造性破坏”重构产业生态——多行业联合人工智能3月报
- 4 2026年AI“创造性破坏”下的产业重构
- 5 2026年计算机行业OpenClaw:吹响AI Agent时代号角
- 6 2026年专用设备行业:AI算力驱动散热架构升级,液冷一次侧设备迎来价值重估——AIDC液冷深度报告
- 7 2026年腾讯控股重新探讨腾讯的AI争议:嵌入式工作流为何胜过单品表象
- 8 2026年汇量科技公司研究报告:出海程序化广告龙头构筑AI飞轮
- 9 2026年轻松健康公司研究报告:深耕AI医疗的数字健康生态构建者,数据与技术双轮驱动
- 10 2026年房地产行业深度报告:地产+AI工具系列报告之二,基于OpenClaw的房地产股票投研生产力提升实践
- 1 2026年创新引领,AI赋能:把握科技产业升级下的投资机会
- 2 2026年新消费行业年度策略:新消费三大引擎,AI+消费、情绪经济、新质零售
- 3 2026年AI“创造性破坏”重构产业生态——多行业联合人工智能3月报
- 4 2026年AI“创造性破坏”下的产业重构
- 5 2026年计算机行业OpenClaw:吹响AI Agent时代号角
- 6 2026年专用设备行业:AI算力驱动散热架构升级,液冷一次侧设备迎来价值重估——AIDC液冷深度报告
- 7 2026年腾讯控股重新探讨腾讯的AI争议:嵌入式工作流为何胜过单品表象
- 8 2026年汇量科技公司研究报告:出海程序化广告龙头构筑AI飞轮
- 9 2026年轻松健康公司研究报告:深耕AI医疗的数字健康生态构建者,数据与技术双轮驱动
- 10 2026年房地产行业深度报告:地产+AI工具系列报告之二,基于OpenClaw的房地产股票投研生产力提升实践
- 最新文档
- 最新精读
- 1 2026年中国医药行业:全球减重药物市场,千亿蓝海与创新迭代
- 2 2026年银行自营投资手册(三):流动性监管指标对银行投资行为的影响(上)
- 3 2026年香港房地产行业跟踪报告:如何看待本轮香港楼市复苏的本质?
- 4 2026年投资银行业与经纪业行业:复盘投融资平衡周期,如何看待本轮“慢牛”的持续性?
- 5 2026年电子设备、仪器和元件行业“智存新纪元”系列之一:CXL,互联筑池化,破局内存墙
- 6 2026年银行业上市银行Q1及全年业绩展望:业绩弹性释放,关注负债成本优化和中收潜力
- 7 2026年区域经济系列专题研究报告:“都”与“城”相融、疏解与协同并举——现代化首都都市圈空间协同规划详解
- 8 2026年历史6轮油价上行周期对当下交易的启示
- 9 2026年国防军工行业:商业航天革命先驱Starlink深度解析
- 10 2026年创新引领,AI赋能:把握科技产业升级下的投资机会
