超万卡集群中,单芯片能力包括单个GPU的计算性能和GPU显存的访问性能。
1.集群高能效计算技术
随着大模型从千亿参数的自然语言模型向万亿参数的多模态模型升级演进,超万 卡集群驱需全面提升底层计算能力。具体而言,包括增强单芯片能力、提升超节点计 算能力、基于DPU(DataProcessingUnit)实现多计算能力融合以及追求极致算力 能效比。这些系统性的提升将共同支持更大规模的模型训练和推理任务,满定迅速增 长的业务需求。
1.1单芯片能力
超万卡集群中,单芯片能力包括单个GPU的计算性能和GPU显存的访问性能。 在单个GPU计算性能方面,首先需要设计先进的GPU处理器,在功耗允许条 件下,研发单GPU更多并行处理核心,努力提高运行频率。其次,通过优化高速缓 存设计,减少GPU访问内存延退,进一步提升单GPU芯片运行效率。第三,优化 浮点数表示格式,探索从FP16到FP8浮点数的表示格式,通过在芯片中引入新的 存储方式和精度,在保持一定精度条件下,大幅提升计算性能。最后,针对特定计算 任务,可在GPU芯片上集成定制化的硬件加速逻辑单元,这种基于DSA(Domain SpecificArchitecture)的并行计算设计,可提升某些特定业务领域的计算速度。 在GPU显存访问性能方面,为了将万亿模型的数据布放在数万张GPU显存上, 要求显存支持高带宽、大容量的能力,确保计算单元能够高效完成访存任务,维持系 统的低能耗运行。为便捷访问显存数据,建议GPU显存采用基于2.5D/3D堆叠的 HBM技术[6],减少数据传输距离,降低访存延迟,提升GPU计算单元与显存之间的 互联效率。 通过这些技术的实施,超方卡集群不仅能够为智算中心提供强大的单卡算力处理 能力,还能为未来更大规模的模型训练和推理任务奠定坚实的硬件基础。
1.2超节点计算能力
针对万亿模型的训练与推理任务,特别是在超长序列输入和MoE架构的应用背 景下,应重点优化巨量参数和庞大数据样本的计算效率,满足由此引发的AIl2AlI通信模式下的GPU卡间通信需求。为此,建议超万卡集群的改进策略集中在以下几个 关键领域:
加速推进超越单机8卡的超节点形态服务器
为满足万亿或更大参数量模型的部署需求,建议产业界致力于研制突破单机8卡 限制的超节点形态服务器,通过利用提高GPU南向的Scaleup互联能力,提升张 量并行或MoE并行对大模型训练任务的收益,实现性能跃升,缩短训练总时长,实 现大模型训练整体性能的优化。
加快引入面向Scaleup的Switch芯片
建议在节点内集成支持Scaleup能力的Switch芯片,以优化GPU南向的互 联效率和规模,增强张量并行或MoE并行的数据传输能力。通过引入 节点内的Switch芯片,以增强GPU卡间的点对点(PointtoPoint,P2P)带宽, 有效提升节点内的网络传输效率,满足大模型日益增长的GPU互联和带宽需求,为 大规模并行计算任务提供强有力的硬件支持。

优化GPU卡间互联协议以实现通信效率跃升
建议对GPU卡间互联协议进行系统性优化和重构,以提升AlI2All模式下的通信效率。通过重新设计卡间通信过程中的数据报文格式、引l入CPO(Co-Packaged Optics)/NPO(NearPackagedOptics)、提高和优化SerDes传输速率、优化拥塞 控制和重传机制以及多异构芯片C2C(Chip-to-Chip)封装等多种途径,提高超万卡 集群的GPU卡间互联的网络利用率,减少通信时延,实现带宽能力跃升,从而支持 所需的更高频次、更大带宽和更低延迟通信特性。
1.3多计算能力融合
面向超万卡集群,考虑到智算中心内部成倍增长的数据交换需求,通过堆叠CPU 资源来处理网络数据的做法无疑是低效且昂贵的,对此,智算中心的计算架构需要转 变方向,将原本运行在CPU、GPU中的数据处理任务卸载至具有层级化可编程、低 时延网络、统一管控等特性的DPU上执行,在大幅扩展节点间算力连接能力的同时, 释放CPU、GPU的算力,降低节点间的CPU、GPU协作成本,支撑集群发挥更大的 效能。
具体地,可以对智算中心进行软硬一体重构,打造计算、存储、网络、安全、管 控五大引擎,定义标准化的DPU片上驱动内核:
计算引擎卸载加速1/O设备的数据路径与控制路径,面向节点提供标准化的 virtio-net(Virtual1/ONetwork)、virtio-blk(Virtiual1/Oblock)后端接口,屏蔽厂商专用 驱动。
存储引擎在DPU上实现存储后端接口,可基于传统TCP/IP网络协议栈或 RDMA(RemoteDirectMemoryAccess)网络功能连接块存储集群、对象存储集群、文 件存储集群及文件存储集群,将节点的全类型存储任务卸载至DPU中完成。
网络引擎将虚拟交换机卸载至DPU上,采用标准的流表和卸载接口实现网络 流量的卸载,全线速释放硬件性能;同时集成RDMA网络功能,降低多机多卡间端 到端通信时延,提升多机间端到端通信带宽至400G级别,构建节点间数据交换的 “高速通道”。
安全引擎通过信任根机制以及标准的IPsec等加密通讯协议对系统和多租户网 络进行安全防护,并基于DPU提供有效的卸载方案。
管控引擎屏蔽裸金属、虚拟机和容器等算力单元的形态差异,实现DPU资源统一管理和全链路管控运维。
上述五大引擎为蓝图,中国移动于2020开始打造具有自主知识产权的磐石 DPU,并于2021年正式推出磐石DPU版本。经过移动云现网的打磨,中国移动持 ASIC架构,旨在围绕磐石DPU软硬融合重构算力基础设施,重新定义算力时代云计 算技术新标准,构建算力时代新技术曲线。 将以磐石DPU为代表的DPU芯片融入现有智算中心技术体系,将算力集群由 点间因数据1/O瓶颈而产生的算力孤岛,突破现有技术架构下的集群规模极限,使超 万卡集群成为可能。
1.4极致算力能效比
在制程工艺相对固定的条件下,芯片的高性能无疑会增加芯片的功耗,从而影响 整机的散热。面对高性能计算芯片功率密度急剧上升的现状,需要通过制冷系统和 GPU芯片两方面进行优化。 在制冷系统方面,当前单机8卡GPU服务器功耗已经数倍于通用服务器,由于 GPU的散热量大幅增加,为了增加计算密度,节省空间,超万卡集群建议采用当前较 成熟的高密度冷板式液冷机柜,一个液冷机柜可容纳多台液冷GPU训练服务器,相 比传统风冷机柜大幅提升空间利用率。 在GPU芯片方面,为了提升GPU单芯片的能效比,应采取多领域的优化策略, 实现高性能与低能耗之间的平衡。在芯片工艺领域,建议采用更加先进的半导体制造 工艺,如7nm或更小的特征尺寸,以此降低晶体管的功耗,同时提升单芯片集成度。 此外,应加强超方卡集群内GPU架构的创新设计,包括优化片上总线设计、改进流 水线结构、优化电压和频率策略以及精确的时钟门控技术,从而在不同工作状态下实 现最优的能耗效率。在软件层面,超万卡集群应采用更加精细的监控和分析,实时跟 踪GPU的运行数据,并不断优化算法和工作负载分配,以实现更加均衡和高效的算 力利用。通过上述设计和优化,不仅能提高用户的计算体验,降低成本,也为智算中 心可持续发展和绿色环保提出了可行方案。
2.高性能融合存储技术
为了实现存储空间高效利用、数据高效流动,并支持智算集群大规模扩展,超万 卡集群应来用多初议融合和自动分级存储技术,提开智算数据处理效率,助力超卡 集群支撑千亿乃至万亿大模型训练。
2.1多协议融合
超方卡集群融合存储底座承载AI全流程业务数据处理,兼容AI全流程工具链 所需的NFS(NetworkFileSystem)、S3(SampleStorageService)和并行客户端 POSIX(PortableOperatingSystemInterface)等协议,支持各协议语义无损,达到 与原生协议一样的生态兼容性要求,在不同阶段实现数据零拷贝和格式零转换,确保 前一阶段的输出可以作为后一阶段的输入,实现AI各阶段协同业务的无缝对接,达到 “零等待”效果,显著提升大模型训练效率。
2.2集群高吞吐性能
为满定超卡集群大模型对于存储高吞吐性能需求,基于全局文件系统技术,可 支持超3000节点扩展规模,为大模型训练提供百PB级全闪存储大集群能力,从闪 存密度、数据面网络、并行客户端和对等通信机制等多个维度全面提升存储系统性能, 实现存储集群10TB/S级聚合吞吐带宽、亿级1OPS,智能算力利用率提升20%以上, 大模型checkpoint恢复时长从分钟级提升垒秒级,同时对高价值智算存储数据提供 强一致性访问和99.9999%可靠性能力。
2.3高效分级营理
超万卡集群数据量巨大,其中大部分是温冷数据,统筹考虑性能和成本因素,规 划普通性能、高性能两类存储集群。普通性能存储集群使用混闪存储介质,具备低成 本和大容量优势,提供温冷数据存储;高性能存储集群使用全闪存储介质,为大模型 训练提供数据高吞吐能力,主要用于存放热数据。为智算应用高效管理和访问数据, 两类存储集群应该对外呈现统一命名空间,提供基于策略的数据自动分级流动能力, 实现冷热数据按照策略自动流动,避免人工频繁介入,提升存储系统整体运行效率。
3. 大规模机间高可靠网络技术
超万卡集群网络包括参数面网络、数据面网络、业务面网络、管理面网络。业务面网络、管理面网络一般采用传统的 TCP 方式部署,参数面网络用于计算节点之间参数交换,要求具备高带宽无损能力。数据面网络用于计算节点访问存储节点,也有高带宽无损网络的诉求。超万卡集群对参数面网络要求最高,主要体现在四个方面:大规模,零丢包,高吞吐,高可靠。
目前业界成熟的参数面主要包括IB(InfiniBand)和 ROCE 两种技术。面向未来AI 大模型演进对网络提出的大规模组网和高性能节点通信需求,业界也在探索基于以太网新一代智算中心网络技术,包括由中国移动主导的全调度以太网(GlobaScheduled Ethernet,GSE)方案[6]和 Linux Foundation 成立的超以太网联盟(UltraEthernet Consortium,UEC),两者通过革新以太网现有通信栈,突破传统以太网性能瓶颈,为后续人工智能和高性能计算提供高性能网络。中国移动也将加速推动 GSE技术方案和产业成熟,提升 AI网络性能,充分释放 GPU 算力,助力 AI产业发展。
3.1大规模组网
根据不同的 A 服务器规模,参数面网络推荐采用 Spine-Leaf 两层组网或胖树(Fat-Tree)组网。
每 8台 Leaf 交换机和下挂的 AI 服务器做为一个 group,以 group 为单位进行扩展。在 group 内部,推荐采用多轨方案将AI 服务器连接至 Leaf 交换机,即所有 AI 服务器的 1号网口都上连至 Leaf1,所有2号网口上连至 Leaf2,依此类推,所有8号网口上连至 Leaf8。Spine 交换机和Leaf 交换机之间采用 Fullmesh 全连接。Leaf 交换机上下行收敛比为 1:1。

胖树(Fat-Tree)组网由 Leaf 交换机、Spine 交换机和 Core 交换机组成。每 8 台 Leaf 交换机和下挂的 A 服务器做为一个 group,8 台 Leaf 交换机又和上面 N台 Spine 交换机组成一个 pod,胖树组网以 pod 为单位进行扩展。在胖树组网中,Spine 交换机和 Leaf 交换机之间采用 Fullmesh 全连接,所有Spinel 都 Full-Mesh 连接至第一组 Core,所有 Spine2 都 Full-Mesh 连接至第二组 Core,依次类推。Spine 交换机和 Leaf 交换机上下行收敛比都为 1:1。
3.2 零丢包无损网络
分布式高性能应用的特点是“多打一”的 Incast 流量模型。对于以太交换机,Incast 流量易造成交换机内部队列缓存的瞬时突发拥塞甚至丢包,带来应用时延的增加和吞吐的下降,从而损害分布式应用的性能。AI人工智能计算场景通常采用ROCEV2 协议与 DCQCN(Data Center Quantized Congestion Notification)拥塞控制机制相互配合实现零丢包无损网络。
DCQCN 要求交换机对遇到拥塞的报文进行ECN(Explicit CongestionNotification)标记,传统方式的ECN 门限值是通过手工配置的,这种静态的ECN水线无法适配所有的业务流量模型;水线配置低了,频繁进行ECN 通告,网络吞上不来;水线配置高了,可能导致频繁触发PFC(Priority-based FlowControl),影响整网的其他业务流量。因此建议在参数面网络和数据面网络里部署动态CN 技术,通过 AI算法,根据网络业务流量模型,计算出对应的ECN 水线配置,达到在保证吞吐的同时,尽量维持较低的队列时延,让网络的吞吐和时延达到最佳平衡。
无论是静态 ECN 还是动态 ECN,本质上都是被动拥塞控制机制,通过反压源端降低报文发送速度来保证网络无损,实际上并没有达到提升吞吐率效果,反而降低了GPU 利用率。因此,中国移动提出 GSE 技术,通过全局动态的主动授权机制,从根本上最大限度消除网络拥塞,减少网络设备队列资源的开销,降低模型训练任务的长尾时延,突破 ROCEv2 性能瓶颈。
3.3 高吞吐网络
AI 人工智能计算场景的流量特征是流数少、单流带宽大。传统的ECMP(EqualCost MultiPath)是基于5 元组的逐流 HASH,在流数少的时候极易出现 HASH 不均的情况,建议使用端口级负载均衡技术或算网协同负载均衡技术代替传统的ECMP。端口级负载均衡部署在 Leaf 交换机上,以源端口或目的端口作为数据流均衡的影响因子,在一个端口组内将归属于不同端口的数据流均衡到本地出端口集合上,消除传统基于五元组哈希的不确定性。
除此之外,还可以在参数网络里部署算网协同负载均衡技术,AI调度平台把任务信息通知给网络控制器,网络控制器结合已经建立的整网拓扑信息,进行整网最优转发路径计算,计算完成后自动生成路径并动态下发到网络设备,实现多任务全网负载均衡。使网络吞吐可以达到 95%以上,接近满吞吐。
3.4高可靠网络
超万卡集群中网络作为业务流量的调度中枢,其稳定性决定着整个集群的运行效率。在典型的 CLOS 组网中,交换机之间都有多条路径,当一条链路出现故障的时候通过感知端口状态、路由收敛、转发路径切换等操作,完成流量从故障链路到备用链路的收敛。但是这个时间一般在秒级。然而在 A1场景里面,每次通信时间在毫秒级别,秒级时间内正常情况下已完成了多轮通信。如果依靠传统的路由收敛方式,将极大的影响 AI 计算效率。
DPFR(Data Plane Fast Recovery)技术在此场景下,可以做到毫秒级收敛,提供基于数据面的本地快收敛或远程快收敛。特性包含故障快速感知,故障本地快速收敛,故障通告生成、接收和中继处理,故障远程快速收敛和表项老化处理。针对关键应用,尽量做到应用无感知的故障快速收敛效果,即在链路故障发生时业务性能无明显下降。
4. 高容错高效能平台技术
智算平台是智算中心承载模型训练、推理和部署的综合性平台系统,在智算中心技术体系架构中承担着重要的角色,对算力基础设施进行统一纳管、调度、分配和全生命周期管理,主要包含对计算、存储、网络等 laaS 资源的云化管控,在此基础上通过云原生的容器底座能力,实现智算资源纳管分配、AI任务作业调度、拓扑感知调度、训练全链路监控等满足智算业务的核心需求。
随着模型参数量和数据量的激增,训练所需的单集群规模来到万级,但是智算平台的性能通常不能随着算力线性增长,而是会出现耗损,因此大模型训练还需要高效的算力调度来发挥算力平台的效能。而这不仅需要依赖算法、框架的优化,还需要借助高效的算力调度平台,根据算力集群的硬件特点和计算负载特性实现最优化的算力调度,来保障集群可靠性和计算效率。针对以上问题,业界多以断点续训、并行计算优化、智能运维等作为切入点,构建高容错高效能智算平台。
4.1 断点续训高容错能力
大模型训练面临的困难在于确保训练任务能够持续进行而不中断。在训练过程中可能会遇到硬件故障、软件故障、网络故障以及其他故障。这种频繁中断导致的训练进度的损失对于耗时又耗资源的大模型训练来说是难以承受的,需要具备自动故障检测和训练重启。当前业界大模型训练主要容错方案依赖于训练过程中周期性保存checkpoint,故障发生后从上一个周期性 checkpoint 重新启动训练。
基于平台的运维监控能力,可以实现对超万卡集群的软硬件故障检测和预警,但是当故障发生且导致模型训练中断或停止时,通常需要人工介入排查故障信息,隔离故障并重新触发容器 pod 资源调度,重新完成并行训练中集合通信的初始化,重新加载基于中断前最近一次保存的 checkpoint 信息,最后经历算子库的重新编译,完成训练任务的继续。
在断点续训过程中,checkpoint 是模型中断训练后恢复的关键点,因此checkpoint 密集程度、保存和恢复的性能尤为重要,checkpoint 本身的耗时与模型的大小成正比,当模型参数达到百亿甚至千亿时,checkpoint 的时间开销通常在几分钟到十几分钟之间。此时,训练任务需要暂停,使得用户难以频繁进行checkpoint操作,因此为保证训练效率,会适当拉长 checkpoint 保存周期。然而,一旦发生中断,之前损失的迭代次数在恢复时需要重新计算,需要花费更长的时间。
为解决该问题,需要尽量降低 checkpoint 流程的开销,既能大幅降低训练暂停时间,也能支持高频的 checkpoint 来减少容错时浪费的迭代步数。业界通常采用checkpoint 多级存储的方式,构建基于更高 10 性能的内存介质构建存储系统,相比于磁盘或者网络文件存储系统,checkpoint 在内存空间的保存可以大幅缩短训练暂停等待时间。同时,结合业务需求定期地将 checkpoint 异步写入到持久化的存储系统中,异步流程不干扰正常的训练。当发生故障导致训练任务重启时,由于内存系统中的 checkpoint 数据并未丢失,新启动的训练进程可以直接读取内存系统中的checkpoint 数据来加载模型和优化器状态,从而省去了读取网络存储系统的 10 开销。断点续训基于多级 checkpoint 存储、软硬件协同优化以及全栈系统级容错,实现训练任务分钟级恢复,在技术价值方面,实现故障检测、故障隔离、资源重调度、训练任务恢复无人工全流程自动化;在商业价值方面,作为智算平台关键特性提供给模型开发者使用,保障大模型训练任务长期稳定运行,提升用户满意度。
4.2 分布式并行计算优化
超万卡集群中分布式并行训练框架[81、[9]是标准配置,即在大规模算力资源池上搭建用于并行处理深度学习模型分布式训练任务的工具集合,其将训练任务划分为多个子任务,通过在多台计算机上并行执行,实现高效、可靠和快速的分布式大模型训练,提高模型的准确性和效率。
超万卡集群因节点数众多、资源类型不统一、数据量大、网络环境复杂,给大型训练带来了许多挑战。
挑战一:实现大规模的高效率训练。ModelFLOPs utilization(MFU)是实际吞吐量与标称最大吞吐量之比,是评估模型训练效率的通用指标,可以直接反映端到端的训练效率。为了训练大模型,需要将模型分布为多个 GPU上,并且 GPU 之间需进行大量通信。除了通信之外,如操作符优化、数据预处理和 GPU 内存消耗等因素对MFU 也有着显著影响。
挑战二:实现训练的高稳定性,即在整个过程中保持高效率训练。在大模型训练中,稳定性十分重要,失败和延迟虽是大模型训练中的常态,但其故障成本极高,如何缩短故障恢复时间至关重要。
4.3超万卡集群智能管控
随着智算集群规模不断扩大,集群运维管控与集群应用之间的矛盾日益凸显。随着单集群的 AI 加速卡数量从从千级增长到万级,相应的故障范围扩大超过10倍。典型故障范围从单服务器单卡迅速扩散到算网存多域全栈。为彻底改变这一运维困境亟需引入新的运维理念和技术,以集群全链路可视化监控、故障快速定位和运维侧快速修复为原则来建设新的集群计算智能运维系统。
超万卡集群智能运维系统需要具备算、网、存协同管理的端到端系统运维管理能力,包括计算设备、网络设备、存储设备、光模块设备管理、控制以及分析等全生命周期运维管理能力,提升训练效率、降低训练成本,实现大模型训的快、训的稳、训的好。
新的集群智能运维管理系统从底层建设开始应具备统一的容器化平台与公共技术底座。系统南向的实现应采用统一的采集框架,统一对被管理的计算、存储、网络、光模块单元进行资源、性能、告警、日志、拓扑等信息的采集,并存放到集中数据底座中。运维系统应构建公共的服务及数据底座,为整个系统提供基础服务及数据存储能力,并基于容器化平台与公共技术底座构建基础的公共服务,提供资源管理、服务编排、监控、作业运维等功能,实现对万卡智算集群的智能运维服务。
集群计算智能运维管理系统在实际业务布局中应具备与 AI作业任务密切相关的能力。一般情况下应具备 AI作业路径可视功能、环境健康检查功能、AI训练作业故障诊断、集群环境管理、集群资源管理、服务器管理以及监控分析等能力。
5. 新型智算中心机房设计
面向高密度高能耗智能算力发展,对于部署超万卡集群的新型智算中心来说,需要在确保智能计算设备安全、稳定、可靠地运行的前提下,具备高效制冷、弹性扩展、敏捷部署、绿色低碳等特征,并实现智能化运维管理。新型智算中心机房的关键要素如下:
5.1 高效制冷
智算中心催生了海量算力需求,芯片 TDP 不断攀升,风冷难以散热,同时也带来总功耗不断增加,散热和能耗成为智算中心迫在眉睫的问题,液冷具有散热效率高以及支持更高功率处理器的优势,近年得到了快速发展,可推动扩大解耦型冷板液冷或单相浸没液冷技术应用范围及推动交换机等网络设备应用液冷,解决高密服务器散热的同时降低智算中心整体能耗,另外解耦冷板液冷可以实现基础设施侧与IT 设备侧解耦,实现智算业务快速弹性部署。
5.2 弹性供电
智算中心具有高密度、负载率波动大的特点,需弹性供电以适配不同计算任务需求。供电系统将采用大容量、模块化高效不间断电源,形成电力资源池,以每列智算机架为颗粒度,预留高密机架和普通密度机架互弹条件,提高系统效率和灵活性;采用末端小母线供电(或列头柜预留出线回路)的机柜供电方案,提升末端供电的灵活性。对于未来超高功率的智算机柜,采用放射式供电、高集成度电力模块等方案,节省占地,提升平面布局的灵活性。
5.3 敏捷部署
智算业务需求短时爆发,敏捷部署的智算中心成为刚需。新型智算中心规划建设时,可采用一体化电源系统、预制集成泵站模式、集装箱式智算中心、模块化智算中心等预制模块化建造技术,缩短工程交付周期,实现快速部署。
5.4 绿色能源应用
新型智算中心应积极应用绿色能源技术,实现低碳零碳算力和可持续发展。新型智算中心应结合园区选址特点与周边环境条件,因地制宜部署分布式光伏、风力发电等系统,实现清洁能源的就地生产与消纳,通过电力交易、绿色证书交易等模式采购可再生能源电力,提升绿色能源使用比例。随着氢能应用技术的发展,智算中心可内逐步规模化应用氢燃料电池。
5.5 智能化运维管理
借助大数据、AI 技术、数字孪生等技术,构建新型智算中心的智能运维管理体系。运用 AI 算法预测设备故障、优化能源使用、智能调度资源,实现主动运维、精准运维。通过机器学习、大数据分析等技术,对智算中心的运行数据进行深度挖掘,提升故障诊断、性能调优、容量规划等方面的决策准确性与效率。