高性能数据中心网络关键技术有哪些?

高性能数据中心网络关键技术有哪些?

最佳答案 匿名用户编辑于2025/04/02 11:00

在大规模复杂网络中,采用层次化的负载均衡方式更加行之有效,通过不同层级的负载均衡的配合,弥补单一负载均衡方案的缺陷,以更好达到全网流量均衡和高吞吐的目的。

1.超大规模组网关键技术

1.1 大规模组网交换机:硬件基础,容量速率双升

传统两层组网容纳GPU卡数量有限,很难满足万卡以上规模组网。超大容量交换机+三层组网模型是支持十万卡及以上规模GPU集群的主流技术路线之一。51.2T高性能网络为数据中心提供最高带宽密度、最低延迟、最低功耗和最低成本,满足大规模数据中心对于高速、低延迟网络传输的需求,助力构建大规模、高能效的智算网络集群。在实际应用中,51.2T交换机可以通过支持128个400G接口或64个800G接口,来实现51.2T容量的数据交换。

800G以太网也成为升级的趋势。当前PCIe Gen5 NIC速度仅支持400GbE链路,而2至3年后的PCIe Gen6 NIC中,800GbE有望用于主流服务器和存储设备。预计800G以太网将进入商用阶段,高速以太网将持续发展。 在图5的组网中,Leaf/Spine交换机可采用64 x 800G交换机,主要搭配使用800GOSFP或QSFP-DD800光模块。根据设备之间传输距离的不同,可采用800G SR8(50m)、800G DR8(100m或500m)或者800G 2xFR4 (2km)光模块来满足需求,灵活满足中大规模AIGC集群运算效能。

1.2 大规模组网路由协议:可扩展快速部署,组播能力提供

良好扩展能力 拓扑可以支持水平扩展,升级时只需添加更多相同类型的链路和网络设备,无需升级网络本身。  协议/部署简单 实现复杂度低,互通性高的协议可以大幅减少网络的维护成本。所选择的路由协议应该通过简单方式就能部署,避免操作维护过于复杂。支持ZTP(Zero Touch Provisioning)的协议更具有优势。  故障快速收敛 在网络中有链路或者节点出现故障时,需要支持快速收敛,以便服务的迅速恢复,并且需要严控故障的扩散范围,以免引起整网的拓扑动荡。  组播能力 在大模型等智算训练操作中,需要将大规模数据进行GPU间的同步,网络中组播能力的提供,能大量减少相同数据所消耗的带宽,提高数据同步的效率。

2.超高稳定性关键技术

2.1 故障无感恢复:硬件检测,多级保障

为了实现设备级故障和网络级故障无感恢复,需要以芯片能力为基础提供保障。 设备级保障  隐患光模块劣化趋势分析和预警 一个智算中心可包含数万块高速光模块,任何一个光模块的故障都可能导致整个AI训练任务被中断。智算交换机基于DOM功能实时监控上报光模块运行状态数据,例如输入和输出功率、温度、电压等;管控平台内置光模块劣化趋势智能分析组件,实时监测各光模块的DOM信息,自动识别光模块劣化风险,在光模块发生信号丢失等故障前提前预警,避免模块故障导致业务受损。  微秒级缓存突发监测和毫秒级高精度速率统计 AI大模型训练流量具有高吞吐、微突发、高频次的明显特征,原有基于CPU软件的传统网络性能质量监测技术已无法适用。智算交换机依托自研芯片可编程能力,在芯片各级Pipeline中按需灵活挂接高精度Counter监测指示器,提供端口、队列、流量等不同粒度毫秒级流量速率统计和微秒级缓存微突发事件监测能力,在整个大模型训练过程中,实时监测网络的性能质量。

亚毫秒级故障通知和切换 交换机芯片提供如下能力: 1)硬件丢包环回。对发送给MAC的业务报文,当硬件识别出该端口故障,则会自动将该业务报文环回到发送端,芯片重新查找转发表项获取备用端口发送出去,从而避免丢包。2)MOD丢包捕捉和记录上报。MOD通过实时捕捉并分析芯片层面各类常见丢包事件(如路由未命中、MTU错误等),精准记录丢包原因及被丢弃报文的关键特征并自动推送给控制分析器。 基于以上能力,交换机的自适应路由功能满足了亚毫秒级故障链路切换的需求。交换机芯片实时监测所有端口/队列转发质量情况,监测到故障或丢包后,首先在本地尝试进行换路,若本地无可用冗余路径,芯片自动生成ARN消息通知上游节点,消息中携带受故障影响的业务报文特征信息;上游节点收到ARN消息时,利用报文特征信息查询本地表项尝试进行换路,整个端到端ARN处理和换路可在毫秒内完成,满足达到亚毫秒级的故障链路切换需求。

络级保障  A:B双平面设计 每张DPU网卡支持2×200Gbps超高带宽,在一个Group中实现GPU数量和通信带宽倍增。双平面设计不仅提升了智算中心组网规模,并且 中兴通讯版权所有未经许可不得扩散 21 缓解网卡、光模块、光纤、交换机端口等硬件问题引发的异常,当上行链路或对应交换机故障,流量将无缝切换至另一端口提供服务,训练任务不会中断,仅轻微影响训练速度。

端网协同毫秒级故障自愈 在A:B双平面的网络中,还可以在交换机和DPU网卡上同时开启ARN自适应路由功能,通过端+网协同工作来提升跨平面故障切换性能,实现整网毫秒级端到端故障自愈。

2.2 链路级可靠:轻量级 FEC,链路层重传

AI大模型训练网络需要更高的传输速率。对于给定的波特率,四电平脉冲幅度调制(PAM4)能有效地将比特率提高到不归零 (NRZ) 的两倍,从而提高了高速光传输的效率,并显著降低了PAM4信令传输信道中的信号损耗,因此400G及以上以太网速率采用PAM4编码。 但PAM4信令更容易受到噪声的影响,导致更高的误码率 (BER)。假设FEC纠错后的BER为1e-12,则一个包含256个GPU的POD内估计每秒将产生2700个错误帧。虽然PAM4可以采用高级前向纠错 (FEC),以满足更低的BER需求,但更复杂的FEC机制会显著增加延迟。 PCIe和InfiniBand采用了另一种路线,基础思路为,接收器首先使用轻量级FEC(即使用6字节FEC 和额外的8字节CRC保护242字节块)来纠正大部分比特错误,然后检查CRC。如果此检查失败,接收器将启动一个简单的链路层重传协议以再次请求数据。在以太网上采用低时延FEC叠加链路层重传功能,也能显著降低网络时延,并确保网络可用性。

以IEEE802.3 400GE为例,当前400GE基于PAM4信令并采用RS(544,514)作为FEC方案。FEC纠错前的BER为 2.4e-4,RS(544,514)在物理编码子层的延迟约为62.6纳秒。假设在150米的400 Gb/s以太网光纤链路上传输N个64字节帧,每N帧会有1个帧丢失,1个帧的往返时间 (RTT) 约为2000纳秒。 但如果将RS(544,514) 替换为RS(272,258),并对由于采用RS(272,258)的帧丢失率(FLR)较高而导致的额外丢失帧应用链路层重传机制,则能够带来显著的延迟降低。如表1所示,上述场景中,延迟收益计算结果为每1.57e6个帧可以节省4.44e7纳秒。可以看出,链路级重传的延迟成本微不足道,远小于轻量级FEC节省的延迟收益。

3.极致高性能关键技术

3.1 层次化负载均衡:整网规划,局部调优,多粒度负载均衡

在大规模复杂网络中,采用层次化的负载均衡方式更加行之有效,通过不同层级的负载均衡的配合,弥补单一负载均衡方案的缺陷,以更好达到全网流量均衡和高吞吐的目的。层次化负载均衡方案主要包括以下技术内容:  全局负载均衡(IGLB),根据算侧任务流量特征及网络负载状态进行全局路径规划和控制。网络控制器可通过API接口接收算侧调度平台传递的流量特征信息,基于特征信息进行路径的预规划。

本地自适应路由,交换机本地根据出口负载状态,动态选择出口。在全局规划的前提下,主要针对网络突发事件引起的瞬时流量不均,及时对路径进行局部调整。 远端自适应路由通知,在本地无其他满足条件的可用路径时,通过数据面报文通知上游节点进行切换,完成远端路径快速调整。

在负载均衡的粒度选择方面,主要的考虑如下:  逐包喷洒均匀度最好,但端侧乱序重排需要较大的缓存,同时还要兼顾时延和实现成本;此外逐包喷洒的情况下还需要考虑防止故障半径的扩散,以及不固定的转发路径对网络运维带来的难度。  传统的每流基于五元组哈希方式在AI训练场景下容易导致哈希极化和负载不均,但配合层次化负载均衡技术,从全局视角尽可能将大流分担到不同链路上,避免同一时间多个大流共用链路,也可以以较小的实现代价提升网络中流量的均衡度。 新型转发技术为网络负载均衡提供了其他的粒度。例如在分布式全调度网络(DSF)技术路线中,流量按报文单元或容器对报文进行转发,通过对报文单元的路径编排,在尽可能保序的同时也提供了较好的负载均衡效果。

3.2 拥塞控制:算法无关,迅捷智能

3.2.1 智能无损的拥塞控制(AI-ECN)

分布式计算与分布式存储的设计,会导致多个服务器同时向一个服务器传输数据的多打一现象,造成拥塞丢包,严重影响网络的时延和吞吐性能。

数据中心网络通常采用ECN机制进行流量速率控制,流量接收端感知到网络上发生拥塞后,通过协议报文通知流量发送端,使得流量发送端降低报文的发送速率,从早期避免由于拥塞而导致的丢包,实现网络性能的最大化利用。

 

智能无损功能是对基础ECN功能的扩展和增强,算法模型基于网元智能化架构,利用强化学习与启发式算法,通过实时监控交换机队列的拥塞情况,动态调整ECN水线,实现丢包、吞吐与时延的最优,满足不断增长的大模型算力需求。强化学习算法具有非常好的适应能力,通过离线训练加在线训练的方式,可以应用于多种不同的场景,对于未知的流量模型,当离线训练的算法模型表现不佳时,则启动在线训练,实时学习流量模型,进行精准参数调控。启发式算法通过逐步试探的方式进行参数调整,慢慢逼近最优解,算法计算量极低,所需资源少,具备很强的可部署性,可以轻松支持大规模队列的ECN调控。基于应用场景及可用资源情况,强化学习算法与启发式算法既可以分开部署,也可以统一部署,无论是分开部署还是统一部署,此类智能算法的使用均能带来远优于基础ECN功能的更好的拥塞控制效果。

3.2.2 端网协同的拥塞控制(ENCC)

精细化拥塞控制

无论是基础ECN还是扩展和增强后的ECN,位于IP报头中的ECN字段始终只包含2比特信息,能表示的拥塞信息有限,无法支持更精细化的拥塞控制算法,如业界流行的HPCC++算法。 为了支持HPCC++等更精细化的拥塞控制算法,业界提出了多种带内遥测机制,较为有影响力的包括INT、IFA和IOAM,以及新提出的CSIG等。其中,INT、IFA和IOAM非常相似,属于同一类的长度递增型拥塞控制信号,也即从发送端到接收端长度逐跳增加的拥塞控制信号;携带此类带内遥测扩展头的业务报文在经过每一跳交换机时,都会被添加上诸如队列深度、传输时延这样的拥塞控制信息;这些拥塞控制信息逐跳叠加,直到由最后一跳交换机或接收端反馈给发送端,完成拥塞控制闭环。拥塞信令CSIG则与INT、IFA和IOAM存在较大差别,属于另一类的长度固定型拥塞控制信号,也即从发送端到接收端长度始终保持不变的拥塞控制信号;携带此类带内遥测扩展头的业务报文在经过每一跳交换机时,都不会被添加上新的拥塞控制信息,而是由交换机对扩展头中已有的拥塞控制信息,诸如最小可用带宽、最大节点时延,进行可能的修改;这些已有的拥塞控制信息经过逐跳的可选性修改,由最后一跳交换机或接收端反馈给发送端,完成拥塞控制闭环。

总体来说,尽管INT、IFA、IOAM、CSIG所携带的拥塞控制信号各异,且分别适用于如BBR、Poseidon、HPCC++等各种各样的拥塞控制算法,当前也各自定义了不同的封装格式,但这些带内遥测机制有着同样的拥塞控制原理。所以采用统一的、标准化的封装格式来兼容各种拥塞控制信号是可行的,也是有必要的。

快速反馈拥塞信息

随着高性能网络规模的不断扩展,一个高性能网络所覆盖的范围已经不局限于单个数据中心机房,甚至不局限于单个数据中心楼宇或单个数据中心园区。在这些情况下,由流量接收端来向流量发送端反馈拥塞通知已经不能满足极致低时延的要求,这就需要引入快速CNP功能。快速CNP是由检测到拥塞的中间交换机直接向发送端反馈拥塞通告,而无需先把拥塞情况告知接收端,再由接收端向发送端反馈。这种拥塞通告反馈链的缩短在长距离RDMA应用场景下能带来显著的收益。目前,业界已有多种私有的快速CNP技术方案,这些方案一个共同的缺陷就是要求发送端和交换机来自同一供应商,不利于快速CNP方案的灵活部署,所以快速CNP方案的标准化就显得尤为必要。

参考报告

面向智算场景的高性能网络白皮书.pdf

面向智算场景的高性能网络白皮书。智算场景的普惠化正带来新一轮网络技术的革新浪潮。随着生成式人工智能的发展,AI大模型参数量从GPT-3.5的1.75亿,到GPT-4的1.8万亿,预计未来GPT-5将达到十万亿参数规模,迅速膨胀的AI模型需要更大规模的算力集群执行训练。AI大模型以GPU集群分布式训练为基础,根据阿姆达定律,串行占比决定并行效率上限,网络成为影响算力的重要因素。AI训练任务的高精度并行协同特性以及超大集群互联吞吐量对网络性能提出了数量级的提升需求。AI大模型训练的时间往往长达数月,也使得网络的长稳运行变得前所有未有的重要。从网络流量模型来看,AI大模型训练流量与通算流量呈现出完全...

查看详情
相关报告
我来回答