数据中心网络交换机技术趋势分析

数据中心网络交换机技术趋势分析

最佳答案 匿名用户编辑于2024/01/19 13:45

超大规模智算集群对整个数据中心基础设施提出了非常高的要求,能耗、网络等基础设施首当其冲。

1.芯片技术的演进趋势

数据中心网络对交换机性能的渴求直接推动了以太网交换芯片的飞速发展。以 Broadcom 为数据中心开发的数据中心交换芯片Tomahawk 系列为例,第一代 Tomahawk 芯片于2014 年下半年发布,带宽 3.2Tbps,采用 25Gbps SERDES 技术,支持32 个100G 端口或者 128 个 25G 端口;2022 年下半年,Tomahawk5 发布,单芯片带宽高达 51.2Tbps,采用 112Gbps SERDES 技术,支持64 个800G端口或 256 个 200G 端口。 芯片性能的急剧飙升必然带动芯片总体能量消耗的增加。尽管芯片加工工艺从 2014 年普遍采用的 22nm 制程快速演进到2022年最新的 5nm 制程的过程,以及芯片工作电压的持续降低已经有效地帮助复杂芯片大幅降低功率,但是 16 倍的性能提升预计依然需要使芯片增加 4 到 6 倍的能量消耗(参考 Rakesh Chopra,“Cu Beyond112Gbps”估算)。

巨大的能量消耗使得芯片的散热面临严峻挑战。从公开的信息可 以 看 出 , 为 了 降 低 芯 片 的 热 阻 ,降低芯片散热难度,与Tomahawk3 相比,Tomahawk5 去除了芯片的金属顶盖,采用BareDie 的封装形式,使得散热器可以直接与芯片Die 接触。这样做有效降低了芯片核心与外界的温差,但也将最脆弱的Die 暴露在外,交换系统的散热挑战变成了散热与机械冲击的双重挑战。

芯片的封装改变还体现在尺寸上。一方面,8 年芯片带宽扩大16 倍,这其中 SerDes 速率从 25Gbps 提高到112Gbps 带来了4倍的提升,而另外 4 倍增长则源于 SERDES PIN 数量增加的贡献;其次,为了改善 SerDes 速率提升后的信号完整性水平(SI,SignalIntegrity),提高信噪比(SNR),高速SerDes PIN 的周围需要有更多的地 PIN 用来做保护和信号回流;最后,芯片功率的提升和工作电压的下降意味着需要更多的电源和地PIN 用于芯片供电。这一切都意味着芯片尺寸将显著增加。当然,也有反向因素。为了改善高速信号的信号完整性水平,高速信号 PIN 与地PIN 之间的距离需要缩小,这会减小芯片 PIN 之间的间距(Pitch),有助于部份环节芯片尺寸的增长速度,综合以上因素,预计在2014 到2022 的8年间,芯片尺寸已经增长 2~3 倍(参考 Rakesh Chopra,“Cu Beyond112Gbps”估算),而且还有继续增长的趋势。这将给芯片的焊接带来巨大的挑战,而芯片封装也可能被迫做出进一步的改变。事实上,Tomahawk 4 芯片的部份型号曾经采用过不需要焊接的LGA 封装形式。

基于相关信息,我们预测下一代的以太网交换芯片的一些趋势:考虑到基于 112Gbps SerDes 的网络尚未规模商用,下一代的交换芯片很有可能将继续沿用 112Gbps SerDes 作为102.4T 容量的方案之一。 芯片带宽继续翻倍,达到 102.4Tbps。这意味着将需要1024-lane 112G-PAM4 SerDes 或 512-lane 224G-PAM4 SerDes。芯片物理尺寸将进一步变大,芯片物理封装方式、装配方案将进一步受到挑战。 尽管可以预期使用 3nm 工艺节点,芯片电压进一步降低,但芯片的功率将依然不可避免地进一步增加,存在单芯片超过1000w的可能。

2.光互联方案的演进趋势

随着交换机 SerDes 速率的迭代,光互联技术一直在进行快速的迭代,这从各种层出不穷的 MSA 协议,以及对光口速率的不断提升的要求,和对功耗降低的诉求等都可以看的出来。当前阶段光口的速率已经步入 224G 的代际,陆续有厂家推出了224G 光信号的产品。就 112G/lane 的 400G 或 800G 产品来说,QSFP112,QSFP-DD800,OSFP 等封装类型均为当前数据中心的主流,但到下一代基于224G/lane 的 800G 或 1.6T 带宽的可插拔模块以后,电光界面的信号完整性性能以及模块功耗密度的挑战进一步提高,对用户来说合适的模块封装类型和交换机端口类型选择将越来越收敛。不过随着技术的进步,产品的单 bit 功耗也在逐步降低,系统散热技术也有新的突破,这些都为 800G 或 1.6T 甚至3.2T 可插拔的应用带来了比较乐观的前景。

一方面部分设备厂家认为可插拔光模块可以支持到1.6T甚至3.2T,尤其是 LPO 方案(功耗大为降低)面世以来以及有些厂家提供了强大的 SerDes,业界对于可插拔模块的应用更为乐观。但市场上仍然陆续有厂家推出 CPO 原型机进行相关技术的实践探索。对于CPO 的优劣势分析已经持续很多年,CPO 是否会终结可插拔光模块,或者部分应用采用 CPO 方案,就目前的情况来看,还需要生态、技术、用户等诸多方面的成长。CPO 的部分本文就不在赘述。

3.电互联方案的演进趋势

224G-PAM4 速率下电通道带宽进一步受到挑战。前面板可插拔模块交换机的电互联方案主要有如下几种:

传统 PCB 方案:该方案使用传统 PCB 实现,可以是ASIC 直出端口,也可以是经过扣卡或背板连接器到端口。当跨板接到面板端口的时候,根据实际链路损耗情况,有可能需要在链路中间增加Retimer。除了需要解决各部分电连接器的 224G-PAM4 带宽问题、长距离PCB 传输线的损耗问题、该方案的关键点为大量的 SerDes 走线下的PCB 层面规划,板厚可能去到 6mm,在此条件下的 PCB 生产工艺难度是非常大的挑战。

NCC 方案:NCC 方案为线缆飞线方式,从 IO 连接器尾部直接出线缆接到ASIC 附近,整个链路只有较短的 PCB 走线,可以降低整个链路的损耗。该方案的关键点为 PCB 板内空间紧张,板内端子需要高密度连接器,可能只有少部分链路可以使用这种线缆飞线方式。线缆虽然可以代替 PCB 到提供更低的损耗,但是在224G-PAM4通道上也同时带来了多个连接器处的阻抗不连续性挑战。更多的线束同时也带来系统内风阻的影响,进一步调整了高功率模块、芯片的散热方案。

CPC 方案:CPC 方案使用的 ASIC 芯片与常规芯片不同,在芯片上需要预留socket 座子,然后 IO 连接器尾部直接飞线到芯片上的socket座子。该方案特点是高速信号不走 PCB,对 PCB 板材损耗没有特别要求,线缆直接从芯片连接到面板 IO。 此方案的目标是和 CPO 技术共用界面。其相比NCC 方案的电通道更具连续性,但是最大的挑战是高密度铜线封装问题、线缆本身的性能挑战。

参考报告

数据中心224G可插拔模块交换机方案研究报告.pdf

数据中心224G可插拔模块交换机方案研究报告。通用人工智能离我们越来越近,全世界的关注和投入正在带来日新“周”异的变化。回顾人工智能的诞生和发展历程,人类计算能力的进步几乎牵动了每一次的重大技术突破,当前的大模型热潮更是如此,只是动辄千万亿参数级的模型体量,所需计算资源远超单颗芯片的上限,因此超大规模的计算集群成为支撑技术发展和应用创新的关键基础设施。超大规模智算集群对整个数据中心基础设施提出了非常高的要求,能耗、网络等基础设施首当其冲。其中数据中心物理网络的迭代需求再次被提速,如何构建大(规模)、快(速率&带宽)、高(性能)、省(成本)、低(能耗)的网络来满足...

查看详情
相关报告
我来回答