交换机市场不断扩容,关注 AI 以太网渗透及 400G/800G 高速化趋势。
1.全球以太网交换机市场不断扩容,数据中心场景是未来重点
全球以太网交换机市场不断扩容。根据 IDC,2023 年全球以太网交换机市场规模达到 460 亿美元,同比增长 18.8%,连续两年增速高于 18%,23 年增速达到 2014-2023 年区间新 高,主要系 23 年 AIGC 带动下北美交换机厂商率先放量,2018-2023 年全球以太网交换机 市场规模 CAGR 为 9%。从出货量来看,2023 年全球以太网交换机端口出货量达 9.07 亿 个,同比增长 5.4%,较 2021/2022 年出货量增速 18.6%/12.6%有所下降,系 AI 与云计算 组网趋势下 100G 以上高速率端口出货增加,而低速端口出货减少所致。
未来空间:28 年全球数据中心交换机潜在市场空间接近 400 亿美元。根据 Arista 2Q24 业 绩推介材料援引 650 Group 预测,2028 年全球数据中心(以太网)交换机市场空间接近 400 亿美元,其中北美 TOP 5 云厂商(亚马逊、苹果、Meta、谷歌、微软)将贡献接近 200 亿美元,占比 50%;2028 年全球园区(以太网)交换机市场空间超 200 亿美元。综合来看, 650 Group 预测 28 年全球以太网交换机市场规模约 600 亿美元,数据中心潜在空间占 2/3。
2.需求:24 年北美云厂商资本开支逐季增长,指引保持乐观
需求侧,3Q24 海外云厂商资本开支延续高增趋势。3Q24 MAMG(微软、亚马逊、Meta、 谷歌)合计资本开支同比提升 61%至 575.20 亿美元,从 2Q23 开始保持逐季增长,其中, 亚马逊/微软/谷歌/Meta 3Q24 资本开支分别为 212.78/149.23/130.61/ 82.58 亿美元,同比 增速分别为+88.3%/+50.5%/+62.2%/+26.2%。根据 Factset 一致预期,2024 年 MAMG 合 计资本开支将同比增长 47.3%至 2103 亿美元。 云厂商对 24年、25年资本开支展望较为乐观:根据 MAMG四大云厂商在 2Q24-3Q24(CY) 两场业绩会中的表述,微软表示 FY25 的资本支出将高于 FY24,未来资本支出将环比增加; 谷歌指引 2025 年资本支出将相比 2024 年有额外的增长,但同比增幅没有 24 年相对 23 年 的大,并表示对 AI 投入不足的风险远高于投资过度的风险;亚马逊指引 2024 年总资本支 出约为 750 亿美元,同时 2025 年支出将超过 2024 年;Meta 预计 2024 年资本开支将在 380-400 亿美元(上季度指引范围为 370-400 亿美元,本季度再次上调下限),同时预计 2025 年资本开支将大幅增长。
3.趋势#1:性能提升+需求变化+海外巨头引领,以太网在 AI 集群中的渗透率有望持续提升
InfiniBand 与以太网同为常见网络协议,IB 原生支持 RDMA,提供低时延+无损传输,适 配 AI 网络需求。InfiniBand(IB)、RoCE 和 TCP/IP 是分布式存储网络中较常使用的协议, 前两者支持 RDMA(远程直接内存访问)技术。相较于 TCP/IP 通过内核发送消息从而产生 较高的数据移动和数据复制开销,RDMA 通过内核旁路机制和内存零拷贝机制可提供高吞 吐、低延迟的网络通信:1)内核旁路机制,允许应用与网卡之间直接的数据读写,将服务 器内的数据传输时延降低到接近 1us;2)内存零拷贝机制,允许接收端直接从发送端的内 存读取数据,绕开核心内存的参与,较大地减少了 CPU 的负担,提升 CPU 的效率,综合 下来 RDMA 尤其适合在大规模并行计算集群中使用,比如 AI/ML 和 HPC。Infiniband 在设 计之初便考虑了 RDMA,从硬件级别保证了可靠传输(无损),提供更高的带宽和更低的时 延,但是成本较高,需要支持 IB 网卡和交换机,而 RoCE(RDMA over Converged Ethernet) 是传统以太网引入 RDMA 后的技术,虽具备 RDMA 的一些机制特点,但在时延、无损传输 上相较原生支持 RDMA 的 IB 仍有差距。

过去一年来海外 AI 产业链高景气度驱动 IB 交换机需求高增长,IB 在全球 AI/HPC 场景中 占据较高份额,以太网交换机尚未放量。自 ChatGPT 出圈以来,海外 AI 产业链保持着较 高景气度,英伟达数据中心网络业务持续高速增长,其中,2Q24 英伟达数据中心网络产品 收入同比增长 114%,连续 5 个季度同比增速在 90%及以上,远高于同期海外以太网交换 机厂商的收入增速,我们认为主要系英伟达 InfiniBand 交换机产品在高带宽、低延迟、无 损传输等性能符合 AI/HPC 集群的需求,且与其计算 GPU 芯片产品高度绑定,因而出货量 高速增长。过去,AI/HPC 网络多以 InfiniBand 组网解决方案为主,根据 Top 500 List 统计, 截止 2024 年 6 月,全球超算能力前 500 的计算中心中,IB 网络方案占据 46%的份额。相 较而言,以太网方案在全球前 500 的计算中心中的占比仅 28%,且 2023 年高速以太网交 换机在 AI 网络中的放量并不十分明显,例如,Arista 在其 2023 年年报业绩会上表示,2023 年其 AI 网络业务仍处于试点阶段,收入贡献体量较小。
进入 2024 年,我们看到 AI 以太网兴起的多种迹象,我们认为,以太网在 AI 集群组网中的 渗透率有望持续增加,原因在于:1)性能提升,以太网与 IB 在 AI 组网中性能的差距有望 缩小,如华为在武汉人工智能计算中心网络部署前进行对比测试,在 MPI、Benchmark 等 典型应用测试中,华为 RoCE 的网络性能与 IB 网络整体基本持平;2)需求变化,AIGC 应 用兴起,AI 有望步入推理阶段,届时客户对网络性能的要求降低,而更加追求性价比,同 时以太网具备云上动态分租能力,相比 IB 更易于满足未来灵活的、多租户的云上推理场景; 3)海外巨头引领,24 年以来海外巨头相继拥抱 AI 以太网,具体而言:a.长期以 InfiniBand 为主要技术路径的英伟达在 1Q24 业绩会中表达对其以太网方案 Spectrum-X 的高度重视, 并称该产品的收入规模有望在一年内增长至数十亿美金;b.博通在 1Q24 业绩会中表示全球 最大的 8 个 AI 集群中有 7 个部署了博通的以太网解决方案,25 年将会有更多的超大规模集 群部署在以太网上;c.Arista 亦发布全新的以太网交换机平台 Etherlink AI,支持 UEC 协议 的同时规模组网能力显著增强,最高支持数十万卡互联。
趋势#2:从云计算到 AI,网络带宽高速化(400G/800G)趋势延续
我们回顾云计算发展时期,东西向流量激增曾推动网络架构由传统三层网络转向 Spine-Leaf,对交换机端口带宽的速率要求持续提升。由于云和容器化基础设施的普及, 东西向流量(服务器到服务器)持续增加,这类流量增加给传统三层架构带来困难,因为 服务器之间的通信需完整经过接入、汇聚和核心交换机,带来较高延迟;Spine-Leaf 架构 确保设备间通信时具有更短的路径(三跳可达,Leaf→Spine→Leaf),因此具备:1)低且 可预测的延迟;2)带宽利用率高;3)拓展性好等优势。Spine-Leaf 架构虽然相比传统三 层网络架构具有更强的东西向流量处理能力,但为了支持如此大规模的水平流量、避免出 现网络拥塞,网络必须升级端口速率以满足高带宽需求,因此 400G/800G 端口交换机成为 应对云计算这种数据密集型应用场景的理想选择。
从数据密集型的云计算任务到数据+计算密集型的 AI 任务,网络端口高带宽的需求并未改 变。从云计算到 AI,一个非常重要的改变在于,云计算是数据密集型任务,而 AI 是数据+ 计算密集型任务,典型的 AI 训练工作负载涉及数十亿个参数和大量的稀疏矩阵计算,这些 计算分布在成千上万个 XPU(GPU、TPU 等)上,这些 XPU 进行密集计算后与其他节点 交换数据,来自其他节点的数据将被归约或与本地数据,然后启动新的处理周期,在这个 计算-交换-归约周期中,大约 20%-50%的作业时间被用于网络通信,因此网络的性能将对 AI 训练任务的效率产生重要影响。 我们看到,云计算和 AI 对网络的需求的“变与不变”:1)变化在于:a.本质上,云计算更 加强调数据的大规模传输、存储和处理,而 AI 强调处理海量数据的同时,亦需兼顾大量的 复杂运算;b.网络架构方面,云计算以叶脊架构为主流,叶脊架构能够高效处理云服务带来 的大规模东西向流量,但网络架构有所收敛,而 AI 网络以胖树架构为主流,胖树架构能够 带来所有路径上带宽完全对称,这样的对称性能够提供每个节点间的全带宽通信,而不会 因为网络拥塞或路径不对称导致带宽损失,因此为无收敛网络;c.延迟性能方面,AI 网络 对“低延迟”的要求更高,原因在于 AI 网络需要在各个节点间进行高频的通信,尤其是 AI 训练场景,任何延迟对于模型训练的效率影响都非常可观;d.可拓展性方面,云计算需要面 对大规模、多租户、动态变化的计算和存储环境,因而随着云用户和应用的拓展,网络需 要快速、无缝地扩大容量,而 AI 对于可拓展性的需求更集中于集群内部通信,而无需处理 大量的动态资源变动,因此我们认为云计算对可拓展性的需求比 AI 更强;2)不变在于,云计算和 AI 任务在网络高带宽的需求上趋于一致,云计算涉及大量的数据 存储、检索、处理和分发,而大规模分布式 AI 训练中,各计算节点也需要频繁、大量的交 换训练数据、梯度和参数模型,因而均需要 400G/800G 甚至未来的 1.6T 的高带宽数据中 心网络支持。
市场侧验证:目前全球 200G/400G 交换机高速增长,25 年后 800G 将逐渐成为主流。根 据 IDC 数据,2Q24 全球 200G/400G 以上交换机销售合计收入达到 15.9 亿美元,同比提 升 104%,环比提升 36%,相比 1Q22 2.9 亿的水平已增长 454%,展现出市场因 AI 智算 中心建设对高速数据中心交换机的强劲需求。根据 Dell’Oro 在 2024 年 1 月的预测,2025 年以后 400G/800G 将逐渐成为数据中心交换机主流,25 年 400G/800G 合计占比有望接近 市场的一半,26 年以后 800G 交换机占比将继续提升,成为第一大需求,届时也有望开始 出现 1.6T 的市场需求,至 28 年高速数据中心交换机总市场有望超过 210 亿美元。