2025年光通信行业研究报告:AI算力中心的神经网络

  • 来源:金元证券
  • 发布时间:2025/07/01
  • 浏览次数:290
  • 举报
相关深度报告REPORTS

光通信行业研究报告:AI算力中心的神经网络.pdf

光通信行业研究报告:AI算力中心的神经网络。单一芯片算力无法满足AI训练需求:模型所需算力与单芯片算力之间的巨大差距。例如GPT-3每次训练迭代需约4.5EFLOPS计算,但单卡GPU仅提供数十TFLOPS级算力,差距高达百万倍。为突破计算墙,使用数十甚至上百GPU进行并行计算(分布式训练)。AI算力集群受制于“通信墙”:通过分布式训练部分解决了算力墙和存储墙后,通信墙随之凸显。大模型并行需要大量节点间通信(如AllReduce梯度同步、AlltoAll等),通信性能直接决定训练效率。算力基础建设方面,截至2024年,中国算力总规模为280EFLOPS,2020年至20...

AI算力中心的挑战-“通信墙”

单一芯片算力无法满足AI训练需求:模型所需算力与单芯片算力之间的巨大差距。例如GPT-3每次训练迭代需约4.5 EFLOPS计算,但单卡GPU仅提供数十TFLOPS 级算力,差距高达百万倍。为突破计算墙,使用数十甚至上百GPU进行并行计算(分布式训练)。AI算力集群受制于“通信墙”:通过分布式训练部分解决了算力 墙和存储墙后,通信墙随之凸显。大模型并行需要大量节点间通信(如AllReduce梯度同步、AlltoAll等),通信性能直接决定训练效率。

存储墙是芯片级带宽瓶颈,而通信墙则是AIDC整体带宽瓶颈:存储墙则源于内存容量与带宽不足,通过HBM、先进封装实现芯片级带宽扩张。而当通过分布式训 练时,通信墙随之凸显。大模型并行需要大量节点间通信(如AllReduce梯度同步、AlltoAll等),通信性能直接决定效率。算力规模 > 通信能力 随着大模型训 练从几百张 GPU 扩展到数万张甚至跨园区集群,梯度同步、参数交换等通信量呈指数级暴涨。基于Epcho AI研究发现,当训练规模逼近 ≈ 2 e 28 FLOP 时,数 据搬运耗时开始压过算力本身,利用率急剧下滑,被业界称作“Latency/Communication Wall。

AI催化下,中国算力基础设施维持高增长

大模型训练和应用已成为近年来推动全球数字基础设施市场发展的重要驱动因素之一。随着以Transformer架构为核心的、具有更强智能能力的基座大模型不断涌 现,全球领先的人工智能企业正加速围绕大模型展开激烈竞争,力求在模型性能、参数量级与推理效率方面实现突破。网络需求方面,从400G到800G,甚至是 1.6T速率的网络交换机,正成为支持大模型训练的重要基础设施。

在算力基础建设方面,截至2024年,中国算力总规模为280EFLOPS,2020年至2024年期间年复合增长率为20%。根据弗若斯特沙利文预测,中国算力规模将从 2024年的280EFLOPS增长至2029年的648.3EFLOPS,2024-2029年期间仍维持18.3%的年复合增长率。

需求方面,AI创新浪潮下,云端智能平台及数字基础设施解决方案市场规模持续增长:预计2029年,中国云端智能平台、数字基础设施规模将分别增长至1.8万 亿、1.3万亿元。

AI基础设施构成:网络资源重要性仅次于算力资源

从国内算力基础设施市场规模来看,网络资源市场规模占比仅次于算力资源。中国算力基础设施规模从2020年的3,397亿元增长至2024年 的6,144亿元。2024年,国内计算资源市场规模为3858亿元,为基础设施占比最大项。网络资源市场规模为1516亿元,仅次于计算资源, 约占基础设施市场规模比例为24%。

网络资源中,主要包括交换机、路由器、WLAN、光模块等产品:交换机市场从2020年的315亿元增长至2024年的447亿元,预计2029年 将达到669亿元。光模块及其他通信资源预计将达到978亿元。

铜互连 vs 光互连

铜互连技术成熟、成本较低,用于服务器机箱内部、机架内等短距离高带宽连接场景。在人工智能数据中心(AIDC)中,GPU、CPU 等加速器之间以及服务器 与Top-of-Rack交换机之间的短距离互连传统上大量采用铜质连接,其优势在于无需复杂的光电转换、初始投入成本低且安装维护相对简单。然而,随着芯片通 信速率逼近极限,铜介质信号传输面临固有瓶颈,高频下电阻与介电损耗导致信号完整性下降和严重的传输损耗,这不仅限制了带宽和距离,还将相当一部分信 号功率转化为热量。光互连是利用光纤等介质传输光信号的互连方式,通过光收发模块将电信号转换为光信号进行高速远距离传送。光互连克服了铜互连在频宽和距离上的物理限制: 光信号在光纤中传输损耗极低、抗电磁干扰,能够在更高频率下保持信号完整,适合远距离、大带宽数据通信。

Scale up (纵向扩展)/ Scale out(横向扩展),光互连的重要性突出。Scale up 和Scale out通过增加更多的算力资源来实现更大的承载能力。区别在于Scale up从软件角度来看是一台计算,互连必须非常可靠,且尽可能减小延迟。但当数据速率增加至200Gbps时,达到铜缆物理极限。 而Scale out通过多层交换机组成,其任务被拆分成多个计算资源,因此横向扩展实际上是一个大规模网络,且距离较远。所以,随着高速率、低延迟且距离增大 的需求逐渐增大,无论是Scale-up还是Scale-out,光互连的必要性大幅提升。Nvidia DGX SuperPOD已通过Scale out实现32,768 GPU集群,而Meta的AI Research SuperCluster(RSC)正向100,000 GPU级突破。

高速光模块加速渗透,价值量持续提升

高速率无疑是光连接的核心,且当前速率迭代周期缩短。分布式架构通过多个节点并行训练,不同节点之间需要频繁同步模型参数,对 光连接性能提出大带宽、低延迟、无失真等更高要求。同时,算力中心内部网络架构趋于扁平,连接密度及交换容量大幅增长。

高速率需求早期是由城域网和骨干网驱动,但迭代速度较慢,10年迭代一代,但由于AI训练的时效性需求,且市场规模大于电信网络, 导致光连接的迭代速度加快。

训练与推理规模指数级膨胀,使网络而非算力成为AIDC的首要瓶颈;只有更高速、更节能、更高密度的光模块才能撑起 GPU/加速器之间的“海量东拼西接” 。 光模块市场近年来稳步增长,主要得益于对高速数据传输以及人工智能、云计算及5G等数据密集型应用的需求。2020年至2024年期间,全球光模块销售收入 从112亿美元增至178亿美元,复合年增长率为12.2%。数据中心和云计算快速发展的带动下,高速光模块尤其是800G及以上的光模块发展迅猛。800G光模 块作为最先进的量产技术,2020年至2024年的复合年增长率高达188.1%,预计2024年至2029年将保持19.1%的稳步增长。与此同时,代表下一代预研技术 的1.6T光模块在更高带宽需求、更低功耗要求及人工智能驱动数据处理的需求推动下将迎来爆发式增长,预计2024年至2029年的复合年增长率将达到180.0%。

直接调制光模块vs相干光模块

直接调制光模块的发射端使用激光器输出的光强来携带数据信号。当前直接调制光模块多用PAM4编码(每波特携带2位),较OOK(开关键控)的编码方式多增加1比特。直 接调制光模块多应用于数十公里以内,典型的应用场景是算力中心内的服务器与交换机之间。基于单通道100Gb/s的800Gb/s的光模块技术已经较为成熟,800GVR8 (30m/50m)、SR8(100m)、DR8(500m)、DR8+(2km)、2xFR4(2km)、2xLR4(10km)等规格已经量产。单通道200Gb/s的800Gb/s、1.6Tb/s光模块当前 正在加速落地,由于通道数减半,成本、功耗有一定优势。

800G VR8、SR8多以砷化镓(GaAs)VCSEL作为光源,在超短距离连接上有功耗优势。800G DR8、800G DR8-2以InP外调制激光器(EML)为主,硅基光电子在共享光 源下具有功耗优势,但耦合工艺相对复杂。

相干光模块采用正交相移键控(QPSK)或者正交振幅调制(QAM)来实现高阶调制,增大每波特所携带的比特数。通常情况下,更适合十公里以上的较长传输距离,典型应 用场景包括骨干网、城域网、以及数据中心之间的互连。当前800Gb/s的相干光模块包含两代产品,第一代基于100GBd 64QAM,主要面向数据中心之间(DCI)中短距离互 连;第二代基于140GBd 16QAM可以与400Gb/s超长距共用产业链,主要面向DCI互连和城域网络。

相干接收端的结构相对复杂:核心是一个本振激光器(LO)产生参考光,与接收信号光混合作用于90°光学混频器(干涉仪结构)中,分别输出对应I路和Q路的干涉光信号, 干涉后的光信号经由高速平衡探测的光电二极管转换为射频电信号(通过平衡接收可抑制直流分量和公共模式噪声),得到包含幅度和相位信息的电信号分量。典型DP-QPSK 接收需要4对平衡探测器(对应两个偏振×I/Q两路),从而同时获取光场的同相分量(I)和正交分量(Q)。相干模块主要由光学子系统和DSP数字处理子系统组成,光学部分包括 可调谐窄线宽激光器(ITLA)、相干驱动调制器(CDM,包括驱动芯片和IQ调制器MZM)以及集成相干接收机(ICR,含本振激光耦合的混频器和线性放大TIA等);数字处 理部分包括高速模数/数模转换器(ADC/DAC)、功耗巨大的高速DSP芯片以及前向纠错(FEC)等,用于对信号进行解调和数字补偿。

短距离GPU互联(机架内部/数据大厅内):在大型AI训练集群中,成百上千颗GPU之间需要高速互联,形成高带宽的计算通信网络。这类互联通常发生在同一数据中心内部, 从服务器到交换机或机架到机架,距离从几米到几十米(典型TOR交换机连接)甚至上百米不等。此范围内光纤链路损耗和色散较小,更经济的直接调制光模块即可胜任高速 连接任务。

长距离DCI互联(数据中心之间):当AI应用需要在不同园区乃至不同城市的多个数据中心之间交换海量数据时,链路距离可能从几十公里到上百公里。远距传输超出直接探 测技术的能力范围——即使采用高功率EML激光器和中继放大,直接调制PAM4在数十公里光纤后也难以保持足够的信号质量。因此,在数据中心互联(DCI)场景普遍转向相 干调制方案。

发射端核心器件:激光器、调制器

光模块激光器是在光通信系统中将电信号转换为光信号的核心器件,其工作基于半导体激光器芯片实现受激发射原理。半导体激光器由增益介质、泵浦源和光学 谐振腔构成。在激光器芯片内,电流作为泵浦源注入半导体增益介质(典型为Ⅲ-Ⅴ族化合物半导体,如砷化镓GaAs或磷化铟InP),激发大量载流子跃迁至高能 级;这些载流子受谐振腔反馈来回振荡诱导受激辐射,从而产生相干单色光输出。谐振腔通常由高速率半导体多层膜反射镜构成,使腔内光振荡并筛选出特定频 率的激光。最终,激光器输出稳定的激光光束,其强度或相位可随电信号变化而被调制,完成电-光信号转换。

VCSEL是在垂直于晶圆表面的方向上形成谐振腔,激光从芯片顶部垂直射出。其结构包含上下两个高反射率分布式布拉格反射镜(DBR)和夹在中间的有源增益层。 由于光沿垂直方向出射,VCSEL芯片可以在晶圆上成矩阵阵列,易于大规模制造和测试。VCSEL具有低阈值电流、单纵模输出、圆形光斑易耦合、多模高速调制 等优点,其缺点是输出功率和单器件调制速率相对有限,传输距离较短(一般500米以内)。

VCSEL通常工作波长850nm(GaAs基),用于多模光纤短距连接,是数据中心机架内或机房内短距离互联的主流方案。此外VCSEL阵列也是3D传感(如手机人 脸识别)的光源。最新技术已推进单通道速率至106Gb/s VCSEL,并正演进到212Gb/s(新易盛OFC2025演示了基于4×212Gb/s VCSEL并行通道的1.6T OSFP 多模光模块)。

光通信中的无源器件:连接器、分路器、波分复用器

光纤连接器用于将两根光纤的端面精密对准并接合,使发射端光纤输出的光功率最大限度耦合进入接收端光纤,同时尽量减少连接引入的损耗和反射。光连接器的 原理基于光在光纤中的全反射传输,要求两个光纤纤芯严格对准、紧密贴合,以避免漏光或引入较大反射。微小的错位都会导致光能泄露或反射,引起插入损耗(Insertion Loss)上升或回波损耗(Return Loss)下降。因此光连接器被视为高速光通信网络中极其精密 的组件,对连接性能有决定性影响。典型光纤连接器主要由套圈(插芯)、连接器本体和耦合/固定器件。其中套圈(Ferrule)是连接器的核心部件,通常采用高精 度氧化锆陶瓷制成圆柱插针,用于精准固定和保护光纤端面 。按照光纤芯数,连接器可分为单芯连接器和多芯连接器。单芯连接器使用1.25 mm或2.5 mm直径陶瓷插芯,典型有FC(螺纹锁紧,耐振动)、SC(方形插拔,常 用在局端和FTTH)、ST(圆形卡口,早期LAN应用)和LC(小型插拔,密度约为SC的一半,用于数据中心)。多芯连接器则包含MPO/MTP系列,使用阵列式MT 插芯,一次可连接多达8、12、16、24芯乃至更高芯数光纤,极大提升面板端口密度。

报告节选:


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告
评论
  • 相关文档
  • 相关文章
  • 全部热门
  • 本年热门
  • 本季热门
  • 全部热门
  • 本年热门
  • 本季热门
  • 最新文档
  • 最新精读
分享至