2025年互联网行业谷歌链专题:AI全栈式创新,TPU+OCS共塑下一代智算网络

  • 来源:中泰证券
  • 发布时间:2025/11/07
  • 浏览次数:507
  • 举报
相关深度报告REPORTS

互联网行业谷歌链专题:AI全栈式创新,TPU+OCS共塑下一代智算网络.pdf

互联网行业谷歌链专题:AI全栈式创新,TPU+OCS共塑下一代智算网络。谷歌AI全栈优势构筑护城河,资本开支具备提升潜力。全面布局芯片(TPU)-网络(OCS)-模型(Gemini)-应用(云计算/搜索/广告等),自研TPU芯片实现跨越式发展,Gemini模型能力全球领先,重视谷歌算力需求的高增长以及AI硬件创新带来的产业链投资机会。谷歌2025Capex上调至910-930亿,capex营收比与经营性现金流占比,相比其他CSP具备提升潜力,预计2026年将继续加大资本投入。Gemini月活跃用户已超6.5亿,每月处理Token总量一年内增长超过20倍。谷歌云营收及占比持续提高,AI拉动下需求...

谷歌AI全栈优势,增强Capex持续性

谷歌AI全栈优势构筑护城河

谷歌AI围绕芯片(TPU)-网络(OCS)-模型(Gemini)-应用(云计算/搜索/广告等)全栈优势构筑护城河。从2011年谷歌成立谷歌大脑 (Google Brain)实验室开始涉足AI开始,一系列具有影响力的AI研究相继问世,包括2017年发布Transformer架构到2023年推出多模态 大模型Gemini,目前已形成从芯片到集群架构到大模型再到应用端的布局,谷歌将AI逐步整合到多元业务流程中,这些业务为谷歌获取了 海量数据,用于训练完善AI。同时通过收购AI初创公司拓展市场边界。2025Q3季度营收突破千亿美金,全栈式人工智能解决方案发展势头 强劲,有3亿付费订阅用户,主要来自Google One和YouTube Premium。Gemini应用的月活跃用户已超过6.5亿,现在每月处理的Token总量 超过1.3千万亿枚(7月处理的Token总量为980万亿枚),一年内增长超过20倍。

谷歌资本开支新高,Capex营收比具备提升潜力

CSP厂商Capex营收占比历史高位,谷歌具备进一步提升潜力。谷歌25Q3资本开支239.57亿元,同比+83.42%,2025年以来谷歌Capex及 同比均重回增长,Capex绝对值为2020年来最高值,同比自24Q4以来营收及同比均创下新高。公司法说会FY25 Capex上调至910-930亿 美金,前值为850亿美元。预计2026年谷歌仍将继续加大资本投入,算力发展确定性高。

2024年谷歌Capex占营收比15%,其他CSP厂商Meta、微软、甲骨文Capex营收比均超20%;与之呼应的是,2024年谷歌Capex相对谨慎, 季度同比呈现下行趋势;2025年谷歌Capex资本开支分季度同比斜率重新回正,一方面印证谷歌资本开支营收比仍有空间,另一方面考 虑到本轮谷歌Capex加速始于2023年起公司推进AI,公司AI飞轮效应显现,Capex投入力度或将继续加大。

云业务营收及占比持续提高,Capex现金流相对较低

2025Q3谷歌云收入增长34%至152亿美元,净利润增长33%,主要得益于谷歌云平台(GCP)核心产品、AI基础设施和生成式AI解决方案的 增长,季度末积压订单达1550亿美元。2020年以来云业务营收及营收比稳步提升,25Q3云业务营收占比约为15%,AI对云业务拉动明显, 今年前三个季度签署的超过10亿美元的交易数量,超过了过去两年的总和。2024年谷歌Capex经营性现金流占比41.93%,低于微软 (44.24%)及甲骨文(59.40%),略高于Meta(40.79%),表明2024年谷歌现金流空间相对安全,2025年后可进行更大Capex投入。

自研第七代TPU Ironwood即将全面上市,正在加大TPU产能投入,以满足客户巨大需求,Anthropic最近宣布计划采购多达100万个TPU。

谷歌TPU跨越式发展,带动产业链需求

谷歌TPU 10年7代跨越式提升

2015年谷歌发布第一代TPU起,每一代TPU系统均在性能、可扩展性与系统效率上不断提升,Google逐步将光互连技术融入TPU系统, 2025年发布的TPU v7实现了能构建9216颗大规模集群的跨越。

2018年TPU v2:每个superpod包含256颗TPU芯片,采用2D环面(2D Torus)拓扑,单芯片芯片间互连(ICI)带宽为800GB/s,尚未引入 光模块;

2020年TPU v3:超级集群芯片数提升至1024颗,仍保持2D环面拓扑,单芯片ICI带宽维持800GB/s,首次引入光互连技术,采用400Gbps 有源光缆(AOC),光通道波特率为50G;

2022年TPU v4:芯片数跃升至4096颗,拓扑升级为3D环面(3D Torus),单芯片ICI带宽调整为600GB/s,光模块升级为400G OSFP,同 时引入OCS,光通道波特率仍为50G;

2023年TPU v5p:集群芯片数增至8960颗,延续3D Torus 拓扑,单芯片ICI带宽翻倍至1200GB/s,光模块更新为800G OSFP,光通道波特 率提升至100G,OCS技术继续沿用;

2025年TPU v7(Ironwood):集群芯片数达到9216颗,保持3D Torus与1200GB/s的单芯片ICI带宽,采用800G OSFP光模块,光通道波特 率提升至200G。

TPU 架构迭代:从v1到v3

架构上来看,TPU v4前为2D环面拓扑结构:

TPU v1 为服务器端推理芯片。TPU v1 由 CPU 通过 PCIe 3.0 总线驱动 CISC 指令,采 用 28nm 工艺制造,具有 28MiB 的芯片内存和 4MiB 32 位累加器,用于存储 256x256 系统阵列的 8 位乘法器的结果,核心是一个巨大的256x256矩阵乘法器(MXU),里面塞 了65536个8位计算单元 。TPU v1 主要针对 2015 年左右最火的神经网络进行优化,包 括 MLP 多层感知机、CNN 卷积神经网络、RNN 递归神经网络& LSTM 长短期记忆。

TPU v2定位服务端AI推理和训练芯片。对比v1,TPU v2 改变主要有1)采用单个向量存 储器,而不是固定功能单元之间的缓冲区;2)通用向量单元,而不是固定功能激活管道; 3)连接矩阵单元作为向量单元的卸载;4)将 DRAM 连接到内存系统而不是直接连接到 矩阵单元;4)转向 HBM 以获得带宽;5)添加互连以实现高带宽扩展。此外,谷歌将四 个 TPU v2 排列成了性能为 180 TFLOPS 的四芯片模块,并将64 个模块组成一个一共有 256 片 TPU v2 集成的 TPU v2 Pod,理论峰值计算量达到了11.5 PFLOPS。

TPU v3是对TPU2的温和重新设计,采用相同的技术,MXU和HBM容量增加了两倍,时钟速 率、内存带宽和ICI带宽增加了1.3倍,同时Pod规模翻了四倍到1024个芯片;此外TPU v3 引入液冷以降低功耗。

OCS交换机提升TPU集群效率

架构上,谷歌借助 OCS 组网提高了集群整体效率。具体来看,虽然谷歌TPU与英伟达单卡性能仍有差距,但在系统级维度,OCS 带来 的网络重构与规模效应,部分抵消了单卡差距,到v5p/v6e阶段,谷歌可借助超大 Pod(v5p 单 Pod 8960 芯片)+ OCS 重构继续放大 总吞吐与集群效率。

TPU 与 NVIDIA GPU 的差距以 TPU v4 为分界点可以分成 “引入 OCS 之前 / 引入 OCS 之后” 两个阶段。早期 TPU (TPU v2/v3 时代)更像是“以单卡性能为基础、靠固定电互联做平面扩展”的路线,v3 的典型集群规模约为 1024 芯片/Pod,互联以电连接为主, 单卡算力与显存/带宽层面整体落后于在当时的 NVIDIA 旗舰,系统可重构性也有限;TPU v4 的单 Pod 规模直接拉升至 4096 芯片, 并能在 3D Torus 等拓扑间按需重构,根据谷歌论文,对比 A100,相近规模的系统上 TPU v4 集群性能高 1.2×–1.7×、功耗低 1.3×–1.9;目前,Gemini 2.5 Pro 借助 TPU v5p 进行训练,同时 v6e 已经发布,相比而言,虽然单卡维度上 NVIDIA 仍有优势, 但系统维度上谷歌借助超大规模集群利用 OCS 将效率大大提升。

Ironwood继续沿用3D Torus架构

TPU v7(Ironwood)依旧采用3D Torus架构,OCS生命周期延长。具体来看,Ironwood 沿用过去三代的 3D Torus(立方环网)拓扑, 每个逻辑单元为 4×4×4 节点阵列,即 64 芯片,封装于单个机架。立方体上有6个面,每个面有16个链接,通过ICI连接,共96根光 纤,80根铜线和64根PCB走线,集群采用48台OCS光交换机进行互联,实现9216个TPU芯片组网。

TPU成为ASIC市场主力,出货量预期上修

2026年谷歌TPU 出货量相较2025年接近翻倍,且预期出货量远高于其他ASIC芯片。TPU v7将在2026年上量,成为出货主力,2027年出 后TPU v8/v9/10等将继续迭代带动出货量提升。根据市场调研,2026年AISC 芯片总出货量约为570万颗,其中谷歌TPU出货300万颗, 市占率过半。10月24日,谷歌与Anthropic再次签订数百亿美元100万只谷歌定制TPU芯片的合作协议,我们预计2026年TPU出货有望达 到400万颗以上。

TPU v7(代号Ironwood)开始配置1.6T光模块:Ironwood超级集群芯片数达到9216颗,保持3D环面拓扑与1.2TBps的单芯片ICI带宽, 采用800G OSFP光模块(交换机侧配置1.6T端口光模块),光通道波特率提升至200G,同时实现1.77PB的直接寻址共享高带宽内存 (HBM),创下共享内存多处理器的新纪录,可高效支撑稠密模型与稀疏模型。

TPU+OCS交换机共塑下一代智算网络

电信市场最早探索光交换技术ROADM

针对光交换技术,电信市场很早就已有所研究。城域骨干网中,光传输是唯一路线,跨越上万公里的骨干传输网络由于节点数量有限、 设备更新周期较长等特点,早在 21 世纪初期便已探索光交换技术,这类光交换技术被称作ROADM技术(Reconfigurable Optical Add-Drop Multiplexe),即可重构光分插复用器。

ROADM 前身为OADM,但 OADM 难以重新配置,灵活性有限。光分插复用器(OADM)是一种波分复用(WDM)网络设备,它能够访问光纤 上的所有波长,并在特定位置实现对某些波长的插入或卸载,同时允许其余波长直接透过站点而无需电终端。OADM 可以使某一波长在 本地被卸载而不再继续向前传输,从而实现波长的重用,即在相反方向重新插入同一波长并进行传输。然而 OADM 具有一定局限性, 设备一旦部署则通常难以修改或重新配置,即便流量模式发生变化也无法灵活调整;此外,它通常仅支持双向传输,扩展性有限。

为了满足不断变化的流量需求,可重构光分插复用器(ROADM)在 21 世纪初应运而生。ROADM 不仅支持 AZ 光路的远程配置与动态重 配置,还能够扩展至多方向的光纤网状网络。与其前身 OADM 相似,ROADM 同样允许在站点分插单个波长;不同的是,它具备更高的 灵活性,允许在光通信网络中灵活地添加、删除和重新配置光信号,可在流量模式变化时,灵活调整或切换分插与直通波长的配置, 从而显著提升网络的可扩展性与适应性。

光交换技术有望在数通领域爆发

RODAM技术实现的核心器件是光交换器件WSS(Wavelength Selective Switch 波长选择开关),其基本原理是利用光栅的衍射效应将 不同波长的光信号分离,并通过光开关实现对特定波长信号的灵活选择和路由。

虽然WSS因为结构复杂而单价较高,且主要用于电信设备,但以WSS为代表的传统电信网络中的光交换市场,现在有望在大型数据中心 之间迎来爆发。在数通领域,OCS(光电路交换机)可以被视为一种特殊的光开关,其核心功能是通过光开关矩阵实现光信号的物理路 径重构。对比来看,WSS更多的用于干线传输,DWDM的密集波分复用场景,不仅可以切换光路的端口,甚至可以细化到每一个波长各自 切换端口;OCS更多用于AI组网,CWDM4,或者CWDM8,波长数量有限,且应用场景固定,但不会针对每个波长做分离。

OCS交换机利用光信号直接传输数据,避免了信号的转换过程,从而减少了延迟和能量消耗,因此适用于大规模数据中心之间的高速互 联,尤其是在跨区域扩展和大规模AI算力需求下表现出极大优势。

OCS主流方案拆解与增量环节分析

Jupiter架构首次使用Palomar OCS

早期谷歌数据中心使用Clos拓扑架构。早期架构最早于 2004 年推出,被称为4-Post架 构,由 4 个大容量交换机和 512 台 ToR 交换机连接组成,每台 ToR 交换机与 40 台 服务器相连,形成了一个512×40,约 2 万台服务器的集群。2006年,谷歌从 Fire 1.1 开始使用 Clos拓扑架构,将数据中心中的所有服务器和所述服务器的机架连接在一起, 通用的三层 Clos 架构包括边缘交换机(ToRs)、汇聚模块和骨干模块,此后数据中心 部署的 Clos 网络都遵循这种架构的不同变体。

Clos 架构下电交换机带来巨大功耗和资本开支,OCS 有效解决主要痛点。Clos网络的主 干使用电子分组交换机(EPS:Electronic Packet Switch) ,随网络规模迅速扩大,叠 加每2到3年网络速度翻倍,每一代 EPS 带来的资本支出成倍数增长。谷歌在 Jupiter/Apollo 架构中引入 OCS 替代脊交换机,通过消除用于实现脊交换层的电交换 机与光接口,根据SemiAnalysis,谷歌的OCS定制化网络使其整个网络的吞吐量提升了 30%,功耗降低了40%,数据流完成时间缩短了10%,网络宕机时间减少了50倍,且资本开 支减少了30%。此外,OCS可将交换机和光纤升级到更快的几代,而无需更换网络的“主 干”,使用寿命比传统 EPS 长得多。

TPU v4集群TPU与OCS交换机比例

谷歌TPU v4单集群由4096个TPU芯片组成,对应48个OCS交换机。其中单集群共有64个rack机柜,单rack对应即 64个TPU,即 64X64=4096。结构上,谷歌采用3D Torus 结构,每台机架内的64个TPU连接方式为4³ 的立方体,每个立方体6个面,每个面延伸出来 4×4=16条线与机架外部的光交换机连接,6个面总共6×16=96条线,理论上对应96个光交换机,但对立面上的两个点连同一台交换机, 因此实际上需要48台交换机。

后续潜力:谷歌以外的更多CSP正在探索OCS

除谷歌外,OCS有望在其他CSP中得到更多重视和应用。需求来看,除谷歌作为目前 OCS 交换机方案主要 应用方需求保持高速年增以 外,微软、Meta、亚马逊 AWS 也都在探索自己的光交换网络,根据Lightcounting预测,2024-2029 年 OCS 有望以 28% 复合增速增长; 供应商角度同样已逐步得到验证:Lumentum、Coherent 均在业绩会表示,OCS 产品均已产生收入,目前Lumentum 已向两家超大规模 客户出货,第三家客户已承诺在 2026年部署;Coherent 称其数字液晶 OCS 将使得公司在数据中心的份额扩张超 20亿美元。因此未来 几年 OCS 市场容量及渗透率有望保持共同提升。

另一方面,OCP 联盟推作为动 OCS 技术标准化的关键力量在多方面推进产业进展。OCP 联盟在 2025 年 7 月宣布成立 Optical Circuit Switching(OCS)子项目,并在 2025 年 8 月的 OCP APAC Summit(台北)进行首次对外呈现;生态层面,iPronics 与 Lumentum 对外 称牵头推进,并提及 Google、Microsoft、Coherent(及多方)参与。总体来看,OCS 子项目有望在统一接口与互通、降低采用门槛 (开放规范与软件栈)等方面推进产业协作。

报告节选:


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告
评论
  • 相关文档
  • 相关文章
  • 全部热门
  • 本年热门
  • 本季热门
  • 全部热门
  • 本年热门
  • 本季热门
  • 最新文档
  • 最新精读
分享至