2025年互联网行业谷歌链专题：AI全栈式创新，TPU+OCS共塑下一代智算网络

来源：中泰证券
发布时间：2025/11/07
浏览次数：507
举报

相关深度报告REPORTS

互联网行业谷歌链专题：AI全栈式创新，TPU+OCS共塑下一代智算网络.pdf

互联网行业谷歌链专题：AI全栈式创新，TPU+OCS共塑下一代智算网络。谷歌AI全栈优势构筑护城河，资本开支具备提升潜力。全面布局芯片（TPU）-网络(OCS)-模型(Gemini)-应用(云计算/搜索/广告等)，自研TPU芯片实现跨越式发展，Gemini模型能力全球领先，重视谷歌算力需求的高增长以及AI硬件创新带来的产业链投资机会。谷歌2025Capex上调至910-930亿，capex营收比与经营性现金流占比，相比其他CSP具备提升潜力，预计2026年将继续加大资本投入。Gemini月活跃用户已超6.5亿，每月处理Token总量一年内增长超过20倍。谷歌云营收及占比持续提高，AI拉动下需求...

谷歌AI全栈优势，增强Capex持续性

谷歌AI全栈优势构筑护城河

谷歌AI围绕芯片（TPU）-网络(OCS)-模型(Gemini)-应用(云计算/搜索/广告等)全栈优势构筑护城河。从2011年谷歌成立谷歌大脑（Google Brain）实验室开始涉足AI开始，一系列具有影响力的AI研究相继问世，包括2017年发布Transformer架构到2023年推出多模态大模型Gemini，目前已形成从芯片到集群架构到大模型再到应用端的布局，谷歌将AI逐步整合到多元业务流程中，这些业务为谷歌获取了海量数据，用于训练完善AI。同时通过收购AI初创公司拓展市场边界。2025Q3季度营收突破千亿美金，全栈式人工智能解决方案发展势头强劲，有3亿付费订阅用户，主要来自Google One和YouTube Premium。Gemini应用的月活跃用户已超过6.5亿，现在每月处理的Token总量超过1.3千万亿枚（7月处理的Token总量为980万亿枚），一年内增长超过20倍。

谷歌资本开支新高，Capex营收比具备提升潜力

CSP厂商Capex营收占比历史高位，谷歌具备进一步提升潜力。谷歌25Q3资本开支239.57亿元，同比+83.42%，2025年以来谷歌Capex及同比均重回增长，Capex绝对值为2020年来最高值，同比自24Q4以来营收及同比均创下新高。公司法说会FY25 Capex上调至910-930亿美金，前值为850亿美元。预计2026年谷歌仍将继续加大资本投入，算力发展确定性高。

2024年谷歌Capex占营收比15%，其他CSP厂商Meta、微软、甲骨文Capex营收比均超20%；与之呼应的是，2024年谷歌Capex相对谨慎，季度同比呈现下行趋势；2025年谷歌Capex资本开支分季度同比斜率重新回正，一方面印证谷歌资本开支营收比仍有空间，另一方面考虑到本轮谷歌Capex加速始于2023年起公司推进AI，公司AI飞轮效应显现，Capex投入力度或将继续加大。

云业务营收及占比持续提高，Capex现金流相对较低

2025Q3谷歌云收入增长34%至152亿美元，净利润增长33%，主要得益于谷歌云平台(GCP)核心产品、AI基础设施和生成式AI解决方案的增长,季度末积压订单达1550亿美元。2020年以来云业务营收及营收比稳步提升，25Q3云业务营收占比约为15%，AI对云业务拉动明显，今年前三个季度签署的超过10亿美元的交易数量，超过了过去两年的总和。2024年谷歌Capex经营性现金流占比41.93%，低于微软（44.24%）及甲骨文（59.40%），略高于Meta(40.79%），表明2024年谷歌现金流空间相对安全，2025年后可进行更大Capex投入。

自研第七代TPU Ironwood即将全面上市，正在加大TPU产能投入，以满足客户巨大需求，Anthropic最近宣布计划采购多达100万个TPU。

谷歌TPU跨越式发展，带动产业链需求

谷歌TPU 10年7代跨越式提升

2015年谷歌发布第一代TPU起，每一代TPU系统均在性能、可扩展性与系统效率上不断提升，Google逐步将光互连技术融入TPU系统， 2025年发布的TPU v7实现了能构建9216颗大规模集群的跨越。

2018年TPU v2：每个superpod包含256颗TPU芯片，采用2D环面（2D Torus）拓扑，单芯片芯片间互连（ICI）带宽为800GB/s，尚未引入光模块；

2020年TPU v3：超级集群芯片数提升至1024颗，仍保持2D环面拓扑，单芯片ICI带宽维持800GB/s，首次引入光互连技术，采用400Gbps 有源光缆（AOC），光通道波特率为50G；

2022年TPU v4：芯片数跃升至4096颗，拓扑升级为3D环面（3D Torus），单芯片ICI带宽调整为600GB/s，光模块升级为400G OSFP，同时引入OCS，光通道波特率仍为50G；

2023年TPU v5p：集群芯片数增至8960颗，延续3D Torus 拓扑，单芯片ICI带宽翻倍至1200GB/s，光模块更新为800G OSFP，光通道波特率提升至100G，OCS技术继续沿用；

2025年TPU v7（Ironwood）：集群芯片数达到9216颗，保持3D Torus与1200GB/s的单芯片ICI带宽，采用800G OSFP光模块，光通道波特率提升至200G。

TPU 架构迭代:从v1到v3

架构上来看，TPU v4前为2D环面拓扑结构：

TPU v1 为服务器端推理芯片。TPU v1 由 CPU 通过 PCIe 3.0 总线驱动 CISC 指令，采用 28nm 工艺制造，具有 28MiB 的芯片内存和 4MiB 32 位累加器，用于存储 256x256 系统阵列的 8 位乘法器的结果，核心是一个巨大的256x256矩阵乘法器（MXU），里面塞了65536个8位计算单元。TPU v1 主要针对 2015 年左右最火的神经网络进行优化，包括 MLP 多层感知机、CNN 卷积神经网络、RNN 递归神经网络& LSTM 长短期记忆。

TPU v2定位服务端AI推理和训练芯片。对比v1，TPU v2 改变主要有1）采用单个向量存储器，而不是固定功能单元之间的缓冲区；2）通用向量单元，而不是固定功能激活管道； 3）连接矩阵单元作为向量单元的卸载；4）将 DRAM 连接到内存系统而不是直接连接到矩阵单元；4）转向 HBM 以获得带宽；5）添加互连以实现高带宽扩展。此外，谷歌将四个 TPU v2 排列成了性能为 180 TFLOPS 的四芯片模块，并将64 个模块组成一个一共有 256 片 TPU v2 集成的 TPU v2 Pod，理论峰值计算量达到了11.5 PFLOPS。

TPU v3是对TPU2的温和重新设计，采用相同的技术，MXU和HBM容量增加了两倍，时钟速率、内存带宽和ICI带宽增加了1.3倍，同时Pod规模翻了四倍到1024个芯片；此外TPU v3 引入液冷以降低功耗。

OCS交换机提升TPU集群效率

架构上，谷歌借助 OCS 组网提高了集群整体效率。具体来看，虽然谷歌TPU与英伟达单卡性能仍有差距，但在系统级维度，OCS 带来的网络重构与规模效应，部分抵消了单卡差距，到v5p/v6e阶段，谷歌可借助超大 Pod（v5p 单 Pod 8960 芯片）+ OCS 重构继续放大总吞吐与集群效率。

TPU 与 NVIDIA GPU 的差距以 TPU v4 为分界点可以分成 “引入 OCS 之前 / 引入 OCS 之后” 两个阶段。早期 TPU （TPU v2/v3 时代）更像是“以单卡性能为基础、靠固定电互联做平面扩展”的路线，v3 的典型集群规模约为 1024 芯片/Pod，互联以电连接为主，单卡算力与显存/带宽层面整体落后于在当时的 NVIDIA 旗舰，系统可重构性也有限；TPU v4 的单 Pod 规模直接拉升至 4096 芯片，并能在 3D Torus 等拓扑间按需重构，根据谷歌论文，对比 A100，相近规模的系统上 TPU v4 集群性能高 1.2×–1.7×、功耗低 1.3×–1.9；目前，Gemini 2.5 Pro 借助 TPU v5p 进行训练，同时 v6e 已经发布，相比而言，虽然单卡维度上 NVIDIA 仍有优势，但系统维度上谷歌借助超大规模集群利用 OCS 将效率大大提升。

Ironwood继续沿用3D Torus架构

TPU v7（Ironwood）依旧采用3D Torus架构，OCS生命周期延长。具体来看，Ironwood 沿用过去三代的 3D Torus（立方环网）拓扑，每个逻辑单元为 4×4×4 节点阵列，即 64 芯片，封装于单个机架。立方体上有6个面，每个面有16个链接，通过ICI连接，共96根光纤，80根铜线和64根PCB走线，集群采用48台OCS光交换机进行互联，实现9216个TPU芯片组网。

TPU成为ASIC市场主力，出货量预期上修

2026年谷歌TPU 出货量相较2025年接近翻倍，且预期出货量远高于其他ASIC芯片。TPU v7将在2026年上量，成为出货主力，2027年出后TPU v8/v9/10等将继续迭代带动出货量提升。根据市场调研，2026年AISC 芯片总出货量约为570万颗，其中谷歌TPU出货300万颗，市占率过半。10月24日，谷歌与Anthropic再次签订数百亿美元100万只谷歌定制TPU芯片的合作协议，我们预计2026年TPU出货有望达到400万颗以上。

TPU v7（代号Ironwood）开始配置1.6T光模块：Ironwood超级集群芯片数达到9216颗，保持3D环面拓扑与1.2TBps的单芯片ICI带宽，采用800G OSFP光模块（交换机侧配置1.6T端口光模块），光通道波特率提升至200G，同时实现1.77PB的直接寻址共享高带宽内存（HBM），创下共享内存多处理器的新纪录，可高效支撑稠密模型与稀疏模型。

TPU+OCS交换机共塑下一代智算网络

电信市场最早探索光交换技术ROADM

针对光交换技术，电信市场很早就已有所研究。城域骨干网中，光传输是唯一路线，跨越上万公里的骨干传输网络由于节点数量有限、设备更新周期较长等特点，早在 21 世纪初期便已探索光交换技术，这类光交换技术被称作ROADM技术（Reconfigurable Optical Add-Drop Multiplexe），即可重构光分插复用器。

ROADM 前身为OADM，但 OADM 难以重新配置，灵活性有限。光分插复用器（OADM）是一种波分复用（WDM）网络设备，它能够访问光纤上的所有波长，并在特定位置实现对某些波长的插入或卸载，同时允许其余波长直接透过站点而无需电终端。OADM 可以使某一波长在本地被卸载而不再继续向前传输，从而实现波长的重用，即在相反方向重新插入同一波长并进行传输。然而 OADM 具有一定局限性，设备一旦部署则通常难以修改或重新配置，即便流量模式发生变化也无法灵活调整；此外，它通常仅支持双向传输，扩展性有限。

为了满足不断变化的流量需求，可重构光分插复用器（ROADM）在 21 世纪初应运而生。ROADM 不仅支持 AZ 光路的远程配置与动态重配置，还能够扩展至多方向的光纤网状网络。与其前身 OADM 相似，ROADM 同样允许在站点分插单个波长；不同的是，它具备更高的灵活性，允许在光通信网络中灵活地添加、删除和重新配置光信号，可在流量模式变化时，灵活调整或切换分插与直通波长的配置，从而显著提升网络的可扩展性与适应性。

光交换技术有望在数通领域爆发

RODAM技术实现的核心器件是光交换器件WSS（Wavelength Selective Switch 波长选择开关），其基本原理是利用光栅的衍射效应将不同波长的光信号分离，并通过光开关实现对特定波长信号的灵活选择和路由。

虽然WSS因为结构复杂而单价较高，且主要用于电信设备，但以WSS为代表的传统电信网络中的光交换市场，现在有望在大型数据中心之间迎来爆发。在数通领域，OCS（光电路交换机）可以被视为一种特殊的光开关，其核心功能是通过光开关矩阵实现光信号的物理路径重构。对比来看，WSS更多的用于干线传输，DWDM的密集波分复用场景，不仅可以切换光路的端口，甚至可以细化到每一个波长各自切换端口；OCS更多用于AI组网，CWDM4，或者CWDM8，波长数量有限，且应用场景固定，但不会针对每个波长做分离。

OCS交换机利用光信号直接传输数据，避免了信号的转换过程，从而减少了延迟和能量消耗，因此适用于大规模数据中心之间的高速互联，尤其是在跨区域扩展和大规模AI算力需求下表现出极大优势。

OCS主流方案拆解与增量环节分析

Jupiter架构首次使用Palomar OCS

早期谷歌数据中心使用Clos拓扑架构。早期架构最早于 2004 年推出，被称为4-Post架构，由 4 个大容量交换机和 512 台 ToR 交换机连接组成，每台 ToR 交换机与 40 台服务器相连，形成了一个512×40，约 2 万台服务器的集群。2006年，谷歌从 Fire 1.1 开始使用 Clos拓扑架构，将数据中心中的所有服务器和所述服务器的机架连接在一起，通用的三层 Clos 架构包括边缘交换机（ToRs）、汇聚模块和骨干模块，此后数据中心部署的 Clos 网络都遵循这种架构的不同变体。

Clos 架构下电交换机带来巨大功耗和资本开支，OCS 有效解决主要痛点。Clos网络的主干使用电子分组交换机(EPS：Electronic Packet Switch) ，随网络规模迅速扩大，叠加每2到3年网络速度翻倍，每一代 EPS 带来的资本支出成倍数增长。谷歌在 Jupiter/Apollo 架构中引入 OCS 替代脊交换机，通过消除用于实现脊交换层的电交换机与光接口，根据SemiAnalysis，谷歌的OCS定制化网络使其整个网络的吞吐量提升了 30%，功耗降低了40%，数据流完成时间缩短了10%，网络宕机时间减少了50倍，且资本开支减少了30%。此外，OCS可将交换机和光纤升级到更快的几代，而无需更换网络的“主干”，使用寿命比传统 EPS 长得多。

TPU v4集群TPU与OCS交换机比例

谷歌TPU v4单集群由4096个TPU芯片组成，对应48个OCS交换机。其中单集群共有64个rack机柜，单rack对应即 64个TPU，即 64X64=4096。结构上，谷歌采用3D Torus 结构，每台机架内的64个TPU连接方式为4³ 的立方体，每个立方体6个面，每个面延伸出来 4×4=16条线与机架外部的光交换机连接，6个面总共6×16=96条线，理论上对应96个光交换机，但对立面上的两个点连同一台交换机，因此实际上需要48台交换机。

后续潜力：谷歌以外的更多CSP正在探索OCS

除谷歌外，OCS有望在其他CSP中得到更多重视和应用。需求来看，除谷歌作为目前 OCS 交换机方案主要应用方需求保持高速年增以外，微软、Meta、亚马逊 AWS 也都在探索自己的光交换网络，根据Lightcounting预测，2024-2029 年 OCS 有望以 28% 复合增速增长；供应商角度同样已逐步得到验证：Lumentum、Coherent 均在业绩会表示，OCS 产品均已产生收入，目前Lumentum 已向两家超大规模客户出货，第三家客户已承诺在 2026年部署；Coherent 称其数字液晶 OCS 将使得公司在数据中心的份额扩张超 20亿美元。因此未来几年 OCS 市场容量及渗透率有望保持共同提升。

另一方面，OCP 联盟推作为动 OCS 技术标准化的关键力量在多方面推进产业进展。OCP 联盟在 2025 年 7 月宣布成立 Optical Circuit Switching（OCS）子项目，并在 2025 年 8 月的 OCP APAC Summit（台北）进行首次对外呈现；生态层面，iPronics 与 Lumentum 对外称牵头推进，并提及 Google、Microsoft、Coherent（及多方）参与。总体来看，OCS 子项目有望在统一接口与互通、降低采用门槛（开放规范与软件栈）等方面推进产业协作。

报告节选：

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）