2026年通信行业投资策略：谷歌TPU v7与OCS光交换，架构革新与产业链机遇

来源：天风证券
发布时间：2026/02/14
浏览次数：129
举报

TPU v7 的革新之路——极致算力效能与成本经济性！

核心算力：新一代MXU架构与FP8性能跃升！

性能数值的背后是微架构的胜利。进入LLM时代以来，TPU v6 Trillium的脉动阵列尺寸从128*128扩大到256*256，使得其峰值理论浮点运算能力提升了惊人的两倍。TPU v7 延续了在v6中引入的256 × 256脉动阵列，每个芯片包含了两个TensorCore，每个 TensorCore 都有两个MXU（256*256），即采用等效 512 × 512 的脉动阵列，这使得TPU v7 实现了 FP8下4,614 TFLOPS 的峰值吞吐，较TPU v5p提升 10 倍。 TPU v7（Ironwood）在浮点运算性能、显存容量和带宽方面接近英伟达旗舰级GPU的表现。与 GB200 相比，Ironwood 的浮点运算性能和显存带宽仅略有不足，容量方面则与GB200相同，均采用 8 芯 HBM3E 显存，但与配备288GB、12 芯 HBM3E 显存的 GB300 相比差距仍然很大。

卓越性能秘诀：极简设计专注神经网络推理

极简设计带来优秀的性能表现。CPU和GPU等通用处理器必须在各种应用中提供良好的性能，它们发展出无数复杂且以性能为导向的机制。但其副作用是，这些处理器的行为难以预测，这使得神经网络推理的延迟难以保证在特定范围内。相比之下，TPU的设计极其简洁且确定性强，因为它一次只需运行一项任务：神经网络预测。TPU 的确定性执行模型比 CPU 和 GPU 的时变优化更符合我们神经网络应用的 99% 响应时间要求。借助 TPU，谷歌可以轻松精确地估算运行神经网络并进行预测所需的时间。这使谷歌能够在保持几乎所有预测的严格延迟限制的同时，以接近芯片峰值吞吐量运行。例如，尽管MLP0 应用的延迟限制为7 毫秒，但 TPU 的吞吐量仍比目前的 CPU 和 GPU 高出15 到 30 倍。对于 MLP0 应用，谷歌将第 99 百分位预测延迟限制在 7 毫秒左右，以确保基于 TPU 的 Google 服务始终提供快速的用户体验。在延迟限制下，TPU 与当前 CPU 和 GPU 在六个神经网络应用中的整体性能（每秒预测次数）对比，在最显著的情况（CNN1应用）下， TPU 的性能比 CPU 提升了 71 倍。

成本：卓越的成本优势重塑算力经济性!

TPU v7 Ironwood 的单位有效浮点运算成本远低于NVIDIA GPU。谷歌通过博通代工仅需支付TPU的利润，而购买英伟达GB200则意味着要为其GPU、CPU、网络及连接件等全链条硬件支付高昂的品牌溢价。凭借这种供应链上的‘解耦’优势，谷歌TPU v7 Ironwood 在全3D Torus配置下的综合成本（TCO）较GB200节省了近44%。结合TPU v7更高的MFU使得单位有效浮点运算成本大大降低，大约15%的MFU就能达到盈亏平衡点，而GB300 的MFU为30%，意味着即使谷歌的浮点运算利用率只有 GB300 的一半，也能实现收支平衡。考虑到谷歌内部对自身模型的深刻理解，他们在 TPU 上实现的 MFU 可能高达 40%。这将使每有效训练浮点运算的成本降低约 62%。

软硬协同：Mosaic编译器驱动SparseCore实现全融合

TPU 确立了明确的“分工解耦”架构定位。主核心 TensorCore (MXU) 专注于其擅长的矩阵乘法，负责核心的稠密计算 (Dense Compute)；而 SparseCore 利用与HBM和ICI的直连优势，接管了gather/scatter任务，仅以5%的芯片面积和功耗实现了对 embedding操作5-7倍的加速，此外SC还配备了负责调度的 Sequencer (SCS) 和负责计算的 Tiles (SCT)，同时依托并行 (Parallelism)机制，使 SparseCore 与 TensorCore 能够同时运行。针对传统 vLLM MoE 内核中“按专家 ID 排序”导致的 TPU 性能瓶颈（排序慢、通信无法重叠），谷歌推出了“全融合 MoE”方案。依托 JAX DevLabs 和 Mosaic 编译器，TPU v7 实现了 MPMD（多程序多数据）编译模式。该模式下，SCS 和 SCT 能够执行完全不同的内核程序，从而彻底摒弃了令牌排序步骤，并实现了 MoE 调度与通信的完美重叠。最终，该方案使 MoE 推理速度较现有内核提升了 3-4 倍。

OCS核心优势、交换机原理与全层级网络架构演进

Ironwood：定义下一代超算互连标准

1. 核心观点

TPUv7 Ironwood的机架设计不仅是硬件的堆叠，谷歌在AI性能/TCO上的优势不在于单颗芯片本身，而在于从系统级视角整体设计 TPU，使芯片在真实部署中以更高效、更灵活的方式协同工作。通过将 64 颗 TPU 高度集成在一个物理机架内，并对应逻辑上的4x4x4 3D Torus立方体，Ironwood在保持极高互连密度的同时，采用更易维护的铜缆与光纤组合。

2. 架构详解

机架规格与密度：TPU机架在最近几代产品中采用了相似的设计。每个机架由16个TPU托盘、16个或8个主机CPU托盘（取决于冷却配置）、一个机架顶部交换机（ToR Switch）、电源单元以及电池备份单元（BBUs）组成。机架内部布局：机架内部包括TPU托盘、CPU托盘、ToR交换机、电源与BBUs。每个TPU托盘为一块板，集成4颗芯片。托盘间通过外部铜缆或光模块进行ICI互连，与CPU托盘通过PCIe DAC连接。液冷采用主动阀控流量，VRM位于PCB另一侧并配冷板。

OCS 拓扑重构：从单立方体闭环到双立方体级联

多立方体扩展模式（开环拼接）：当拓扑从单个4×4×4立方体扩展为更大结构（如4×4×8、16×16×16）时，OCS重新配置原本用于“回绕”的光端口，使其不再连接回本立方体对侧，而是连接到相邻立方体对应Index的TPU，实现立方体级联拼接。在 4×4×8 结构中，两个4×4×4立方体沿Z轴拼接。

OCS四大技术方案深度对比与Google的路径选择

OCS四大技术方案及Google的选择

Google 在其 Jupiter 数据中心网络演进过程中引入了 MEMS，并在 Apollo OCS 系统中采用了基于 3D MEMS 的光交换实现方案。工程实践中，MEMS 型光交换在超大规模端口扩展性（Scalability）与低插入损耗（Low Insertion Loss）这两项指标上有核心优势。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）