2026年通信行业投资策略:谷歌TPU v7与OCS光交换,架构革新与产业链机遇

  • 来源:天风证券
  • 发布时间:2026/02/14
  • 浏览次数:129
  • 举报

TPU v7 的革新之路——极致算力效能与成本经济性!

核心算力:新一代MXU架构与FP8性能跃升 !

性能数值的背后是微架构的胜利。进入LLM时代以来,TPU v6 Trillium的脉动阵列尺寸从128*128扩大到256*256,使得其峰值理论浮 点运算能力提升了惊人的两倍。TPU v7 延续了在v6中引入的256 × 256脉动阵列 ,每个芯片包含了两个TensorCore,每个 TensorCore 都有两个MXU(256*256),即采用等效 512 × 512 的脉动阵列,这使得TPU v7 实现了 FP8下4,614 TFLOPS 的峰值 吞吐,较TPU v5p提升 10 倍。 TPU v7(Ironwood)在浮点运算性能、显存容量和带宽方面接近英伟达旗舰级GPU的表现。与 GB200 相比,Ironwood 的浮点运算 性能和显存带宽仅略有不足,容量方面则与GB200相同,均采用 8 芯 HBM3E 显存,但与配备288GB、12 芯 HBM3E 显存的 GB300 相比差距仍然很大。

卓越性能秘诀:极简设计专注神经网络推理

极简设计带来优秀的性能表现。CPU和GPU等通用处理器必须在各种应用中提供良好的性能,它们发展出无数复杂且以性能为导向的机 制。但其副作用是,这些处理器的行为难以预测,这使得神经网络推理的延迟难以保证在特定范围内。相比之下,TPU的设计极其简洁且 确定性强,因为它一次只需运行一项任务:神经网络预测。TPU 的确定性执行模型比 CPU 和 GPU 的时变优化更符合我们神经网络应 用的 99% 响应时间要求。 借助 TPU,谷歌可以轻松精确地估算运行神经网络并进行预测所需的时间。这使谷歌能够在保持几乎所有预测的严格延迟限制的同时, 以接近芯片峰值吞吐量运行。例如,尽管MLP0 应用的延迟限制为7 毫秒,但 TPU 的吞吐量仍比目前的 CPU 和 GPU 高出15 到 30 倍。 对于 MLP0 应用,谷歌将第 99 百分位预测延迟限制在 7 毫秒左右,以确保基于 TPU 的 Google 服务始终提供快速的用户体验。在延 迟限制下,TPU 与当前 CPU 和 GPU 在六个神经网络应用中的整体性能(每秒预测次数)对比,在最显著的情况(CNN1应用)下, TPU 的性能比 CPU 提升了 71 倍。

成本:卓越的成本优势重塑算力经济性!

TPU v7 Ironwood 的单位有效浮点运算成本远低于NVIDIA GPU。谷歌通过博通代工仅需支付TPU的利润,而购买英伟达GB200则意 味着要为其GPU、CPU、网络及连接件等全链条硬件支付高昂的品牌溢价。凭借这种供应链上的‘解耦’优势,谷歌TPU v7 Ironwood 在全3D Torus配置下的综合成本(TCO)较GB200节省了近44%。结合TPU v7更高的MFU使得单位有效浮点运算成本大大降低,大 约15%的MFU就能达到盈亏平衡点,而GB300 的MFU为30%,意味着即使谷歌的浮点运算利用率只有 GB300 的一半,也能实现收支 平衡。考虑到谷歌内部对自身模型的深刻理解,他们在 TPU 上实现的 MFU 可能高达 40%。这将使每有效训练浮点运算的成本降低约 62%。

软硬协同:Mosaic编译器驱动SparseCore实现全融合

TPU 确立了明确的“分工解耦”架构定位。主核心 TensorCore (MXU) 专注于其擅长的矩阵乘法,负责核心的稠密计算 (Dense Compute);而 SparseCore 利用与HBM和ICI的直连优势,接管了gather/scatter任务,仅以5%的芯片面积和功耗实现了对 embedding操作5-7倍的加速,此外SC还配备了负责调度的 Sequencer (SCS) 和 负责计算的 Tiles (SCT),同时依托并行 (Parallelism)机制,使 SparseCore 与 TensorCore 能够同时运行。 针对传统 vLLM MoE 内核中“按专家 ID 排序”导致的 TPU 性能瓶颈(排序慢、通信无法重叠),谷歌推出了“全融合 MoE”方案。 依托 JAX DevLabs 和 Mosaic 编译器,TPU v7 实现了 MPMD(多程序多数据)编译模式。该模式下,SCS 和 SCT 能够执行完全不 同的内核程序,从而彻底摒弃了令牌排序步骤,并实现了 MoE 调度与通信的完美重叠。最终,该方案使 MoE 推理速度较现有内核提升 了 3-4 倍。

OCS核心优势、交换机原理与全层级网络架构演进

Ironwood:定义下一代超算互连标准

1. 核心观点

TPUv7 Ironwood的机架设计不仅是硬件的堆叠,谷歌在AI性能/TCO上的优势不在于单颗芯片本身,而在于从系统级视角整体设计 TPU, 使芯片在真实部署中以更高效、更灵活的方式协同工作。通过将 64 颗 TPU 高度集成在一个物理机架内,并对应逻辑上的4x4x4 3D Torus立方体,Ironwood在保持极高互连密度的同时,采用更易维护的铜缆与光纤组合。

2. 架构详解

机架规格与密度:TPU机架在最近几代产品中采用了相似的设计。每个机架由16个TPU托盘、16个或8个主机CPU托盘(取决于冷却配 置)、一个机架顶部交换机(ToR Switch)、电源单元以及电池备份单元(BBUs)组成。机架内部布局:机架内部包括TPU托盘、CPU托盘、ToR交换机、电源与BBUs。每个TPU托盘为一块板,集成4颗芯片。托盘间通过 外部铜缆或光模块进行ICI互连,与CPU托盘通过PCIe DAC连接。液冷采用主动阀控流量,VRM位于PCB另一侧并配冷板。

OCS 拓扑重构:从单立方体闭环到双立方体级联

多立方体扩展模式(开环拼接):当拓扑从单个4×4×4立方体扩展为更大结构(如4×4×8、16×16×16)时,OCS重新配置原本用 于“回绕”的光端口,使其不再连接回本立方体对侧,而是连接到相邻立方体对应Index的TPU,实现立方体级联拼接。在 4×4×8 结 构中,两个4×4×4立方体沿Z轴拼接。

OCS四大技术方案深度对比与Google的路径选择

OCS四大技术方案及Google的选择

Google 在其 Jupiter 数据中心网络演进过程中引入了 MEMS,并在 Apollo OCS 系统中采用了基于 3D MEMS 的光交换实现方案。工 程实践中,MEMS 型光交换在 超大规模端口扩展性(Scalability) 与 低插入损耗(Low Insertion Loss) 这两项指标上有核心优势。


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告
评论
  • 相关文档
  • 相关文章
  • 全部热门
  • 本年热门
  • 本季热门
  • 全部热门
  • 本年热门
  • 本季热门
  • 最新文档
  • 最新精读
分享至