海外云厂商ASIC布局情况如何?

海外云厂商ASIC布局情况如何?

最佳答案 匿名用户编辑于2025/06/27 14:18

微软将 Maia 100 打造成定制的 AI 加速器,用于在 Azure 上运行 OpenAI 的模型和 Copilot 等 AI 工作负 载。

1、谷歌:谷歌专为 AI 定制设计 ASIC

谷歌 TPU(Tensor Processing Unit)即张量处理单元,是谷歌专为加速机器学习任务设计的定制 ASIC 芯片,主要用于深度学习的训练和推理。TPU 基本上是专门用于矩阵乘法的计算核心,并与高带 宽内存(HBM)连接;TPU 的基本组件包括矩阵乘法单元(MXU)、矢量单元(VPU)和矢量内存 (VMEM);矩阵乘法单元是 TensorCore 的核心,矢量处理单元执行一般数学运算,矢量内存是位于 TensorCore 中靠近计算单元的片上暂存器;TPU 在进行矩阵乘法方面速度非常快。

目前谷歌 TPU 已经迭代至第七代产品,每代产品相较于上一代在芯片架构及性能上均有一定的提升: 2015 年谷歌 TPUv1 推出,主要用于推理任务。2024 年谷歌发布第六代产品 TPUv6 Trillium,与上一 代 TPUv5e 相比,单芯片峰值计算性能提高了 4.7 倍,HBM 容量和带宽均增加一倍,同时芯片间互连 带宽也增加一倍;TPUv6 Trillium 在性能提升的同时,能源效率比上一代提高了 67%,显著降低了运营 成本;TPUv6 Trillium 被用于训练谷歌的 Gemini2.0 等 AI 大模型。

谷歌 TPU 迭代推动大模型训练与推理效率大幅提升。Gemini 等 AI 大模型性能强大且复杂,拥有数十 亿个参数,训练如此密集的大模型需要巨大的计算能力以及共同设计的软件优化。与上一代 TPUv5e 相 比,TPUv6 Trillium 为 Llama-2-70b 和 gpt3-175b 等大模型提供了高达 4 倍的训练速度。TPUv6 Trillium 为推理工作负载提供了重大改进,为图像扩散和大模型提供了最好的 TPU 推理性能,从而实现 了更快、更高效的 AI 模型部署;与 TPUv5e 相比,TPUv6 Trillium 的 Stable Diffusion XL 离线推理相 对吞吐量(每秒图像数)高出 3.1 倍,服务器推理相对吞吐量高出 2.9 倍。

TPU v6 Trillium 预计 2025 年将大规模替代现有 TPUv5。在新一代产品研发上,谷歌改变了此前仅与 博通(Broadcom)合作的单一供应链模式,新增与联发技(MediaTek)的合作,形成双供应链布局。 这一举措不仅能提升设计灵活性,降低对单一供应链的依赖风险,还有助于加强在高阶先进制程领域的 布局。 谷歌已建立 100000TPU 芯片算力集群。TPU 芯片通过 ICI 连接成算力集群,TPU 网络可以连接 16x16x16 TPU v4 和 16x20x28 TPU v5p。为了满足日益增长的 AI 计算需求,谷歌已将超过 100000 个 TPUv6 Trillium 芯片连接到一个网络结构中,构建了世界上最强大的 AI 超级计算机之一;该系统将超 过 100000 个 TPU v6 Trillium 芯片与每秒 13PB 带宽的 Jupiter 网络结构相结合,使单个分布式训练作 业能够扩展到数十万个加速器上。这种大规模芯片集群可以提供强大的计算能力,实现高效的并行计算, 从而加速大模型的训练过程,提高人工智能系统的性能和效率。

2025 年 4 月正式推出了第七代 TPU——Ironwood,专为规模化部署思考型、推理型 AI 模型而设计,标 志着 AI 发展和支持其进步的基础设施的重大转变,从提供实时信息供人解读的响应式 AI 模型,转向提 供主动式见解生成和解释的模型。 在核心的计算性能方面突破壁垒,最大 42.5exaflops 算力。Ironwood 每个独立芯片提供 4614TFLOPs 的峰值计算能力。而包括 9216 颗 TPU 的集群总共拥有 42.5Exaflops 的计算能力,是世界 上目前最大的超级计算机 El Capitan(每个集群提供 1.7Exaflops)计算能力的 24 倍以上。

Ironwood 在内存子系统方面进行了大幅升级。在单芯片规格上,Ironwood 显著提升了内存和带宽,每 块芯片配备 192GB 高带宽内存(HBM),是去年发布的上一代 TPU Trillium 的六倍。每块芯片的内存 带宽达到 7.2terabits/s,是 Trillium 的 4.5 倍。更大的内存容量意味着可以在芯片本地缓存更大规模的 模型参数和更长的上下文信息,减少对外部存储的访问;更高的带宽则能更快地将数据喂给计算单元, 这两者对于降低推理延迟、提升复杂模型处理效率具有直接作用。 Ironwood 也大幅提升了计算效率,其每瓦性能是 Trillium 的两倍,和 2018 年推出的首款 TPU 相比高 出近 30 倍。在数据中心能耗日益成为瓶颈和主要运营成本的背景下,能效的提升对于 AI 技术的可持续 发展和大规模经济化部署具有重要价值。谷歌还强调了其配套的先进液冷散热技术,旨在确保芯片在高 负载下能够稳定、高效地运行。

据 Google 介绍,性能巨幅提升的 Ironwood,旨在针对性满足思维模型所要求的不同计算需求。在 前沿领域,思维模型的计算需求远远超出了任何单个芯片的能力。因此 Ironwood TPU 具有低延迟、高 带宽的 ICI 网络,以支持在整个 TPU 单元级规模上进行协调、同步的通信。谷歌还强调 Ironwood 将与 其机器学习运行时 Pathways 配合使用,使开发者能够轻松地利用数万个 Ironwood TPU 的组合计算能 力。对企业客户而言,Ironwood 将提供两种配置:256 芯片配置和 9,216 芯片配置。

2、Meta:自研 ASIC 芯片用于专用负载,助力降本增效

META 的核心算力负载来源于推荐系统场景,具备自研强调专用性的 ASIC 芯片的土壤。META 的业务 中视频/广告推荐系统这一特定场景为公司主要的算力工作负载来源,且持续升级的推荐系统仍在不断 提升对于算力侧的需求,针对推荐系统这一特定领域自研专用性更强的 ASIC 芯片,相对完全外购通用 算力芯片的方案,将具备一定的性价比优势,有望带来成本优化。 Meta 于 2023 年 5 月和 2024 年 4 月分别推出 MTIA V1 和 MTIA V2 芯片。初代 MTIA 芯片,采 用台积电 7nm 制程,算力(INT8)达到 102TFLOPS,功率为 25 瓦。从 MTIA V1 到 MTIA V2,Meta 的自研芯片在性能和效率方面实现明显提升。MTIA V2 基于台积电 5nm 工艺,可处理低复杂性(LC) 和高复杂性(HC)的排名和推荐模型,提升包括:1)内存:MTIA V2 采用 8x8 处理元件(PE)布局, 单 PE 存储性能达 384KB,较 MTIA V1 提高 2x;2)处理能力:MTIA V2 芯片算力更高,INT8/FP16 精度下算力达 354TFLOPS/177TFLOPS,较 MTIA V1 性能提升 3.5x;3)传输效率:MTIA V2 芯片具 有更高效的数据传输,8 个 PCIe Gen5 接口提供最高 32GB/s 的传输效率,较 MTIA V1 提升 2x。

MTIA V2 旨在高效地服务于排名和推荐模型,为用户提供高质量的推荐。MTIA V2 主要应对 META 日 趋进化的推荐引擎带来的算力需求。从设计上来看,PE(Prossessing Element)为整个 MTIA V2 的计 算单元主体。其中包括常规计算核心及众多定向优化计算的计算核心,除一个用于标量计算、一个用于 矢量计算的 CPU 单元之外,通过一个命令处理器,设计了多个类型的用于加速的单元。包括动态量化 引擎 RE、加强数据移动的 MLU、支持非线性函数计算的 SE、强调了稀疏支持的矩阵乘法的 DPE,针 对性对于推荐系统的具体计算进行定向优化。众多的定向设计,使得 MTIA V2 在处理大规模数据时减 少存储和带宽的消耗,从而提升整体计算性能。这些功能对推荐引擎至关重要,因为推荐系统常常需要 处理大量复杂的数据表和权重。

Meta 计划 2026 年推出 MTIA V3 芯片,预计将搭载高端 HBM,与 V1/V2 芯片专注于广告与社交网络 等特定任务不同,有望扩展应用至模型的训练与推理任务。

3、亚马逊 AWS:不断迭代 Trainium 系列 AI 芯片,算力基础设施持续受 益

AWS(Amazon Web Services)在 AI 芯片的布局主要包含推理芯片 Inferentia 和训练芯片 Trainium 两 大系列。 自 2020 年以来,亚马逊发布了两代 Trainium 芯片。Trainium1 加速器提供 190TFLOPS 的 FP16/BF16 算力,配有 32GB 的 HBM,内存带宽 820GB/s;AWSTrainium2 芯片的效能比第一代 Trainium 提升高达 4 倍。以 Trainium2 为基础的 AmazonEC2Trn2 实例专为生成式 AI 而建置,是用于 训练和部署具有数千亿到数万亿以上参数的模型的最强大 EC2 实例。Trn2 实例的价格效能比目前一代 GPU 型 EC2P5e 和 P5en 实例更好 30-40%。Trn2 实例配备 16 个 Trainium2 芯片,这些芯片透过 NeuronLink 实现互连。Trn2UltraServer 是全新的 EC2 产品,非常适合需要比独立 EC2 实例所能提供 更多内存和内存带宽的最大型模型。UltraServer 设计使用 NeuronLink 将四个 Trn2 实例中的 64 个 Trainium2 芯片联机至一个节点中。对于推理而言,UltraServer 可协助提供业界领先的响应时间,进而 创造出最佳的实时体验。对于训练而言,与独立实例相比,UltraServers 会透过更快的协同通讯来提高 模型平行性的模型训练速度和效率。 NeuronCore-v3 是驱动 Trainium2 芯片的第三代 NeuronCore。它是一个完全独立的异构计算单元,由 4 个主引擎组成:Tensor 张量引擎、Vector 向量引擎、Scalar 标量引擎和 GPSIMD 通用可编程引擎, 并带有片上软件管理的 SRAM 内存,可最大限度地提高数据局部性并优化数据预取。

AWS 计划在今年晚些时候发布下一代 AI 半导体 Trainium3,采用 3nm 制程工艺,由台积电代工。 Trainium3 性能或较上一代提升 2 倍,能效提升 40%,搭载该芯片的 UltraServers 性能预计提升 4 倍。 Trainium3 的发布进一步巩固了亚马逊在云服务与 AI 芯片结合领域的优势,通过与云服务的深度整合, 为客户提供更高性能、更低成本的 AI 解决方案。 2018 年,亚马逊宣布研发专为 AI 推理优化的芯片 Inferentia,重点降低运行大规模深度学习模型的成 本。公司于 2023 年推出 Inferentia2,是第二代 AWS 专用机器学习推理加速器,每个芯片有两个 NeuronCore-v2 核心。Inferentia2 针对 INT8 数据类型可提供算力达 380TFLOPS,针对 FP16/BF16 数 据类型算力达 190TFLOPS,并额外添加了对 FP32、TF32 和可配置的 FP8(cFP8)数据类型的支持。 内存方面,Inferentia2 具备 32GBHBM,带宽为 820GB/s,对比 Inferentia 总内存增加了 4 倍,内存 带宽增加了 10 倍。

目前包括 Adobe、AI 新创公司 Poolside、数据平台服务 Databricks 以及高通都通过 Trainium2 处理器 训练其 AI 模型,其中,高通在云端计算 AI 模型后再将其传送至边缘端。另外苹果也在采用亚马逊 ASIC 芯片提供的服务,应用于 Siri,AppleMaps 和 AppleMusic。苹果使用亚马逊的 Inferentia 和 Graviton 芯片来服务搜索服务。

4、微软:自研芯片 Maia100

微软将 Maia 100 打造成定制的 AI 加速器,用于在 Azure 上运行 OpenAI 的模型和 Copilot 等 AI 工作负 载。Maia 100 采用台积电 5nm 制程和 CoWoS-S 封装技术,配备 64GB(4×16GB)的 HBM2E,内存 带宽达 1.8TB/s。Maia 100 配备一个 500MB 的 L1/L2 缓存,芯片具有 12 倍 400GbE 的网络带宽,设 计最大功耗 700WTDP。 Maia 100 芯片在 MXFP4 数据格式下的性能达到 3200TFLOPS,Int8 下达到 1600TFLOPS,BF16 下 达到 800TFLOPS,算力性能超过英伟达 A10028%,是英伟达 H100 的 40%。 微软 Maia 100 单 SoC 搭载 16 个集群,其中每个集群搭载 4 个图块 Tile。Maia 100 拥有图像解码器和 机密计算能力,支持广泛的数据类型,包括 FP32 和 BF16。

Maia 100 基于自定义的 RoCE 类协议和以太网互连,内置 AES-GCM 加密引擎以保护用户数据,网络 连接带宽达到 600GB/s。Maia 100 还由统一的后端网络支持,用于扩展和横向扩展工作负载,提供了 支持直接和交换机连接的灵活性。 微软 Maia 100 芯片的 Ares 机架配备 32 颗 Maia 100。Ares 一个机架中搭载了 8 台服务器,每台服务器 中含有 4 个 Maia 100,因此一个机架中总共有 32 颗 Maia 100 芯片。Ares 机架功率可达 40kW,配置 了 Sidekick 液体冷却系统,在机架两侧设置副设备,冷液从副设备流向 Maia 100 表面的冷板,副设备 吸取液体中热量后再将冷液输出,以此构建散热循环。

下一代 Maiav2 的设计已确定,后端设计及量产交付由 GUC 负责。除深化与 GUC 的合作外,微软还引 入美满电子共同参与 Maiav2 进阶版的设计开发,以强化自研芯片的技术布局,有效分散开发过程中的 技术与供应链风险。 MaiaSDK 上实现快速部署和模型可移植性。微软为 Maia 100 创建了软件,该软件与 PyTorch 和 ONNX Runtime 等流行的开源框架集成。该软件栈提供了丰富而全面的库、编译器和工具,使数据科学 家和开发人员能在 Maia 100 上成功运行模型。微软集成了 OpenAI 的 Triton;Maia 的 SDK 允许用户 将用 PyTorch 和 Triton 编写的模型快速移植到 Maia。

参考报告

ASIC行业深度:市场前景、规模预测、产业链及相关公司深度梳理.pdf

ASIC行业深度:市场前景、规模预测、产业链及相关公司深度梳理。随着人工智能技术的飞速发展,全球对高效、低功耗、高性能计算芯片的需求日益迫切。ASIC(Application-SpecificIntegratedCircuit,特定应用集成电路)作为一种为特定任务定制的芯片,凭借其卓越的性能、功耗比和成本效益,正在成为推动AI技术落地的关键力量。从云服务巨头到科技初创企业,从数据中心到边缘设备,ASIC的应用场景不断拓展,市场规模持续增长。本文将深入剖析ASIC行业的市场前景、架构及生态、产业链以及相关企业的竞争态势,探讨ASIC在AI时代的应用前景与发展机遇,为行业从业者和投资者提供全面且深...

查看详情
相关报告
我来回答