2025年AI算力芯片行业专题报告：AI时代的引擎

来源：中原证券
发布时间：2025/04/07
浏览次数：311
举报

相关深度报告REPORTS

AI算力芯片行业专题报告：AI时代的引擎.pdf

AI算力芯片行业专题报告：AI时代的引擎。AI算力芯片是“AI时代的引擎”。ChatGPT热潮引发全球科技企业加速布局AI大模型，谷歌、Meta、百度、阿里巴巴、华为、DeepSeek等随后相继推出大模型产品，并持续迭代升级；北美四大云厂商受益于AI对核心业务的推动，持续加大资本开支，国内三大互联网厂商不断提升资本开支，国内智算中心加速建设，推动算力需求高速成长。人工智能进入算力新时代，全球算力规模高速增长，根据IDC的预测，预计全球算力规模将从2023年的1397EFLOPS增长至2030年的16ZFLOPS，预计2023-2030年复合增速达50%。AI服务器是支持...

1. AI 算力芯片是“AI 时代的引擎”

1.1. 大模型持续迭代，推动全球算力需求高速成长

ChatGPT 热潮引发全球科技企业加速迭代 AI 大模型。ChatGPT 是由美国公司 OpenAI 开发、在 2022 年 11 月发布上线的人工智能对话机器人，ChatGPT 标志着自然语言处理和对话 AI 领域的一大步。ChatGPT 上线两个月后月活跃用户数突破 1 亿，是历史上用户增长速度最快的消费级应用程序。ChatGPT 热潮引发全球科技企业加速布局，谷歌、Meta、百度、阿里巴巴、华为、DeepSeek 等科技企业随后相继推出 AI 大模型产品，并持续迭代升级。

GPT-4.5 带来更自然的交互体验。2025 年 2 月 27 日，OpenAI 正式发布 AI 大模型 GPT4.5。作为 OpenAI 迄今为止规模最大、知识最丰富的模型，GPT-4.5 在 GPT-4o 的基础上进一步扩展了预训练，与专注于科学、技术、工程和数学(STEM)领域的其他模型不同，GPT4.5 更全面、更通用。在与人类测试者的对比评估中，GPT-4.5 相较于 GPT-4o 的胜率（人类偏好测试）更高，包括但不限于创造性智能（56.8%）、专业问题（63.2%）以及日常问题（57.0%）；GPT-4.5 带来更自然、更温暖、更符合人类的交流习惯。GPT-4.5 的知识面更广，对用户意图的理解更精准，情绪智能也有所提升，因此特别适用于写作、编程和解决实际问题，同时减少了幻觉现象。

OpenAI o3 进一步提升复杂推理能力。2024 年 12 月 20 日，OpenAI 发布全新推理大模型 o3，o3 模型在多个标准测试中的表现均优于 o1，进一步提升复杂推理能力，在一些条件下接近通用人工智能（AGI）。在软件基准测试（SWE-benchVerified）中，o3 的准确率达到了 71.7%，相较 o1 提升超过 20%；在编程竞赛（Codeforces）中，o3 的评分达到 2727，接近 OpenAI 顶尖程序员水平；而在数学竞赛（AIME）中，o3 的准确率高达 96.7%，远超 o1 的 83.3%；在博士生级别问题测试集（GPQA）中，o3 达到 87.7 分，远超人类选手的程度；在 ARC-AGI 测试中，o3 首次突破了人类水平的门槛，达到 87.5%。

大模型持续迭代，推动算力需求高速成长。Scaling law 推动大模型持续迭代，根据 Epoch AI 的数据，2012-2023 年大模型训练的算力需求增长近亿倍，目前仍然在大模型推动算力需求高速成长的趋势中。

北美四大云厂商受益于 AI 对核心业务的推动，持续加大资本开支。受益于 AI 对于公司核心业务的推动，北美四大云厂商谷歌、微软、Meta、亚马逊 2023 年开始持续加大资本开支，2024 年四季度四大云厂商的资本开支合计为 706 亿美元，同比增长 69%，环比增长 23%。目前北美四大云厂商的资本开支增长主要用于 AI 基础设施的投资，并从 AI 投资中获得了积极回报，预计 2025 年仍有望继续大幅增加资本开支。

国内三大互联网厂商不断提升资本开支，国内智算中心加速建设。国内三大互联网厂商阿里巴巴、百度、腾讯 2023 年也开始不断加大资本开支，2024 年四季度三大互联网厂商的资本开支合计为 720 亿元，同比增长 259%，环比增长 99%，预计 2025 年国内三大互联网厂商将继续加大用于 AI 基础设施建设的资本开支。根据中国电信研究院发布的《智算产业发展研究报告(2024)》的数据，截至 2024 年 6 月，中国已建和正在建设的智算中心超 250 个；目前各级政府、运营商、互联网企业等积极建设智算中心，以满足国内日益增长的算力需求。

人工智能进入算力新时代，全球算力规模高速增长。随着人工智能的快速发展以及 AI 大模型带来的算力需求爆发，算力已经成为推动数字经济飞速发展的新引擎，人工智能进入算力新时代，全球算力规模呈现高速增长态势。根据 IDC、Gartner、TOP500、中国信通院的预测，预计全球算力规模将从 2023 年的 1397 EFLOPS 增长至 2030 年的 16 ZFLOPS，预计 2023-2030 年全球算力规模复合增速达 50%。根据 IDC 的数据，2024 年中国智能算力规模为 725.3 EFLOPS，预计 2028 年将达到 2781.9 EFLOPS，预计 2023-2028 年中国智能算力规模的复合增速为 46.2%。

1.2. AI 算力芯片是算力的基石

AI 服务器是支撑生成式 AI 应用的核心基础设施。人工智能产业链一般为三层结构，包括基础层、技术层和应用层，其中基础层是人工智能产业的基础，为人工智能提供数据及算力支撑。服务器一般可分为通用服务器、云计算服务器、边缘服务器、AI 服务器等类型，AI 服务器专为人工智能训练和推理应用而设计。大模型兴起和生成式 AI 应用显著提升了对高性能计算资源的需求，AI 服务器是支撑这些复杂人工智能应用的核心基础设施， AI 服务器的其核心器件包括 CPU、GPU、FPGA、NPU、存储器等芯片，以及 PCB、高速连接器等。

大模型有望推动 AI 服务器出货量高速成长。大模型带来算力的巨量需求，有望进一步推动 AI 服务器市场的增长。根据 IDC 的数据，2024 年全球 AI 服务器市场规模预计为 1251 亿美元，2025 年将增至 1587 亿美元，2028 年有望达到 2227 亿美元，2024-2028 年复合增速达 15.5%，其中生成式 AI 服务器占比将从 2025 年的 29.6%提升至 2028 年的 37.7%。IDC 预计 2024 年中国 AI 服务器市场规模为 190 亿美元，2025 年将达 259 亿美元，同比增长 36.2%，2028 年将达到 552 亿美元，2024-2028 年复合增速达 30.6%。

AI 算力芯片是算力的基石。CPU+GPU 是目前 AI 服务器主流的异构计算系统方案，根据 IDC 2018 年服务器成本构成的数据，推理型和机器学习型服务器中 CPU+GPU 成本占比达到 50-82.6%，其中机器学习型服务器 GPU 成本占比达到 72.8%。AI 算力芯片具备强大的并行计算能力，能够快速处理大规模数据和复杂的神经网络模型，并实现人工智能训练与推理任务；AI 算力芯片占 AI 服务器成本主要部分，为 AI 服务器提供算力的底层支撑，是算力的基石。AI 算力芯片作为“AI 时代的引擎”，有望畅享 AI 算力需求爆发浪潮，并推动 AI 技术的快速发展和广泛应用。

2. AI 算力芯片以 GPU 为主流，定制 ASIC 芯片市场高速成长

2.1. AI 算力芯片可应用于云端、边缘端、终端，当前以 GPU 为主流

混合 AI 是 AI 的发展趋势。AI 训练和推理受限于大型复杂模型而在云端部署，而 AI 推理的规模远高于 AI 训练，在云端进行推理的成本极高，将影响规模化扩展。随着生成式 AI 的快速发展以及计算需求的日益增长，AI 处理必须分布在云端和终端进行，才能实现 AI 的规模化扩展并发挥其最大潜能。混合 AI 指终端和云端协同工作，在适当的场景和时间下分配 AI 计算的工作负载，以提供更好的体验，并高效利用资源；在一些场景下，计算将主要以终端为中心，在必要时向云端分流任务；而在以云为中心的场景下，终端将根据自身能力，在可能的情况下从云端分担一些 AI 工作负载。与仅在云端进行处理不同，混合 AI 架构在云端和边缘终端之间分配并协调 AI 工作负载；云端和边缘终端如智能手机、汽车、个人电脑和物联网终端协同工作，能够实现更强大、更高效且高度优化的 AI。

AI 算力芯片按应用场景可分为云端、边缘端、终端 AI 算力芯片。人工智能的各类应用场景，从云端溢出到边缘端，或下沉到终端，都需要由 AI 算力芯片提供计算能力支撑。云端、边缘端、终端三种场景对于 AI 算力芯片的运算能力和功耗等特性有着不同要求，云端 AI 算力芯片承载处理海量数据和计算任务，需要高性能、高计算密度，对于算力要求最高；终端对低功耗、高能效有更高要求，通常对算力要求相对偏低；边缘端对功耗、性能的要求通常介于终端与云端之间；本文主要针对于云端 AI 算力芯片。

根据芯片的设计方法及应用， AI 算力芯片可分为通用型 AI 芯片和专用型 AI 芯片。通用型 AI 芯片为实现通用任务设计的芯片，主要包括 CPU、GPU、FPGA 等；专用型 AI 芯片是专门针对人工智能领域设计的芯片，主要包括 TPU（Tensor Processing Unit）、NPU （Neural Network Processing Unit）、ASIC 等。在通用型 AI 芯片中，由于在计算架构和性能特点上的不同，CPU 适合处理逻辑复杂、顺序性强的串行任务；GPU 是为图形渲染和并行计算设计的处理器，具有大量的计算核心，适合处理大规模并行任务；FPGA 通过集成大量的可重构逻辑单元阵列，可支持硬件架构的重构，从而灵活支持不同的人工智能模型。专用型 AI 芯片是针对面向特定的、具体的、相对单一的人工智能应用专门设计的芯片，其架构和指令集针对人工智能领域中的各类算法和应用作了专门优化，具体实现方法为在架构层面对特定智能算法作硬化支持，可高效支持视觉、语音、自然语言处理和传统机器学习等智能处理任务。

当前 AI 算力芯片以 GPU 为主流，英伟达主导全球 AI 算力芯片市场。根据的 IDC 数据， 2024 上半年，中国 AI 加速芯片的市场规模达超过 90 万张；从技术角度来看，GPU 卡占据 80%的市场份额。根据 Precedence Research 数据，2022 年英伟达占据全球 AI 芯片市场份额超过 80%，其中英伟达占全球 AI 服务器加速芯片市场份额超过 95%。

AI 算力芯片产业链包括人工智能算法、芯片设计、芯片制造及下游应用环节。人工智能芯片产业链上游主要是人工智能算法以及芯片设计工具，人工智能算法覆盖广泛，包括视觉算法、语音处理算法、自然语言处理算法以及各类机器学习方法（如深度学习等）。AI 算力芯片行业的核心为芯片设计和芯片制造，芯片设计工具厂商、晶圆代工厂商与封装测试厂商为 AI 算力芯片提供了研发工具和产业支撑。 AI 算力芯片行业的下游应用场景主要包括云计算与数据中心、边缘计算、消费类电子、智能制造、智能驾驶、智慧金融、智能教育等领域。

2.2. 英伟达主导全球 GPU 市场，GPU 生态体系建立极高的行业壁垒

GPU（Graphics Processing Unit）即图形处理单元，是计算机的图形处理及并行计算的核心。GPU 最初主要应用于加速图形渲染，如 3D 渲染、图像处理和视频解码等，是计算机显卡的核心；随着技术的发展，GPU 也被广泛应用于通用计算领域，如人工智能、深度学习、科学计算、大数据处理等领域，用于通用计算的 GPU 被称为 GPGPU（GeneralPurpose computing on Graphics Processing Units），即通用 GPU。 GPU 与 CPU 在内部架构上有显著差异，决定了它们各自的优势领域。GPU 通过大量简单核心和高带宽内存架构，优化并行计算能力，适合处理大规模数据和高吞吐量任务；CPU 通过少量高性能核心和复杂控制单元优化单线程性能，适合复杂任务和低延迟需求。

GPU 架构由流处理器（SM）、光栅操作单元、纹理单元、专用加速单元等多个关键组件组成，这些组件协同工作，以实现高效的通用计算和图形渲染。GPU 的计算架构由一系列流式多处理器（SM）组成，其中每个 SM 又由多个流式处理器、核心或线程组成，例如， NVIDIA H100 GPU 具有 132 个 SM，每个 SM 拥有 64 个核心，总计核心高达 8448 个；每个 SM 还配备了几个功能单元或其他加速计算单元，例如张量核心（Tensor Core）或光线追踪单元（Ray Tracing Unit），用于满足 GPU 所处理的工作负载的特定计算需求。GPU 具有多层不同类型的内存，每一层都有其特定用途。

GPU 硬件性能可以通过多个参数综合评估，包括核心数量、核心频率、显存容量、显存位宽、显存带宽、显存频率、工艺制程等。GPU 的核心数量越多、核心频率越高，GPU 的计算能力越强。显存容量越大，GPU 能够处理的数据规模就越大；显存带宽越高， GPU 显存与核心之间数据传输的速率越快。GPU 的工艺制程越先进，GPU 性能越好、功耗越低。

GPU 架构对性能影响至关重要，不同架构下的硬件性能参数有所不同。GPU 架构的每次升级在计算能力、图形处理能力、能效比等多方面对性能产生了显著提升，所以 GPU 架构对性能影响至关重要。通过对比英伟达 GeForce 系列 RTX 3090、RTX 4090、RTX 5090，不同 GPU 架构下硬件性能参数有所不同。随着 GPU 架构的升级，GPU 厂商通常会采用更先进的工艺制程，比如英伟达从 8nm 工艺的 Ampere 架构升级到 4nm 工艺的 Blackwell 架构，在相同性能下，新工艺能够降低功耗，或者在相同功耗下提供更高的性能。

多 GPU 互连成为行业发展趋势，以提高系统的计算能力。随着 AI 大模型时代来临，AI 算力需求不断增长，由于单 GPU 芯片算力和内存有限，无法承载大模型的训练任务，通过多种互连技术将多颗 GPU 芯片互连在一起提供大规模的算力，已成为行业发展趋势。对于多 GPU 系统，如何实现 GPU 之间的高速数据传输和协同工作是关键问题。英伟达推出 NVLink、NVSwitch 等互连技术，通过更高的带宽和更低的延迟，为多 GPU 系统提供更高的性能和效率，支持 GPU 之间的高速数据传输和协同工作，提高通信速度，加速计算过程等。 NVLink 用于连接多个 GPU 之间或连接 GPU 与其他设备（如 CPU、内存等）之间的通信，它允许 GPU 之间以点对点方式进行通信，具有比传统的 PCIe 总线更高的带宽和更低的延迟。NVSwitch 实现单服务器中多个 GPU 之间的全连接，允许单个服务器节点中多达 16 个 GPU 实现全互联，每个 GPU 都可以与其他 GPU 直接通信，无需通过 CPU 或其他中介。经过多年演进，NVLink 技术已升级到第 5 代，NVLink 5.0 数据传输速率达到 100GB/s，每个 Blackwell GPU 有 18 个 NVLink 连接，Blackwell GPU 将提供 1.8TB/s 的总带宽，是 PCIe Gen5 总线带宽的 14 倍；NVSwitch 也升级到了第四代，每个 NVSwitch 支持 144 个 NVLink 端口，无阻塞交换容量为 14.4TB/s。

GPU 应用场景广泛，数据中心 GPU 市场快速增长。GPU 最初设计用于图形渲染，但随着其并行计算能力的提升，GPU 的应用场景已经扩展到数据中心、自动驾驶、机器人、区块链与加密货币、科学计算、金融科技、医疗健康等多个领域。近年来数据中心 GPU 市场在全球范围内呈现出快速增长的趋势，尤其是在人工智能、高性能计算和云计算等领域。

GPU 是 AI 服务器算力的基石，有望畅享 AI 算力需求爆发浪潮。GPU 是 AI 服务器算力的基石，随着 AI 算力规模的快速增长将催生更大的 GPU 芯片需求。根据 Statista 的数据， 2023 年全球 GPU 市场规模为 436 亿美元，预计 2029 年市场规模将达到 2742 亿美元，预计 2024-2029 年复合增速达 33.2%。

英伟达主导全球 GPU 市场。根据 TechInsights 的数据，2023 年全球数据中心 GPU 总出货量达到了 385 万颗，相比 2022 年的 267 万颗同比增长 44.2%，其中英伟达数据中心 2023 年 GPU 出货量呈现爆发式增长，总计约 376 万台，英伟达在数据中心 GPU 出货量中占据 98%的市场份额，英伟达还占据全球数据中心 GPU 市场 98% 的收入份额，达到 362 亿美元，是 2022 年 109 亿美元的三倍多。根据 Jon Peddie Research 的数据， 2024 年第四季度全球 PC GPU 出货量达到 7800 万颗，同比增长 0.8%，环比增长 6.2%，其中英特尔、 AMD、英伟达的市场份额分别为 65%、18%、16%。

GPU 生态体系主要由三部分构成，包括底层硬件，中间层 API 接口、算法库、开发工具等，上层应用。以英伟达数据中心平台 GPU 生态体系为例，底层硬件的核心是英伟达的 GPU 产品、用于 GPU 之间高速连接的 NVSwitch 、节点之间互联的各种高速网卡、交换机等，以及基于 GPU 构建的服务器；中间层是软件层面的建设，包括计算相关的 CUDA-X、网络存储及安全相关的 DOCA 和 MAGNUM IO 加速库，以及编译器、调试和优化工具等开发者工具包和基于各种行业的应用框架；上层是开发者基于英伟达提供的软硬件平台能力，所构建的行业应用。

GPU 厂商非常重视软件生态系统的构建，英伟达 CUDA 生态几乎占据通用计算 GPU 领域的全部市场。CUDA 全称为 Compute Unified Device Architecture，即统一计算设备架构，是英伟达推出的基于其 GPU 的通用高性能计算平台和编程模型。目前 CUDA 生态包括编程语言和 API、开发库、分析和调试工具、GPU 加速应用程序、GPU 与 CUDA 架构链接、数据中心工具和集群管理六个部分。编程语言和 API 支持 C、C++、Fortran、Python 等多种高级编程语言；英伟达提供的 CUDA 工具包可用于在 GPU 上开发、优化和部署应用程序，还支持第三方工具链，如 PyCUDA、AltiMesh Hybridizer、OpenACC、OpenCL、Alea - GPU 等，方便开发者从不同的编程接口来使用 CUDA。英伟达在 CUDA 平台上提供了 CUDA-X，它是一系列库、工具和技术的集合，其中包括数学库、并行算法库、图像和视频库、通信库、深度学习库等，同时还支持 OpenCV、FFmpeg 等合作伙伴提供的库。英伟达提供了多种工具来帮助开发者进行性能分析和调试， NVIDIA Nsight 是低开销的性能分析、跟踪和调试工具，提供基于图形用户界面的环境，可在多种英伟达平台上使用；CUDA GDB 是 Linux GDB 的扩展，提供基于控制台的调试接口；CUDA - Memcheck 可用于检查内存访问问题；此外还支持第三方解决方案，如 ARM Forge、TotalView Debugger 等。目前几乎所有的深度学习框架都使用 CUDA/GPU 计算来加速深度学习的训练和推理，英伟达维护了大量经过 GPU 加速的应用程序。在数据中心中，英伟达与生态系统合作伙伴紧密合作，为开发者和运维人员提供软件工具，涵盖 AI 和高性能计算软件生命周期的各个环节，以实现数据中心的轻松部署、管理和运行；例如通过 Mellanox 高速互连技术，可将数千个 GPU 连接起来，构建大规模的计算集群。CUDA 生态系统复杂，建设难度大，CUDA 生态几乎占据通用计算 GPU 领域的全部市场。

GPU 生态体系建立极高的行业壁垒。GPU 一方面有对硬件性能的要求，还需要软件体系进行配套，而 GPU 软件生态系统复杂，建设周期长、难度大。英伟达 CUDA 生态从 2006 年开始建设，经过多年的积累，建立强大的先发优势，英伟达通过与客户进行平台适配、软件开源合作，不断加强客户粘性，GPU 行业新进入者转移客户的难度极大，GPU 生态体系建立极高的行业壁垒。

2.3. 云厂商等大厂自研芯片趋势明显，推动定制 ASIC 芯片市场高速成长

AI ASIC 是一种专为人工智能应用设计的定制集成电路，具有高性能、低功耗、定制化、低成本等特点。与通用处理器相比，AI ASIC 针对特定的 AI 任务和算法进行了优化，如深度学习中的矩阵乘法、卷积等运算，能在短时间内完成大量计算任务，提供高吞吐量和低延迟，满足 AI 应用对实时性的要求；AI ASIC 通过优化电路设计和采用先进的工艺技术，在处理 AI 工作负载时具有较高的能效比，适合大规模数据中心等对能耗敏感的场景；虽然前期研发和设计成本较高，在大规模部署时，ASIC 的单位计算成本通常低于通用处理器。

AI ASIC 与 GPU 在 AI 计算任务中各有优势和劣势。在算力上，先进 GPU 比 ASIC 有明显的优势；ASIC 针对特定任务优化，通常能提供更高的计算效率，ASIC 在矩阵乘法、卷积运算等特定 AI 任务上性能可能优于 GPU；GPU 通用性强，能够运行各种不同类型的算法和模型，ASIC 功能固定，难以修改和扩展，灵活性较差；ASIC 针对特定任务优化，功耗显著低于 GPU；GPU 研发和制造成本较高，硬件成本是大规模部署的重要制约因素，ASIC 在大规模量产时单位成本相对较低。

GPU 软件生态成熟且丰富，AI ASIC 推动软件生态走向多元化。ASIC 的软件生态缺乏通用性，主要是对特定应用场景和算法进行优化；由于 ASIC 的开发工具和软件库资源相对较少，编程难度比 GPU 大，开发者在使用 ASIC 进行开发和调试时所需要花费时间会更多。 GPU 的软件生态成熟且丰富，如英伟达 CUDA 和 AMD ROCm 等，提供了广泛的开发工具、编程语言支持，并拥有大量的开源项目和社区资源。为了提升 AI ASIC 在特定场景下的计算效率，谷歌、亚马逊、META、微软等厂商为 ASIC 开发了配套的全栈软件生态，包括编译器、底层中间件等，持续降低从 CUDA 生态向其他生态转换的迁移成本，以减轻对 CUDA 生态的依赖性。

云厂商等大厂自研芯片趋势明显，推动数据中心定制 ASIC 芯片市场高速增长。由于全球头部云厂商、互联网厂商等对 AI 算力芯片需求量巨大，英伟达垄断全球数据中心 GPU 市场，因成本、差异化竞争、创新性、供应链多元化等原因，越来越多地大厂开始设计自有品牌的芯片，大厂自研芯片趋势明显；云厂商等大力投入自研 AI ASIC，推动数据中心定制 ASIC 芯片市场高速增长，预计增速快于通用 AI 算力芯片。根据 Marvell 的数据，2023 年数据中心 AI 算力芯片市场规模约为 420 亿美元，其中定制 ASIC 芯片占比 16%，市场规模约为 66 亿美元；预计 2028 年数据中心定制 ASIC 芯片市场规模将达到 429 亿美元，市场份额约为 25%，2023-2028 年复合增速将达到 45%；预计 2028 年数据中心 AI 算力芯片市场规模将达约 1720 亿美元，2023-2028 年复合增速约为 32%。

云厂商自研 AI ASIC 芯片时，通常会与芯片设计厂商合作，然后再由台积电等晶圆代工厂进行芯片制造，目前全球定制 AI ASIC 市场竞争格局以博通、Marvell 等厂商为主。博通为全球定制 AI ASIC 市场领导厂商，已经为大客户实现 AI ASIC 大规模量产。博通在多年的发展中已经积累了大量的成体系的高性能计算/互连 IP 核及相关技术，除了传统的 CPU/DSP IP 核外，博通还具有交换、互连接口、存储接口等关键 IP 核；这些成体系的 IP 核可以帮助博通降低 ASIC 产品成本和研发周期，以及降低不同 IP 核联合使用的设计风险，并建立博通强大的竞争优势。博通 2024 财年 AI 收入达到 120 亿美元，公司 CEO 表示，到 2027 年，公司在 AI 芯片和网络组件的市场规模将达到 600 亿到 900 亿美元。

谷歌 TPU（Tensor Processing Unit）即张量处理单元，是谷歌专为加速机器学习任务设计的定制 ASIC 芯片，主要用于深度学习的训练和推理。TPU 基本上是专门用于矩阵乘法的计算核心，并与高带宽内存（HBM）连接；TPU 的基本组件包括矩阵乘法单元 (MXU)、矢量单元 (VPU) 和矢量内存 (VMEM)；矩阵乘法单元是 TensorCore 的核心，矢量处理单元执行一般数学运算，矢量内存是位于 TensorCore 中靠近计算单元的片上暂存器；TPU 在进行矩阵乘法方面速度非常快。

目前谷歌 TPU 已经迭代至第六代产品，每代产品相较于上一代在芯片架构及性能上均有一定的提升。2015 年谷歌 TPU v1 推出，主要用于推理任务。2024 年谷歌发布第六代产品 TPU v6 Trillium，是目前性能最强、能效最高的 TPU。TPU v6 Trillium 与上一代 TPU v5e 相比，单芯片峰值计算性能提高了 4.7 倍，HBM 容量和带宽均增加一倍，同时芯片间互连带宽也增加一倍；TPU v6 Trillium 在性能提升的同时，能源效率比上一代提高了 67%，显著降低了运营成本；TPU v6 Trillium 被用于训练谷歌的 Gemini 2.0 等 AI 大模型。

谷歌 TPU 迭代推动大模型训练与推理效率大幅提升。Gemini 等 AI 大模型性能强大且复杂，拥有数十亿个参数，训练如此密集的大模型需要巨大的计算能力以及共同设计的软件优化。与上一代 TPU v5e 相比，TPU v6 Trillium 为 Llama-2-70b 和 gpt3-175b 等大模型提供了高达 4 倍的训练速度。TPU v6 Trillium 为推理工作负载提供了重大改进，为图像扩散和大模型提供了最好的 TPU 推理性能，从而实现了更快、更高效的 AI 模型部署；与 TPU v5e 相比，TPU v6 Trillium 的 Stable Diffusion XL 离线推理相对吞吐量（每秒图像数）高出 3.1 倍，服务器推理相对吞吐量高出 2.9 倍。

谷歌已建立 100000 TPU 芯片算力集群。TPU 芯片通过 ICI 连接成算力集群，TPU 网络可以连接 16x16x16 TPU v4 和 16x20x28TPU v5p。为了满足日益增长的 AI 计算需求，谷歌已将超过 100000 个 TPU v6 Trillium 芯片连接到一个网络结构中，构建了世界上最强大的 AI 超级计算机之一；该系统将超过 100000 个 TPU v6 Trillium 芯片与每秒 13 PB 带宽的 Jupiter 网络结构相结合，使单个分布式训练作业能够扩展到数十万个加速器上。这种大规模芯片集群可以提供强大的计算能力，实现高效的并行计算，从而加速大模型的训练过程，提高人工智能系统的性能和效率。

2.4. 美国不断加大对高端 AI 算力芯片出口管制，国产厂商迎来黄金发展期

美国对高端 GPU 供应限制不断趋严，国产 AI 算力芯片厂商迎来黄金发展期。美国商务部在 2022、2023、2025 年连续对高端 AI 算力芯片进行出口管制，不断加大英伟达及 AMD 高端 GPU 芯片供应限制，国产 AI 算力芯片厂商迎来黄金发展机遇，但国产厂商华为海思、寒武纪、海光信息、壁仞科技和摩尔线程等进入出口管制“实体清单”，晶圆代工产能供应受限，影响国产 AI 算力芯片发展速度。

国产 AI 算力芯片厂商不断追赶海外龙头厂商，但在硬件性能上与全球领先水平仍有一定的差距。随着 AI 应用计算量的不断增加，要实现 AI 算力的持续大幅增长，既要单卡性能提升，又要多卡组合。从 AI 算力芯片硬件来看，单个芯片硬件性能及卡间互联性能是评估 AI 算力芯片产品水平的核心指标。国产厂商在芯片微架构、制程等方面不断追赶海外龙头厂商，产品性能逐步提升，但与全球领先水平仍有 1-2 代的差距。

AI 算力芯片软件生态壁垒极高，国产领先厂商华为昇腾、寒武纪等未来有望在生态上取得突破。在软件生态方面，英伟达经过十几年的积累，其 CUDA 生态建立极高的竞争壁垒，国产厂商通过兼容 CUDA 及自建生态两条路径发展，国内领先厂商华为昇腾、寒武纪等未来有望在生态上取得突破。华为基于昇腾系列 AI 芯片，通过模组、板卡、小站、服务器、集群等丰富的产品形态，打造面向“端、边、云”的全场景 AI 基础设施方案。昇腾计算是基于硬件和基础软件构建的全栈 AI 计算基础设施、行业应用及服务，包括昇腾系列 AI 芯片、系列硬件、CANN（异构计算架构）、Al 计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链。昇腾计算已建立基于昇腾计算技术与产品、各种合作伙伴，为千行百业赋能的生态体系。

3. DeepSeek 有望推动国产 AI 算力芯片加速发展

DeepSeek 通过技术创新实现大模型训练极高的性价比。2024 年 12 月 26 日， DeepSeek 正式发布全新系列模型 DeepSeek-V3，DeepSeek-V3 为自研 MoE 模型，总参数量为 671B，每个 token 激活 37B 参数，在 14.8T token 上进行了预训练。DeepSeek-V3 在性能上对标 OpenAI GPT-4o 模型，并在成本上优势巨大，实现极高的性价比。DeepSeekV3 的技术创新主要体现在采用混合专家（MoE）架构，动态选择最合适的子模型来处理输入数据，以降低计算量；引入多头潜在注意力机制（MLA）降低内存占用和计算成本，同时保持高性能；采用 FP8 混合精度训练降低算力资源消耗，同时保持模型性能；采用多 Token 预测（MTP）方法提升模型训练和推理的效率。 DeepSeek MoE 架构通过动态组合多个专家模型来提升模型的性能和效率。DeepSeek 的 MoE 架构通过将传统 Transformer 中的前馈网络（FFN）层替换为 MoE 层，引入多个专家网络（Experts）和一个门控网络（Gating Network）。专家网络包括多个独立的专家模型，每个专家模型负责处理特定类型的数据。门控网络负责决定每个输入数据应该由哪些专家模型处理，并分配相应的权重；通过门控机制，模型能够动态选择最合适的专家来处理输入数据。DeepSeek MoE 架构采用稀疏激活策略，每次训练或推理时只激活部分专家，而不是整个模型；在 DeepSeek- V3 中，模型总参数为 6710 亿，但每次训练仅激活 370 亿参数，从而提高计算效率。传统的 Transformer 架构采用固定的编码器-解码器结构，所有输入数据通过相同的多层自注意力机制和前馈神经网络处理；模型的参数是静态的，无法根据输入数据的特性动态调整。

多头潜在注意力机制（MLA）的核心思想是对 KV 进行低秩压缩，以减少推理过程中的 KV 缓存，从而降低内存占用及计算成本。在传统的 Transformer 架构推理过程中，在进行生成式任务时，模型需要逐步生成序列，每次生成一个新 token 时，模型需要读入所有过去Token 的上下文，重新计算之前所有 token 的键（Key）和值（Value）。KV 缓存通过存储这些已计算的 Key 和 Value，避免重复计算，从而提高推理效率。MLA 的方法是将 KV 矩阵转换为低秩形式，将原矩阵表示为两个较小矩阵（相当于潜在向量）的乘积，在推理过程中，仅缓存潜在向量，而不缓存完整的 KV。这种低秩压缩技术显著减少了 KV 缓存的大小，同时保留了关键信息，从而降低内存占用及计算成本。

多 token 预测（MTP）是一种创新的训练目标，通过同时预测多个未来 token 来提升模型的训练和推理效率。MTP 技术基于主模型（Main Model）和多个顺序模块（MTP Module），主模型负责基础的下一个 Token 预测，而 MTP 模块用于预测多个未来 Token。传统的模型通常一次只预测下一个 token，在生成文本时，模型按照顺序逐个生成下一个 Token，每生成一个 Token 都要进行一次完整的计算，依赖前一个生成的 Token 来生成下一个；而 MTP 能够同时预测多个连续的 Token，模型通过改造增加多个独立输出头，利用多 token 交叉熵损失进行训练，一次计算可以得到多个 Token 的预测结果，显著增加了训练信号的密度，提升模型的训练和推理效率，并且 MTP 生成的文本更加连贯自然，适合长文本生成任务。

DeepSeek 采用 FP8 混合精度训练技术在训练效率、内存占用和模型性能方面实现了显著优化。传统大模型通常使用 FP32 或 FP16 进行训练，精度较高，但计算速度慢，内存占用较大。而 FP8 数据位宽是 8 位，与 FP16、FP32 相比，使用 FP8 进行计算的速度最快、内存占用最小。DeepSeek FP8 混合精度将 FP8 与 BF16、FP32 等结合，采用 FP8 进行大量核心计算操作，少数关键操作则使用 BF16 或 FP32，提高效率的同时确保数值稳定性，并显著减少了内存占用和计算开销。

DeepSeek-V3 性能对标 GPT-4o。DeepSeek-V3 多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型，并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。DeepSeek-V3 在知识类任务（MMLU, MMLU-Pro, GPQA, SimpleQA）上的水平相比前代 DeepSeek-V2.5 显著提升，接近当前表现最好的模型 Claude-3.5-Sonnet-1022；长文本测评方面，在 DROP、FRAMES 和 LongBench v2 上， DeepSeek-V3 平均表现超越其他模型；DeepSeek-V3 在算法类代码场景（Codeforces），远远领先于市面上已有的全部非 o1 类模型，并在工程类代码场景（SWE-Bench Verified）逼近 Claude-3.5-Sonnet-1022；在美国数学竞赛（AIME 2024, MATH）和全国高中数学联赛（CNMO 2024）上，DeepSeek-V3 大幅超过了所有开源闭源模型；DeepSeek-V3 与 Qwen2.5-72B 在教育类测评 C-Eval 和代词消歧等评测集上表现相近，但在事实知识 CSimpleQA 上更为领先。

DeepSeek-R1 通过冷启动与多阶段训练显著提升模型的推理能力，模型蒸馏技术有望推动 AI 应用加速落地。DeepSeek-R1-Zero 与 DeepSeek-R1 都是基于强化学习（RL）的推理模型，DeepSeek-R1-Zero 存在语言不一致等输出方面的问题，DeepSeek-R1 通过冷启动与多阶段训练，显著提升模型的推理能力，同时具有较好的实用性。DeepSeek-R1 采用模型蒸馏技术，将大模型（教师模型）的推理能力高效迁移到小模型（学生模型）中；模型蒸馏的核心思想是通过教师模型的输出指导学生模型的训练，使学生模型能够模仿教师模型的行为；通过蒸馏技术，小模型能够保留大模型的大部分性能，DeepSeek-R1 蒸馏后的小模型在多个基准测试中表现出色；DeepSeek-R1 的模型蒸馏技术显著提升小模型的推理能力，并降低部署成本，有望推动 AI 应用加速落地。

DeepSeek-R1 性能对标 OpenAI o1。DeepSeek-R1 极大提升了模型推理能力，在数学、代码、自然语言推理等任务上，性能比肩 OpenAI o1 正式版。DeepSeek 在开源 DeepSeek-R1-Zero 和 DeepSeek-R1 两个 660B 模型的同时，通过 DeepSeek-R1 的输出，蒸馏了 6 个小模型开源给社区，其中 32B 和 70B 模型在多项能力上实现了对标 OpenAI o1-mini 的效果。

DeepSeek 实现大模型训练与推理成本优势巨大，助力 AI 应用大规模落地。DeepSeek-V3 的训练成本具有极大的经济性，根据 DeepSeek-R1 Technical Report 的数据，在预训练阶段，每处理 1 万亿 tokens，训练 DeepSeek-V3 仅需 18 万 H800 GPU 小时，即在 2048 块 H800 GPU 的集群上需要 3.7 天；因此，DeepSeek-V3 的预训练阶段在不到两个月内完成，耗时 266.4 万（2664K）GPU 小时；加上上下文长度扩展所需的 11.9 万 GPU 小时和后训练所需的 5 千 GPU 小时，DeepSeek-V3 的完整训练仅需 278.8 万 GPU 小时；假设 H800 GPU 的租赁价格为每小时 2 美元，DeepSeek-V3 的总训练成本仅为 557.6 万美元。2025 年 1 月 20 日 DeepSeek-R1 正式发布，其 API 定价为每百万输入 tokens 1 元（缓存命中）/ 4 元（缓存未命中），每百万输出 tokens 16 元；OpenAl o1 定价为每百万输入 tokens 55 元（缓存命中）/110 元（缓存未命中），每百万输出 tokens 438 元；DeepSeek-R1 API 调用成本不到 OpenAl o1 的 5%。DeepSeek-V3 性能对标 GPT-4o，DeepSeek-R1 性能对标 OpenAI o1，并且 DeepSeek 模型成本优势巨大，有望推动 AI 应用大规模落地。

DeepSeek 有望推动推理需求加速释放，国产 AI 算力芯片或持续提升市场份额。随着大模型的成熟及 AI 应用的不断拓展，推理场景需求日益增加，推理服务器的占比将显著提高； IDC 预计 2028 年中国 AI 服务器用于推理工作负载占比将达到 73%。根据的 IDC 数据，2024 上半年，中国加速芯片的市场规模达超过 90 万张，国产 AI 芯片出货量已接近 20 万张，约占整个市场份额的 20%；用于推理的 AI 芯片占据 61%的市场份额。DeepSeek-R1 通过技术创新实现模型推理极高性价比，蒸馏技术使小模型也具有强大的推理能力及低成本，将助力 AI 应用大规模落地，有望推动推理需求加速释放。由于推理服务器占比远高于训练服务器，在 AI 算力芯片进口受限的背景下，用于推理的 AI 算力芯片国产替代空间更为广阔，国产 AI 算力芯片有望持续提升市场份额。

国产算力生态链全面适配 DeepSeek，国产 AI 算力芯片厂商有望加速发展。DeepSeek 大模型得到全球众多科技厂商的认可，纷纷对 DeepSeek 模型进行支持，国内 AI 算力芯片厂商、CPU 厂商、操作系统厂商、AI 服务器及一体机厂商、云计算及 IDC 厂商等国产算力生态链全面适配 DeepSeek，有望加速 AI 应用落地。华为昇腾、沐曦、天数智芯、摩尔线程、海光信息、壁仞科技、寒武纪、云天励飞、燧原科技、昆仑芯等国产 AI 算力芯片厂商已完成适配 DeepSeek，DeepSeek 通过技术创新提升 AI 算力芯片的效率，进而加快国产 AI 算力芯片自主可控的进程，国产 AI 算力芯片厂商有望加速发展。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）