2024年算力产业研究：算力产业中期关注当前AI架构上限

来源：国泰君安证券
发布时间：2024/09/19
浏览次数：605
举报

相关深度报告REPORTS

算力产业研究：算力产业中期关注当前AI架构上限.pdf

算力产业研究：算力产业中期关注当前AI架构上限。“思维链”破局更智能的推理。大模型时代来临，加速计算需求突破式增长。2023年至2028年加速计算CAGR约32%。我们认为，目前还处于AGI大基建的早期阶段。经过强化学习（ReinforcementLearning），OpenAIo1在推理能力方面取得了重大进展。思维链是一种帮助AI模型进行推理的技术，属于强化学习的技术之一。从产业发展趋势看，中期硬件迭代或进入瓶颈期我们认为，每一轮新技术的发展规律都是相似的，其发展规律主要分为三阶段：（1）靠垄断发展，先在技术垄断期榨取每一代产品的利润（2）有竞争对手出现，依然享受领先...

1. “思维链”破局更智能的推理

1.1. 大模型时代来临，加速计算需求突破式增长

算力缺口越来越大。OpenAI 公司在 2018 年对 AI 计算的趋势与硬件发展趋势做了分析，基于 Transformer 的 AI 模型的算力需求增速远大于传统的 CNN 模型，并远超依据摩尔定律的演进速度，硬件算力的增长速度与大模型所需的算力水平之间的差距越来越大。 2023 年至 2028 年加速计算 CAGR 约 32%。我们认为，目前还处于 AGI 大基建的早期阶段，而 AI 是一个供给驱动型的市场。我们仍然处于 scaling law 的早期，模型的能力会随着模型参数的增加而提高。OpenAI、微软与 Anthropic 等头部公司的产品仍在你追我赶的过程中。在这种追赶的过程当中，我们认为头部公司不会突然停下对算力铺设的脚步，短期内北美大厂 capex 较为坚挺。

1.2. OpenAI o1 “思维链”破局更智能的推理

经过强化学习（Reinforcement Learning），OpenAI o1 在推理能力方面取得了重大进展。北京时间 9 月 13 日，OpenAI 发布了名为 OpenAI o1 的新模型，也是之前所传的“Strawberry”，但最初 o1 的代号为“Q*”。 OpenAI 的 CEO 萨姆·奥尔特曼（Sam Altman）则称它为“新范式的开始”。 o1 的特点表现为更大、更强、更慢、更贵。OpenAI 研发团队观察到，随着训练时间（强化学习的增加）和思考时间（测试时的计算）的延长， o1 模型的表现逐渐提升。这种方法的扩展所面临的挑战与大型语言模型（LLM）的预训练限制截然不同。

O1 主要应用在文本交互问答，其回答前会像人类一样“深思熟虑”。据 OpenAI 官方，“虽然这款初期模型还没有像网上搜索信息、上传文件和图片这样的功能，但它在解决复杂推理问题上有了显著进步，这代表了人工智能技术的新水平。所以我们决定给这个系列一个新的起点，将其命名为 OpenAI o1。”据甲子光年总结， o1 的主要应用还是集中在通过文本交互进行问题解答和分析，而不是直接控制浏览器或操作系统。与早期版本不同的是，o1 模型在作出回答之前会像人类一样“深思熟虑”，用时约 10—20 秒，产生一个长长的内部思路链，并能够尝试不同的策略并识别自身的错误。这种强大推理能力使 o1 在多个行业中具有广泛的应用潜力，尤其是复杂的科学、数学和编程任务。在处理物理、化学和生物问题时，o1 的表现甚至和该领域的博士生水平不相上下。在国际数学奥林匹克的资格考试（AIME）中，o1 的正确率为 83%，成功进入了美国前 500 名学生的行列，而 GPT-4o 模型的正确率仅为 13%。

思维链是一种帮助 AI 模型进行推理的技术，属于强化学习的技术之一。我们认为，思维链使得模型在“快思考”之外，学会“慢思考”。 OpenAI 的联合创始人之一布罗克曼介绍，OpenAI 的模型原先进行的是系统一型思维（快速、直观的决策）而思维链技术则启动了系统二型思维（慎重、分析性的思考）。系统一型思维适合快速应对，而系统二型思维则通过“思维链”技术，让模型能够逐步推理解决问题。实践表明，通过持续的试错，从头到尾完整训练模型（如在围棋或Dota等游戏中应用），可以极大提升模型的表现。 OpenAI 表示，o1 技术虽然仍在开发初期，但已在安全性方面表现良好。如通过增强模型对策略进行深入推理来提高其对抗攻击的鲁棒性和降低幻觉现象的风险。这种深层次的推理能力已经开始在安全性评估中显示出积极的效果。它通过让模型在回答复杂问题时，逐步解释每一步的推理过程，而不是直接给出答案。因此模型在回答问题时就像是人类在解题时那样，先思考每一步的逻辑，再逐步推导出最终的结果。

强化学习通过自主优化反馈，解决人工数据标注不全面、标注贵等问题。但在 AI 训练的过程中，人工标注思维链耗时又昂贵，在 scaling law 主导下所需的数据量对人工而言基本是一项不可能完成的任务。强化学习是更为实用的替代方案。强化学习可以让模型通过实践和试错自己学习，它不需要人工标注具体每一步怎么走，而是通过不断的实验和反馈来优化解决问题的方法。模型会在尝试解决问题的过程中，根据所采取行动的结果（好的或坏的）来调整自己的行为。这样，模型能够自主探索多种可能的解决方案，并通过不断试错找到最有效的方法。比如在游戏或模拟环境中，AI 可以通过自我对弈不断优化策略，最终学会如何精确执行复杂任务，而无需人工逐一指导每一步。比如 2016 年横扫围棋界的 AlphaGo，它就是结合了深度学习和强化学习的方法，通过大量的自我对弈来不断优化其决策模型，最终能够战胜世界顶级的围棋选手李世石。o1 模型就是用和 AlphaGo 相似的方法逐步处理问题。

2. 从产业发展趋势看，中期硬件迭代或进入瓶颈期

2.1. 类比智能手机，中期硬件迭代或进入瓶颈

我们认为，每一轮新技术的发展规律都是相似的，其发展规律主要分为三阶段： 1、靠垄断发展，先在技术垄断期榨取每一代产品的利润 2、有竞争对手出现，依然享受领先优势，但会加速换代，产品迭代立刻提速，为了享受更多的领先优势 3、技术更新迭代变缓，硬件迭代进入瓶颈，软件龙头公司崛起类比上一轮智能手机的爆发，我们认为其技术爆发符合“三步”规律。关键的技术爆发节点至今共经历了 4 轮：（1）蒸汽机；（2）计算机；（3）智能手机；（4）AI。智能手机的出现将电脑放进口袋。从触控屏出现，重新定义手机，8-9 年内智能手机渗透率快速提升，规模提升近 10 倍，渗透率提升 7 倍。其技术爆发符合“三步”规律，具体表现如下：

（a）硬件规格不够：2006 年，IPhone 1 出现

智能手机的出现使得电脑变小、可折叠、放进口袋。但手机变电脑，不是一开始就有的，一开始硬件规格达不到，当时的手机性能较差，加载过程非常卡、电池续航很低、游戏支持很少，因此智能手机刚开始和原先的普通手机，如诺基亚等，差别不大

（b）硬件性能跃迁，软件模式创新：

（i）硬件的爆发：2010 年，IPhone 4 出现

我们认为 IPhone4 代表了智能手机硬件技术出现明显跃迁，IPhone4 的模式为此后的 IPhone 系列奠定了坚实的基础，硬件能力在 IPHONE4 这代开始出现了跃升，同步伴随着 3G-4G 网络出现，只能手机芯片性能提升明显。我们随之看到了智能手机在人群中爆发，成为奇货可居的存在。

（ii）软件模式创新：2014 年，微信普及

新技术时代的软件需要做模式创新，其存在形式与之前的软件都不同，需要根据新技术的特点做更适合的模式创新的软件。软件刚出现时没有出现变现，处在积累用户阶段，如微信刚开始出现时功能很简单，只能发送简单的消息和表情包。在智能手机时代的软件模式创新包括手游、网购、外卖等。

（c）硬件迭代进入瓶颈，软件龙头公司崛起：2016 年，IPhone 7 出现

我们认为 2016 年 iPhone7plus 出现标志着智能手机硬件迭代进入瓶颈期。其手机迟迟不出下一代，显示了每代间硬件提升难度非常大。同时，硬件价格在下降，手机在变便宜，1000-2000 块就可以买到差不多的智能手机，说明硬件技术进入此轮技术爆发的成熟期，此时距离第一代 iPhone10 年。我们认为硬件迭代进入瓶颈期后，软件开始出现变现，其中软件的龙头公司优势越发明显，如腾讯微信具有渠道优势、抖音 6G 视频具有流量优势，因此我们认为第三阶段机会将来到软件端，此时硬件机会需要等待新一轮的技术爆发，再做更迭升级。

我们认为现在的 AI 处在第二阶段，基座大模型是 AI 时代的“硬件”。 AI 时代也会呈现相似的趋势：（a）硬件规格不够：2018 年，英伟达将 Transformer 做进 GPU 底层架（b）硬件性能跃迁，软件模式创新：（i）硬件性能跃迁：我们认为基座大模型能力在 2022 年至 2024 年这两年内性能跃迁明显。 2022 年出现了 Gpt3.5，2023 年出现了 GPT4，2024 年出现了 sora，2 年内硬件性能跃迁明显。因此我们认为目前的 AI 还处在本轮技术周期中的第二阶段——“硬件性能跃迁，软件模式创新”阶段。目前最大的需求仍是把基座模型的智能化程度提高，目前基座模型发展成熟度不够，所以没有成型的 AI 应用能够落地。（ii）软件模式创新目前的软件在多方面探索模式创新形式，出现了较为成型的软件，比如苹果在 wwdc 上发布的智能助手，让诸多苛刻用户对手机智能助理的接受化程度提高了许多。

2.2. 从产业生命周期，这代算力的壁垒或仅可持续较短时间

我们认为，从每轮新技术发展规律来看，每一轮技术的生命周期都是“S” 型曲线，增速为取一阶导呈正弦曲线，加速度为取二阶导的正弦函数曲线，代表了“yoy”的速度，也是增速曲线上的斜率切线。 AGI 是需要多轮次的技术爆发进步才能达到的终极目标，算力产业从本轮次技术爆发与新一轮技术爆发来看，都存在较明显的中期风险。

（1）从本轮技术进度看，这代架构下的 AI 能力已经接近瓶颈，潜力已几乎被挖尽，领先者的领先地位将越来越不明显。本轮技术周期目前处于增速最快的时期，未来增速边际放缓。Blackwell 投产出现多种问题已经揭示了未来算力硬件更迭升级难度较大。此外，这代架构的 transformer 能力、数据资源都接近上限。这一轮的技术爆发中英伟达处于领先地位，但当未来算力硬件更迭幅度变小、周期加长，即生命周期进入中期之后、增速由快变慢、加速度由正变负后，本轮技术周期中的追赶者的追赶速度将加快，产品差异程度减小，领先者的领先地位将越来越不明显。当技术进入成熟期后，领先者将几乎不再享有任何领先地位。（2）从新一轮技术爆发看，未来竞争格局存在较大不确定性。 AGI 的终极目标需要新一轮的技术爆发，在新的技术爆发轮次中，英伟达不一定能继续成为领先者，各家厂商比较谁的研发积累更深厚，上一轮技术爆发周期中的追赶者有可能在新技术爆发阶段“弯道超车”。

3. 从技术原理看，2026 年或达到这代 AI 架构上限

3.1. 这代架构只能“回溯记忆”

2026 年或达到当前 AI 架构上限，算力铺设需等待新的算法诞生。当前 AI 架构可支撑 15 万亿参数量的训练，scaling law 仍然有效，当前 AI 架构上限或是 2026 年使用 Rubin 训练 30 万亿参数量，未来的数据、算法/Transformer 架构、算力/GPU 架构都需要调整。 qwen2 公布了技术报告，给定 7T tokens 数据集，6000 张 A100，一个完整 epoch 需要最多 30 天，所需算力约 1.6T，12-18 个月可追上 openai GPT40。计算量需求公式为 3*T(2.6e6*s + 2P)，其中 T 为数据集 token 数量，P 为模型参数量，s 表示序列长度。 Llama3 预训练了 15T token，训练数据量是 Llama2 的 7 倍，代码数据是之前的 4 倍。除英语外其他语言数据占比超过 5%，包括 30 种以上的语言。

3.2. 从大模型原理看，GPU 能力、Transformer 能力、与数据资源影响 AI 架构上限

从大模型的训练与推理原理看，训练与推理过程的重点在于将矩阵固定。训练过程：把矩阵中的数字填准确；推理过程：矩阵已经固定，把提问转换成数字，与矩阵不断进行点乘，最终将计算出来的一串数字解码，形成答案。从大模型原理看，其能力与参数量、数据资源密切相关。参数量规模：相当于脑容量有多大，人的潜力有多大，可以储存多少知识。数据资源：数据相当于老师，数据质量、数据类型的广度、数据的体量，决定了模型训练的好与坏。

因此，我们认为，当前 AI 架构的基于三个输入在可进行改进：算力/GPU、算法/Transformer、数据。未来 AI 架构再迭代 1-2 代后，模型参数量或不符合 scaling law 的假设，再堆数据、堆语料、网络再多分层，模型精度或很难再提升，效果或不及千亿参数模型。我们对下一代模型的尺寸进行了测算，我们认为下一代模型必须在 10 万卡的集群上才能做有效训练。根据 OpenAI 论文,在一个参数量为 N 的神经网络中，训练过程的整体运算量大致为 6N，推理过程的整体运算量大致为 2N。6N=正向训练 2 次+反向梯度调整 4 次。 GPT-4 的参数量 1.8 万亿参数，GPT-5 达到 10 万亿参数水平。ChatGPT 参数量为 1750 亿，训练参数量为 3000 亿 token，整体训练计算量= 6*1750*3000*1016 flops=3.15*1023 flops；单次推理的计算量= 2*1750*108 flops=3.5*1011 flops。

因此，我们认为，大模型能力与参数量、数据资源密切相关，参数量规模由 GPU、transformer 能力决定。GPT-5 需达到 10 万卡集群程度才能做有效训练。大模型能否支撑 10 万卡集群做 10 万亿以上参数量训练成为关键。

3.3. 从 GPU 原理看，内存互连与架构设计决定能力上限

GPU 原理类似矩阵进行乘法运算。矩阵-矩阵乘法（GEMM）运算是神经网络训练和推理的核心，本质是在网络互连层中将大矩阵输入数据和权重相乘。矩阵乘积的求解过程需要大量的乘积累加操作，而 FMA （Fused Multiply–accumulate operation，融合乘加）可以消耗更少的时钟周期来完成这一过程。传统 CUDACore 执行 FMA 指令，硬件层面需要将数据按寄存器->ALU->寄存器->ALU->寄存器的方式来回搬运。 Tensor Core 持续迭代提升其加速能力。Tensor Core 支持的数据类型也逐渐增多。以 A100 到 H100 为例，Tensor Core 由 3.0 迭代至 4.0， H100 在 FP16 Tensor Core 的峰值吞吐量提升至 A100 的 3 倍。同时， H100Tensor Core 支持新的数据类型 FP8，H100 FP8 Tensor Core 的吞吐量是 A100 FP16 Tensor Core 的 6 倍。可以把 GPU 运行看作是一个来回的过程，内存互连与架构设计主导了当前 GPU 运行能力。这些系统完全受限于内存到 CPU 或 GPU 的传输速度。Nvidia 芯片将把所有这些功能集成到一个芯片上。B200 的芯片非常大，所有功能需要被粘合在一起。封装的灵敏度要求非常高，以至于需要在洁净室里组装，芯片本身也是如此。内存互连与架构设计主导了当前 GPU 运行能力。

网络设计上，需制造具有全胖树架构的计算岛，同时减少岛间的带宽。采用胖树拓扑结构（fat-tree topology），每两个 GPU 之间都用最大带宽相连，就需要 4 层交换，成本十分高昂，H100 的小型集群通常只使用多模收发器，通过一层或两层的交换机，以 400G 的速度将每个 GPU 连接在一起。如果是大型集群，每栋大楼包含一个或多个 pod，由多模收发器（或者较为廉价的铜缆）相连，形成一个「计算岛」。每个计算岛之间再通过长距离收发器互连，岛内带宽较高，岛间带宽较低。

我们认为，GPU 的带宽与内存是限制算力的关键因素。带宽是最关键也是最难提升的环节。拥塞、选择链路、延时在 400G 这代产品上已经很明显，可能未来到 800G-1.6T 就是网络产品的上限，再升级性价比较低，反而升级整体架构更有性价比。据李沐的论文《大语言模型的实践经验和未来预测》，现在的模型训练很难由单台机器完成所有任务，如果要进行分布式训练，通常瓶颈就在带宽上。

内存的重要性也超越算力。很可能在未来几年内，单个芯片内的内存容量会停滞在 200GB 左右，这意味着模型规模在一定程度上将受限于内存大小。据李沐的论文《大语言模型的实践经验和未来预测》，内存的重要性甚至超过算力，因为当前的语言模型核心在于将大量数据压缩进模型中。模型通常非常庞大，达到数百 GB，因此在运行时需要处理大量中间变量，这就需要大量内存。目前，我们可以在一个芯片内封装 192GB 的内存，下一代内存的带宽会更高，但内存已经成为一个瓶颈。内存占据了芯片的面积，一个芯片空间有限，当分配一部分给内存后，就无法再容纳更多的组件。因此，很有可能在未来几年内，一个芯片内的内存容量会停滞在 200GB 左右，除非工艺上有重大突破。如果这种情况发生，意味着我们的模型规模在一定程度上会受限于内存大小，因为在模型进一步增大的情况下，效率会显著降低。因此，内存的大小决定了模型的上限，而不是算力。如果内存不足，模型的规模就无法扩大。

3.4. 从 transformer 原理看，算法不够“聪明”

Transformer 原理类似自回归统计模型，算法不够“聪明”。 Transformer 原理类似自回归统计模型/枚举法，是一种统计最大概率后输出预判的方法。其算法不断迭代升级，新架构是进行梯度下降和矩阵乘法的不同方法，目标是更快更好。这些新架构原理保持一致，只是采用了不同的数学方法。当前统计学模型算法无法解决逻辑、因果关系理解。Transformer 仍是神经网络架构，和 CNN RNN 没什么本质区别，都是神经网络，其内在加入了更多特定算法，如权重、自注意力机制等。当前 AI 架构的上限通过 Transformer 架构的优化和扩展得到提升，特别是处理长序列和数据全面关注方面取得了显著进展，但 self attention 本身算法也存在能力边界。算法决定了模型的下限，数据决定模型的上限。当参数量过大（eg.>30 万亿）后出现偏差幻觉漏标注太多，再堆数据、堆语料、网络再多分层，模型精度很难再提升，效果或不及千亿参数模型。

Transformer 算法存在异常行为。一方面，Transformer 模型通过旋转位置编码，旋转过程可能产生异常行为。理论完备性和简洁的实现，使 RoPE 成为了多数开源模型的选择。 RoPE 通过旋转矩阵来编码每一个 Token 的位置信息，并利用查询和键的旋转复合，来实现相对位置的表达。

在 Transformer 模型中，核心思想是计算 query 和 key 之间的关系。注意力机制使用这些关系来决定模型应该“关注”输入序列中的哪些部分。而 ROPE 利用旋转矩阵来编码位置信息的过程中，存在以下潜在的异常行为。情况(b)和(c):这是符合预期的行为，因为 query 和 key 之间注意力得分随着 m 和 n 的距离变大而逐渐减小，符合“近大远小”的先验假设。情况(a)和(d):这是发生异常的行为，因为在最邻近的 Token 处，注意力得分预期之外的衰减模型为了补偿这种衰减，必须在训练阶段给邻近 Token 补偿额外的增益，进而在长度外推过程中产生训练/ 推理的不一致。

另一方面，Transformer 模型在生成文本时出现与训练数据不符的错误答案，这种现象被称为“幻觉”。原因包括：架构缺陷：架构设计存在局限性。例如，当函数的定义域较大时， Transformer 模型可能无法正确组合两个函数，导致在处理函数组合、递归组合以及与组合性相关的问题时出错。此外，自注意力机制虽然能够捕获长程依赖，但也可能导致算法推理错误，这种错误在长程依赖和短程依赖中都有可能出现。训练策略的不合理性：训练和推理过程中的不一致性也是导致幻觉的一个重要原因。在训练阶段，模型使用真实 token 作为输入；而在推理阶段，模型依赖自己生成的 token 产生后续 token。这种不一致性容易引发幻觉，尤其是当模型生成一个错误 token 时，这个错误会被不断传递下去，引发雪崩效应。模型内部的逻辑和知识错误：模型自身的生成过程中也可能出现问题，导致内在型幻觉。这包括逻辑推理或计算时出现的错误，以及处理时间信息时的错误。这些问题通常是由于模型的训练数据或其内部处理机制引起的。

从 Transformer 原理看，这代 AI 瓶颈在提升模型“聪明”度。模型“聪明”度有待提升。大模型和数据之间需加入因果逻辑，目前模型仍是数据统计学，怎么消化理解数据是当前模型与“聪明”模型最大的差距。模型需增加数据的翻译+理解算法。想要提升模型聪明度，对数据本身处理不能仅采取标注，即便有自动学习自动处理的强化算法，仍需增加数据的翻译+理解算法，例如拓普分析+因果学习，需重新做数据理解、数据处理算法。 Eg.看到一个房间，人一眼能注意到自己想看到的东西，但模型会将细节全部抓取，一方面效率不高，另一方面不能挑出最重要的部分。 Eg.不会做没见过的数学题。

目前对大模型算法的路径升级方向主要分三种：（1）继续 scaling law 路线；（2）与世界做更多的交互；（3）从人脑里寻找更多的机制。据 Meta 发布会，模型需要对世界有更扎实的理解——这种理解来自探索、实验和互动，类似儿童与世界互动的方式。因此，有一种假设认为我们需要世界模型（world models）来进行前向模拟，提高规划和准确性。

据 Meta 发布会，机器学习的效率远低于人类学习。机器可获得新信息，但需要数十亿个参数和大量相似信息的曝光，而人类可以学习某个概念，立即获得洞察，并用这些洞察做决策。Meta 假设认为应从人脑中寻找新模型架构的线索。

3.5. 从数据资源看，这代 AI 瓶颈在数据获取、全面标注、高质量数据

训练这些模型所需的数据量巨大。每一代模型训练都会添加更多数据，达到数万亿 token。例如，LLaMA 3.1 的训练使用了超过 15 万亿个 token。数据的重点在于数据加载、训练准备和从数据中提取高质量信号，我们必须在数据本身、数据处理和数据质量上实现重大效率提升。数据本身：合成数据是行业重点攻克方向之一。即模型生成自身数据，然后进行自我评估。自建推理训练数据集。推理过程数据的严重缺乏，极大程度限制了大模型的推理能力，互联网虽然数据体量庞大，但绝大部分都是人类的推理结果，并非推理过程。

数据处理：处理需全面标注数据的全部科学知识。传统统计学标注不完善，数据输入方式不应该损失任何数据的原始语料信息，现在的很多语料之间位置编码和加关联关系还是人在做标注，没有标注位置编码，知识点间逻辑关系搭建不通畅。

数据质量：使用高质量数据。互联网上充斥着大量重复、错误的脏数据，如何降低它们的权重，提升高质量数据的训练权重，是提升模型能力的一大关键。

因此，从原理看，我们认为这代 AI 架构存在上限，或在 2026 年达到这代 AI 架构上限。当前 AI 架构可支撑 15 万亿参数量的训练（GPT-5）， scaling law 仍然有效，这代 AI 架构上限或是 2026 年使用 Rubin 训练 30-50 万亿参数量，模型精度很难再提升、训练集群稳定性骤降未来的算力/GPU 架构、算法/Transformer 架构、数据都需要调整升级。马克·扎克伯格将 Meta 的 AI 投资分为两类：一类是具有非常明显回报的实用型 AI 投资，另一类是更具投机性的长期生成型 AI 投资。从实用性 AI 角度，中期各家中型厂商需要回本，推动推理侧的同步发展，投资更多千亿级小模型，推理侧竞争格局存在不确定性。从长期 AGI 角度，当前 AI 架构存在上限，决定了算力铺设进度存在上限。

我们认为，中期看来，当前 AI 架构的上限或带来以下中期风险：实用性 AI 角度，网络、内存等已看到明显技术上限，再花一倍的力气去提升 20%的性能性价比较低，中型厂商或更多转向推理，推理侧竞争格局存在不确定性。长期 AGI 明显是需要多轮次技术爆发才能到达的终极目标，其中期风险分 2 层。第一层：从本轮技术爆发来看，中期产业趋势放缓明显，竞争格局存在恶化风险。第二层：从新一轮技术爆发来看，上一轮技术爆发中的领先者在新一轮次中不一定还是领先者，上轮技术爆发中的追赶者或能“弯道超车”。从长期看来，算力产业或走向头部集中格局。据 Gartner，生成式 AI 或还需 2 年至 5 年进入技术成熟期。中期 2026 年算力铺设可能会减慢，等待新的算法出现，再做铺设，长期 2030 年后作为通用基础设施会出现头部集中格局，市场的预期会先下降再上升，整体表现和上轮互联网周期可能较为类似。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）