AI算力需求及结构性变化分析

提问时间：2025/02/24
浏览次数：406
提问者：匿名用户
举报
分享微信 QQ 微博

AI算力需求及结构性变化分析

标签

AI算力

共有1个回答
关注问题
我来回答

最佳答案由匿名用户编辑于2025/02/24 14:48

训练需求叠加推理需求，关注结构性新变化。

训练和推理需求推动 AI 算力总量有望持续提升，空间足够大。AI 大模型让自然语言成为有效的人机交互范式，并在知识归纳和处理以及 AIGC 领域呈现出较大的商用价值和社会价值。训练端，在生成式 AI 技术快速发展和 Scaling Law 奏效背景下，随着大模型参数量提升，大模型训练需要大量 AI 算力支撑；推理端，伴随模型的成熟和应用的落地，算力需求的重心向推理转移，未来推理成本的降低有望进一步吸引开发者加入促进生态的繁荣，继续促进大模型推理侧的算力需求。

交互式人工智能分阶段对数据通信网络产生不同影响。算力的提升从简单的硬件扩展发展为涵盖算法优化、系统设计、资源调度和网络通信等多个层面的系统优化，数据通信网络是算力提升的重要支撑。在 AI 大模型训练阶段，包括前向传播过程和反向传播过程，网络流量主要分为两类：1）GPU 之间同步梯度和中间激活的网络流量，发生于所有 GPU 之间，主要因为当模型的参数规模超过单个 GPU 的内存，采用 GPU 集群协同计算时，需要 GPU 之间相互通信以交换信息，这类信息包括参数/梯度、中间激活值等；2）GPU 和存储服务器之间的流量，主要因为当庞大的数据集被所有 GPU 共享时需要集中存放到远端的存储服务器中通过网络调用，以及定期保存的参数和优化器状态也需要通过存储服务器共享。在 AI 推理阶段，只有前向传播过程，网络流量主要分别两类：1）每次推理在 Prefill （预填充）GPU 和 Decode（解码） GPU 之间传递 KV 缓存，因为预填充阶段和解码阶段对 GPU 需求不同，可以用 Prefill-Decode 解耦的方式，由两个不同类型的 GPU 分别承担两个阶段的计算任务，因此就需要在两个阶段间传输 KV 缓存；2）Prefill GPU 集群和 Decode GPU 集群分别实施张量并行，产生的中间激活的传递，因为大模型推理时虽然模型经过了压缩，但模型尺寸仍可能超过单个 GPU 的内存，因此需要张量并行加速推理过程。

根据《交互式人工智能对广域网流量及智算网络技术的影响分析》，交互式人工智能在不同阶段对广域网的网络建设提出不同的需求，伴随 AI 用户数增长而提升部署需求。交互式人工智能的广域网东西向流量发生在两个环节，分别为训练侧训练样本的生成以及训练完成后的推理侧同步；广域网南北向流量主要为用户对应用的访问流量，包括输入过程和输出过程。

AI 算力需求短期仍在高成长期，未来短期增速波动的不确定性不改长期增长趋势。2025 年重点关注结构性变化： 1）变化一：大模型突破“慢思考”能力，预训练之外，后训练和推理算力需求增加。受限于高质量数据瓶颈和高昂的算力成本，大模型预训练的性能提升边际收益递减。O1 大模型的推出提升了大模型“慢思考”的能力，对算力的需求结构上体现为对后训练阶段（Post-training）和推理阶段（Inference）的需求不断提升。在后训练阶段，大模型经过微调或强化学习等进一步优化在特定任务或领域的表现，通过提升 RL 训练的探索时间来提升性能。在推理阶段，o1 模型需要增加对推理任务的思考时间，需要消耗更多的计算资源，主要由于采用了更复杂的推理机制，如内部思维链推理等。

RFT 技术有助于降低模型微调的门槛和成本。2024 年 12 月 6 日，OpenAI 在官网发布 Reinforcement Fine-Tuning（RFT）研究计划的内容以及申请要求的总结与说明。大模型在学习了公开的互联网数据之后，还需要更多的垂直行业的特定真实世界数据来提升模型的推理能力。OpenAI 的强化微调旨在让开发者和 ML 工程师能够基于少量到数千个高质量的任务数据，对模型进行微调，使其在特定领域的复杂、高度专业化任务中达到专家水准。相较于传统的 Fine-tune 范式需要大量的数据标注工作，RFT 通过“奖励函数”或“奖励模型”直接进行简单“打分”和反馈引导模型朝特定目标优化，降低数据体量和标注成本需求。RFT 的推出有利于降低使用者训练或微调模型的门槛和成本，也有助于弥补 openAI 难以获取“特定领域高质量数据”和相关专家经验的局限。从适用领域来看，RFT 适用于有客观正确标准的领域，如法律、保险、医疗保健、金融和工程，这些领域的特征是专家们在结果判断上有较高的共识性，具备相当的专家领域知识和相关数据集。RFT 项目推出之初主要面向研究机构、大学、企业等开放测试和微调能力。

2）变化二：伴随应用逐步繁荣，多样化推理需求增加。随着 AI 进入大规模落地应用的关键时期，边缘计算和云计算的协同共生是大势所趋。云端可进行复杂的全局分析，边缘端可负责实时数据的处理和推理。云端部署算力中推理算力占比有望持续提升，根据 IDC 数据，预计到 2026 年，推理占到 62.2%，训练占 37.8%。边缘端 AI 以推理任务为主，边缘 AI 芯片就近为终端设备提供 AI 算力。例如，智能家居、自动驾驶、工业 4.0 等领域正在逐步从传统的云端计算转向边缘计算，而推理算力的加入，为边缘计算提供了更强的数据处理能力和实时决策能力。模型剪枝、量化、知识蒸馏等技术可在保证模型精度的前提下，减少模型体积和计算需求，从而使得模型可适配边缘设备的计算能力。

训练和推理对算力和显存的需求逻辑不同，通信效率核心服务于整体算力效率的发挥。在大模型训练阶段，计算需求与模型参数量和数据量直接相关，显存需求与模型参数、模型梯度和优化器有关。例如，以 175B 模型为例，以 FP16 精度计算，模型参数需要 350GB 显存，模型梯度需要 350GB 显存，优化器需要 2100GB 显存，合计约 2800GB 的显存规模，超出单卡显存极限，硬件集群分布式训练是必然选择。在大模型推理阶段，推理计算需求与模型参数量和数据量直接相关，相较训练阶段不需要反向计算过程，计算需求比训练阶段少。推理显存需求主要受模型参数量大小和推理过程中的 KV 缓存影响。推理过程中需要频繁访问显存，通信带宽规格是影响推理速度的核心因素。在推理时可以选择多卡推理，做张量并行切分时，训练卡可以用于推理业务。推理阶段的通信更多指单机内部的多卡通信。

3）变化三：英伟达通用 GPU 之外， ASIC AI 芯片供给增加。超大规模厂商（AWS、谷歌、Meta 和微软）已经在投资自研 AI ASIC 芯片，比如，谷歌的 TPU、Meta 的 MTIA、微软的 Maia、亚马逊 Trainium2 等。虽然芯片开发成本高昂，但使用定制的芯片可以提高运营效率，减少向用户提供 AI 服务的成本，并降低用户使用新 AI 应用的成本。随着 AI 市场从开发转向部署，大厂自研 AI 芯片的趋势将会持续。博通和Marvell是ASIC 芯片市场的领导者。根据博通公开的业绩交流会信息，博通预计2024 年 AI 收入将达到 110 亿美元以上，定制化 XPU 约占三分之二，主要来自与 Google 和 Meta 的合作，其他客户群体还包括苹果、思科、富士康、爱立信、诺基亚、HPE、NEC、瞻博网络、Ciena 等各行业的客户；Marvell 预计 2024 年 AI 收入为 16-18 亿美元，2025 年将增长至28-30亿美元，2028年AI ASIC收入将达到70-80亿美元，主要来自与Amazon 和 Google 的合作。Marvell 正在加速其首批两个 AI ASIC 项目的生产，为 Amazon 的 5nm Tranium 芯片和 Google 的 5nm Axion ARM CPU 芯片。还有几个更大的项目在进行，包括 Amazon Inferentia ASIC（预计在 2025 年启动）和 Microsoft Maia（预计在 2026 年启动）。大厂积极参与自研 AI 基础设施，或推动数据通信网络的技术创新。如 AWS 设计的 Trainium2 集群是一个训推一体的集群，在 scale up 设计中充分考虑到实例要拆散了卖的需求，一个64卡的Trn2-ultra服务器也可以拆成4个16卡机器或单卡进行售卖。如Google 的 TPUv4 集群基于 OCS 光交换机的可重构能力，根据售卖实例和线上故障来构建 TPU拓扑。

参考报告

2025年通信行业投资策略报告：持续聚焦AI算力，关注低轨卫星互联网和出海成长股.pdf

2025年通信行业投资策略报告：持续聚焦AI算力，关注低轨卫星互联网和出海成长股。回顾2024年（截至2024.12.11），通信板块在AI加持下涨幅居前，当前通信行业估值接近历史中值，量子通信、光器件光模块、连接器及线缆板块领涨。AI是通信行业的新动能，产业日新月异，技术迭代和产品应用层出不穷，中国和美国的AI基础设施建设步伐迅速，带动上游产业链各个环节加速发展。此外，低轨卫星互联网突破了从0到1组网阶段，我国商业航天产业取得实质性进展。展望2025年，国内外AI基础设施需求共振，大国博弈和技术升级持续演绎。建议持续聚焦AI算力，同步关注低轨卫星互联网和出海优质股。持续聚焦AI算力主线：AI...

查看详情

AI算力需求及结构性变化分析

2025年通信行业投资策略报告：持续聚焦AI算力，关注低轨卫星互联网和出海成长股.pdf

AI算力技术发展如何？

AI算力供需两端情况如何？

AI算力需求及结构性变化分析

AI算力产业链及供需情况如何？

AI算力产业链各环节景气度分析

AI算力公司业绩及后续展望分析

AI算力产业链各环节景气度如何？

AI算力产业链景气度、细分领域表现及趋势展望分析

AI算力国产替代及产业趋势分析

哪些因素驱动AI算力需求增长？

商业火箭目前发展到什么阶段了？

康耐特光学有哪些业务布局？

AI眼镜行业规模、需求、成长性、格局及竞争要素在哪？

康耐特光学发展历程、股权结构及收入分析

中宠股份经营看点在哪？

中宠股份发展历程、股权结构及营收分析

赛微电子发展历程、股权结构、主营业务、研发及财务分析

梦百合内外销业务进展如何？

沃巴查芒

每日新报

StartYourFinance

999感冒灵

王中王