AI算力需求及结构性变化分析

AI算力需求及结构性变化分析

最佳答案 匿名用户编辑于2025/02/24 14:48

训练需求叠加推理需求,关注结构性新变化。

训练和推理需求推动 AI 算力总量有望持续提升,空间足够大。AI 大模型让自然语言成为 有效的人机交互范式,并在知识归纳和处理以及 AIGC 领域呈现出较大的商用价值和社会 价值。训练端,在生成式 AI 技术快速发展和 Scaling Law 奏效背景下,随着大模型参数 量提升,大模型训练需要大量 AI 算力支撑;推理端,伴随模型的成熟和应用的落地,算 力需求的重心向推理转移,未来推理成本的降低有望进一步吸引开发者加入促进生态的繁 荣,继续促进大模型推理侧的算力需求。

交互式人工智能分阶段对数据通信网络产生不同影响。算力的提升从简单的硬件扩展发展 为涵盖算法优化、系统设计、资源调度和网络通信等多个层面的系统优化,数据通信网络 是算力提升的重要支撑。在 AI 大模型训练阶段,包括前向传播过程和反向传播过程,网 络流量主要分为两类:1)GPU 之间同步梯度和中间激活的网络流量,发生于所有 GPU 之间,主要因为当模型的参数规模超过单个 GPU 的内存,采用 GPU 集群协同计算时,需要 GPU 之间相互通信以交换信息,这类信息包括参数/梯度、中间激活值等;2)GPU 和存储服务器之间的流量,主要因为当庞大的数据集被所有 GPU 共享时需要集中存放到 远端的存储服务器中通过网络调用,以及定期保存的参数和优化器状态也需要通过存储服 务器共享。在 AI 推理阶段,只有前向传播过程,网络流量主要分别两类:1)每次推理在 Prefill (预填充)GPU 和 Decode(解码) GPU 之间传递 KV 缓存,因为预填充阶段和 解码阶段对 GPU 需求不同,可以用 Prefill-Decode 解耦的方式,由两个不同类型的 GPU 分别承担两个阶段的计算任务,因此就需要在两个阶段间传输 KV 缓存;2)Prefill GPU 集群和 Decode GPU 集群分别实施张量并行,产生的中间激活的传递,因为大模型推理 时虽然模型经过了压缩,但模型尺寸仍可能超过单个 GPU 的内存,因此需要张量并行加 速推理过程。

根据《交互式人工智能对广域网流量及智算网络技术的影响分析》,交互式人工智能在不 同阶段对广域网的网络建设提出不同的需求,伴随 AI 用户数增长而提升部署需求。交互 式人工智能的广域网东西向流量发生在两个环节,分别为训练侧训练样本的生成以及训练 完成后的推理侧同步;广域网南北向流量主要为用户对应用的访问流量,包括输入过程和 输出过程。

AI 算力需求短期仍在高成长期,未来短期增速波动的不确定性不改长期增长趋势。2025 年重点关注结构性变化: 1)变化一:大模型突破“慢思考”能力,预训练之外,后训练和推理算力需求增加。受限于高质量数据瓶颈和高昂的算力成本,大模型预训练的性能提升边际收益递减。O1 大模型的推出提升了大模型“慢思考”的能力,对算力的需求结构上体现为对后训练阶段 (Post-training)和推理阶段(Inference)的需求不断提升。在后训练阶段,大模型经 过微调或强化学习等进一步优化在特定任务或领域的表现,通过提升 RL 训练的探索时间 来提升性能。在推理阶段,o1 模型需要增加对推理任务的思考时间,需要消耗更多的计 算资源,主要由于采用了更复杂的推理机制,如内部思维链推理等。

RFT 技术有助于降低模型微调的门槛和成本。2024 年 12 月 6 日,OpenAI 在官网发布 Reinforcement Fine-Tuning(RFT)研究计划的内容以及申请要求的总结与说明。大模型 在学习了公开的互联网数据之后,还需要更多的垂直行业的特定真实世界数据来提升模型 的推理能力。OpenAI 的强化微调旨在让开发者和 ML 工程师能够基于少量到数千个高质 量的任务数据,对模型进行微调,使其在特定领域的复杂、高度专业化任务中达到专家水 准。相较于传统的 Fine-tune 范式需要大量的数据标注工作,RFT 通过“奖励函数”或“奖 励模型”直接进行简单“打分”和反馈引导模型朝特定目标优化,降低数据体量和标注成 本需求。RFT 的推出有利于降低使用者训练或微调模型的门槛和成本,也有助于弥补 openAI 难以获取“特定领域高质量数据”和相关专家经验的局限。从适用领域来看,RFT 适用于有客观正确标准的领域,如法律、保险、医疗保健、金融和工程,这些领域的特征 是专家们在结果判断上有较高的共识性,具备相当的专家领域知识和相关数据集。RFT 项 目推出之初主要面向研究机构、大学、企业等开放测试和微调能力。

2)变化二:伴随应用逐步繁荣,多样化推理需求增加。 随着 AI 进入大规模落地应用的关键时期,边缘计算和云计算的协同共生是大势所趋。云 端可进行复杂的全局分析,边缘端可负责实时数据的处理和推理。云端部署算力中推理算 力占比有望持续提升,根据 IDC 数据,预计到 2026 年,推理占到 62.2%,训练占 37.8%。 边缘端 AI 以推理任务为主,边缘 AI 芯片就近为终端设备提供 AI 算力。例如,智能家居、 自动驾驶、工业 4.0 等领域正在逐步从传统的云端计算转向边缘计算,而推理算力的加入, 为边缘计算提供了更强的数据处理能力和实时决策能力。模型剪枝、量化、知识蒸馏等技 术可在保证模型精度的前提下,减少模型体积和计算需求,从而使得模型可适配边缘设备 的计算能力。

训练和推理对算力和显存的需求逻辑不同,通信效率核心服务于整体算力效率的发挥。在 大模型训练阶段,计算需求与模型参数量和数据量直接相关,显存需求与模型参数、模型 梯度和优化器有关。例如,以 175B 模型为例,以 FP16 精度计算,模型参数需要 350GB 显存,模型梯度需要 350GB 显存,优化器需要 2100GB 显存,合计约 2800GB 的显存规 模,超出单卡显存极限,硬件集群分布式训练是必然选择。在大模型推理阶段,推理计算 需求与模型参数量和数据量直接相关,相较训练阶段不需要反向计算过程,计算需求比训 练阶段少。推理显存需求主要受模型参数量大小和推理过程中的 KV 缓存影响。推理过程 中需要频繁访问显存,通信带宽规格是影响推理速度的核心因素。在推理时可以选择多卡 推理,做张量并行切分时,训练卡可以用于推理业务。推理阶段的通信更多指单机内部的 多卡通信。

3)变化三:英伟达通用 GPU 之外, ASIC AI 芯片供给增加。 超大规模厂商(AWS、谷歌、Meta 和微软)已经在投资自研 AI ASIC 芯片,比如,谷 歌的 TPU、Meta 的 MTIA、微软的 Maia、亚马逊 Trainium2 等。虽然芯片开发成本高昂, 但使用定制的芯片可以提高运营效率,减少向用户提供 AI 服务的成本,并降低用户使用 新 AI 应用的成本。随着 AI 市场从开发转向部署,大厂自研 AI 芯片的趋势将会持续。博 通和Marvell是ASIC 芯片市场的领导者。根据博通公开的业绩交流会信息,博通预计2024 年 AI 收入将达到 110 亿美元以上,定制化 XPU 约占三分之二,主要来自与 Google 和 Meta 的合作,其他客户群体还包括苹果、思科、富士康、爱立信、诺基亚、HPE、NEC、 瞻博网络、Ciena 等各行业的客户;Marvell 预计 2024 年 AI 收入为 16-18 亿美元,2025 年将增长至28-30亿美元,2028年AI ASIC收入将达到70-80亿美元,主要来自与Amazon 和 Google 的合作。Marvell 正在加速其首批两个 AI ASIC 项目的生产,为 Amazon 的 5nm Tranium 芯片和 Google 的 5nm Axion ARM CPU 芯片。还有几个更大的项目在进行,包 括 Amazon Inferentia ASIC(预计在 2025 年启动)和 Microsoft Maia(预计在 2026 年启 动)。 大厂积极参与自研 AI 基础设施,或推动数据通信网络的技术创新。如 AWS 设计的 Trainium2 集群是一个训推一体的集群,在 scale up 设计中充分考虑到实例要拆散了卖的 需求,一个64卡的Trn2-ultra服务器也可以拆成4个16卡机器或单卡进行售卖。如Google 的 TPUv4 集群基于 OCS 光交换机的可重构能力,根据售卖实例和线上故障来构建 TPU拓扑。

参考报告

2025年通信行业投资策略报告:持续聚焦AI算力,关注低轨卫星互联网和出海成长股.pdf

2025年通信行业投资策略报告:持续聚焦AI算力,关注低轨卫星互联网和出海成长股。回顾2024年(截至2024.12.11),通信板块在AI加持下涨幅居前,当前通信行业估值接近历史中值,量子通信、光器件光模块、连接器及线缆板块领涨。AI是通信行业的新动能,产业日新月异,技术迭代和产品应用层出不穷,中国和美国的AI基础设施建设步伐迅速,带动上游产业链各个环节加速发展。此外,低轨卫星互联网突破了从0到1组网阶段,我国商业航天产业取得实质性进展。展望2025年,国内外AI基础设施需求共振,大国博弈和技术升级持续演绎。建议持续聚焦AI算力,同步关注低轨卫星互联网和出海优质股。持续聚焦AI算力主线:AI...

查看详情
相关报告
我来回答