智算基础设施供需布局情况如何？

提问时间：2024/11/06
浏览次数：211
提问者：匿名用户
举报
分享微信 QQ 微博

智算基础设施供需布局情况如何？

标签

智算
基础设施

共有1个回答
关注问题
我来回答

最佳答案由匿名用户编辑于2024/11/06 16:17

供需匹配与区域布局，是智算基础设施发展的关键问题。

1.基础大模型训练推动大规模智算集群强增长

大模型的参数规模与对算力的消耗成正比，参数规模越大，对算力的需求越大。根据 OpenAI 公司《适用于神经语言模型的尺度定律（Scaling Laws for Neural Language Models）》论文观点显示，训练阶段算力需求与模型参数数量、训练数据集规模等有关，且为两者乘积的 6 倍：训练阶段算力需求=6×模型参数数量×训练集规模。本报告对目前公布了详细技术参数的主流大模型，进行训练算力资源的估算，根据计算公式进行归一化处理后，估算出训练阶段大模型对智能算力的需求。

推进基础预训练大模型（千亿级以上参数）需要大规模智算集群支撑。随着模型参数量从千亿迈向万亿，模型能力更加泛化，大模型对底层算力的诉求进一步升级，万卡集群成为这一轮大模型基建军备竞赛的标配，万卡集群将有助于压缩大模型训练时间，实现模型能力的快速迭代。万卡集群是指由一万张及以上的加速卡（如 GPU、NPU、 TPU 或其他专用 AI 加速芯片）组成的高性能计算系统，用以训练基础大模型。美国一直在引领万卡集群建设进程，诸如 Google、Meta、微软、亚马逊、特斯拉等科技巨头，正利用超万卡集群推动其在基座大模型、智能算法研发，以及生态服务等方面的技术创新。如 Google 推出超级计算机 A3 Virtual Machines，拥有 26,000 块 Nvidia H100 GPU； Meta 在 2022 年推出拥有 16,000 块 Nvidia A100 的 Al 研究超级集群 Al Research Super Cluster，2024 年初又公布了 2 个 24576 块 NvidiaH100 集群，支持下一代生成式 Al 模型的训练6。

国内大型 AI 企业、头部互联网厂商、电信运营商等均在万卡集群的建设和使用过程中不断推动技术革新。字节跳动、阿里巴巴、百度为代表的互联网公司在积极推进万卡集群的建设。其中，字节跳动搭建了一个 12288 卡 Ampere 架构训练集群，研发 MegaScale 生产系统用于训练大语言模型7。大型 AI 研发企业基于万卡集群加速模型研发，如科大讯飞 2023 年建设成首个支持大模型训练的万卡集群算力平台“飞星一号”。运营商作为算力基础设施建设的中坚力量，正加速推进超万卡集群智算中心的建设。目前，中国移动已投产呼和浩特万卡智算中心，共部署了近 2500 台智算服务器，单体算力规模可达 6.7EFLOPS，同时正在规划建设 2 个超万卡国产算力集群8。此外，中国电信于今年 3 月宣布，天翼云上海临港国产万卡算力池正式启用。

2.模型推理应用将构成智算基建第二条增长曲线

随着 AI 大模型的应用落地，推理智算需求正迎来爆发。随着 Llama 等开源框架的广泛应用，将加速大模型在各行业各领域落地生成式 AI 应用，行业模型的推理算力需求也将快速增长。据中信建设证券数据显示，2024 年-2027 年全球大模型推理的峰值算力需求量的年复合增长率为 113%，远高于训练的 78%。另据 IDC 调研数据显示， 2026 年云端训练需求与云端推理需求比由 2022 年的 58.5%-41.5%变为 37.8%-62.2%。此外，英伟达和英特尔今年都在公开场合多次强调了 AI 推理的重要性和巨大潜力，且英伟达 2024 财年 Q4 财报直接显示其数据中心 40%的收入来自推理。可见，随着基础通用大模型市场趋于饱和，训练增长曲线逐渐放缓，大模型技术逐步进入融合赋能落地阶段，推理应用的智算需求可能比预期中的发展速度要更快。

大模型推理应用对智算基建的低成本性、实时性、稳定性提出更高要求。随着人工智能大模型逐步进入广泛投产模式，推理应用阶段对于单位算力的性价比、成本高度敏感。以 Sora 为例，据相关机构测算，基于扩散（diffusion-based）模型生产 1530 万到 3810 万分钟的视频后，在推理上花费的计算量将超过训练环节。此外，推理的使用场景多在产业一线，对于底层算力的所处的位置、端应用服务是否能够快速连接等要求比较高，这就要求算力供给主体具备海量的可扩缩容的高性能算力，并且这些算力能够稳定交付。应对不同的推理场景，智算基建在加速卡选型方面有针对性的方案。针对大模型推理场景，智算基建需要选用训练卡支撑推理，或部署训推一体机方案，根据推理工作负载的需求，动态调整算力资源，通过“削峰填谷”的方式，来实现推理算力资源的高效利用，实现智算资源的错峰利用。针对实时性要求较高的小模型推理场景，智算基建也需要选用训练卡支撑推理。针对实时性要求较低的小模型推理场景，智算基建选用推理卡支撑推理。

部分主体开始布局推理智算基建，通过建设推理集群满足区域或客户推理业务需求。四川电信下的云锦天府与立昂科技联合建设千卡GPU 推理集群——云锦天府·立昂领算云平台，主要支撑大模型推理应用，能够有效适配数字人场景下的渲染、建模、自然语言识别和语音合成等需求，同时平台还满足云渲染、虚拟直播和三维建模的场景需求，支持 AI 制药、自动驾驶、基因测序和工业仿真等个性化算力定制。宜昌市点军区与燧原科技共建点军智算中心，一期 300P 的算力资源中，包含 250P 的推理算力以及 50P 的训练算力，训推算力比为 1:5，除了为大模型推理和微调任务提供算力支撑外，还为宜昌市智慧城市应用场景提供 AI 视频智能化解析，与智能摄像头等场景应用联动，同时为文旅、金融、科教等行业提供生成式 AI 服务。另外，该智算中心还将对接外省市的算力调度需求，实现异地异构算力跨省市对接，以支撑各省市、区域、行业的应用实践创新。

3.区域智算基建布局综合考虑训练与推理需求

国内智算中心单体算力规模分为三个层次，与布局区域特点高度协同。目前智能算力主要分布和林格尔、贵阳、芜湖等国家算力枢纽节点，以及北京、上海、深圳等 AI 超一线城市，已布局不少单节点规模大于 1000PFLOPS 的大型算力中心，用于支撑通用基础大模型训练及高并发推理应用。人工智能发展基础较好的城市，布局 300 至 1000PFLOPS 规模的中型算力中心，可满足行业大模型对海量数据和复杂计算的需求。与此同时，各地市、区也在积极发展 40 至 300PFLOPS 规模的小规模算力中心，以适应本地不同行业和场景下的多样化计算需求，形成对大中型算力中心节点的有力补充。

从重点城市来看，我国已初步形成三级智能算力基建布局体系。一是核心区域，以北京、上海、深圳为典型代表，智能算力基础设施基础扎实，人工智能产业应用方面拥有绝对的领先优势，可为全国需求地区输送智能算力能力与服务。二是重点区域，以武汉、广州、成都、南京、合肥等为典型代表，是国家算力枢纽节点或国家新一代人工智能创新发展试验区覆盖地区，以人工智能为主导产业并且经济基础良好，能够带动周边区域发展，满足周边区域智能算力需求。三是活力区域，以大连、沈阳、青岛、福州等为典型代表，具有一定人工智能基础或将人工智能产业作为重点发展方向积极推动的地区，先期建设主要满足本地智能化业务发展需求。

城市布局智算中心综合考虑区域内 AI 训练与推理需求。截至 2024年7月底，我国地方国资公司主导投资建设的智算中心有55个，底层加速卡以华为昇腾智算为主，大部分智算中心首批规划建设算力峰值在 100-300PFLOPS（FP16）之间，平均智算规模为 150PFLOPS （FP16），可满足 AI4S、行业大模型、大模型微调及推理的算力需求。而基础大模型则需要更大规模的算力集群支撑。因此，核心区域城市聚焦人工智能大模型技术创新与产业创新，多布局大智算集群用以支撑通用基础大模型训练；重点区域城市聚焦人工智能应用技术创新与应用示范，多布局中型智算中心用以支撑行业模型训练与推理；活力区域城市聚焦人工智能应用赋能与数智化转型，布局智算中心用以支撑区域传统产业人工智能融合推理应用。沈阳人工智能计算中心联合本地高校、科研院所、头部企业等主体，积极投入开展行业模型研发，在工业质检、化工工艺、网络安全、智能招聘、智慧医疗等领域均有创新应用。

4.跨区域调度协同强力支撑智算基建供需对接

电信运营商智算基建跨区域调度能力较为突出。依托全国的智算布局体系，电信运营商自主研发算力调度平台，提供 IaaS、PaaS、TaaS 等多层次智算服务，全面推进智能算力一体化管控调度。中国移动打造“百川”算力并网平台，已接入社会算力近 5EFLOPS，和自有算力形成优势互补，总共具备超 10EFLOPS 的算力供给能力，同时依托移动云算网大脑，支持东数西算、智算超算、数据快递等 100 多种算网业务，实现日均调度东西部资源上千万次。中国联通推出“星罗”先进算力调度平台，结合全国 200+骨干云池及 AI 边缘一体机提供一键分发的“中训边推”服务，实现京津冀、大湾区、粤港澳等重点区域间毫秒级超低时延。中国电信推出算力互联互通平台“息壤”，单集群调度性能每秒超过 2000+实例，打造通智超一体化智算加速平台 “云骁”与一站式智算服务平台“慧聚”。

地方层面多元异构算力互联互通调度平台持续涌现。安徽省算力统筹调度平台（长三角枢纽芜湖集群算力公共服务平台）承担省级算力统筹调度平台职能，集通算、智算、超算、量算“四算合一”，围绕 “管、排、调、营、测”五位一体，构建资源管理、交易服务、编排调度、监控运维 4 大能力中心，是算力使用省级财政补助政策的唯一指定承载平台，已与沪苏浙地区相关平台实现互联互通。“东数西算” 长三角算力调度中心承载了中国电信天翼云 4.0 算力分发网络平台“息壤”平台，已对接全国 100 多个算力资源池节点，支持智算、超算、通算等异构算力的统一接入、统一封装、统一调度，服务苏州 10 个产业集群、30 条产业链组成的“1030”体系。深圳市智慧城市算力统筹调度平台，通过标准化接口汇聚全市多元异构算力，通过算网大脑实现算力的弹性分配，提供具有公信力、安全性和普惠性的算力供给服务，实现超高可靠、极低时延、极速带宽、极高性能、绿色低碳的算力调度体系，预计 2024 年年底前调度规模达 30000PFLOPS。

为应对当前 AI 预训练超大模型对 AI 算力的巨量需求，智算资源跨区域协同研究正在同步推进。从发展规律看，为应对超大模型的算力巨量需求，主要是通过提升单体智算中心集群能力来实现，但构建(十)万卡集群技术难度高、投入成本极大。当前部分主体探索通过多智算中心资源协作，依托算网融合将离散的智算中心资源进行整合，构建跨区域跨主体互联的智算基础设施，共同协作支撑大模型训练。在跨区域智算基础设施互联协同中，时延是当前关键卡点，集群内节点高速互联时延在微秒级（服务器内部是纳秒级），但互联网骨干网平均时延在毫秒级。通信时延，使得在推进跨区域智算基础设施互联协同时，分布式并行训练面临严重的瓶颈，拉低整体训练性能。鹏城实验室研发了面向云际协同训练场景的深度学习统一训练框架，在算力共享、模型共享和大模型服务层面进行了探索和实验，支持在低带宽网络环境下，利用不同算力集群的异构算力进行大模型的跨云训练。

参考报告

2024年智算基础设施行业发展研究报告.pdf

2024年智算基础设施行业发展研究报告。当前人工智能技术及生态迭代加快，对智能算力提出更强更大规模的需求。作为关键环节与核心底座，以智算中心为代表的智能算力基础设施，在AI落地破局与赋能新型工业化进程中，被赋予更重要的定位。智算基建成为支撑人工智能技术及产业发展的重要基石。本报告重点聚焦智算基础设施的供需布局、能力要求、赋能模式，梳理业界最新动态与发展趋势。供需布局方面，聚焦区域智算基建布局场景，通过分析基础大模型与行业模型在训练端与推理端对智算的需求，明确城市布局智算中心应综合考虑区域内AI训练与推理需求，提出应做好智能算力资源的统筹，将行业大模型落地赋能，作为地方智算基建的主攻方向，避免地...

查看详情

智算基础设施供需布局情况如何？

1.基础大模型训练推动大规模智算集群强增长

2.模型推理应用将构成智算基建第二条增长曲线

3.区域智算基建布局综合考虑训练与推理需求

4.跨区域调度协同强力支撑智算基建供需对接

2024年智算基础设施行业发展研究报告.pdf

智算基础设施能力要求及赋能模式分析

智算部署层级及发展建议有哪些？

智算人才培养体系建设策略分析

智算发展对人才变革驱动力在哪？

智算与业务共生治理体系包括哪些？

如何理解智算三相传导人才结构？

智算本质、定位和作用分析

智算人才政策布局及行业供需特征是什么？

智算人才发展路径与建议有哪些？

智算特征、发展节奏及应用情况如何？

商业火箭目前发展到什么阶段了？

康耐特光学有哪些业务布局？

AI眼镜行业规模、需求、成长性、格局及竞争要素在哪？

康耐特光学发展历程、股权结构及收入分析

中宠股份经营看点在哪？

中宠股份发展历程、股权结构及营收分析

赛微电子发展历程、股权结构、主营业务、研发及财务分析

梦百合内外销业务进展如何？

沃巴查芒

每日新报

StartYourFinance

999感冒灵

王中王