供需匹配与区域布局,是智算基础设施发展的关键问题。
1.基础大模型训练推动大规模智算集群强增长
大模型的参数规模与对算力的消耗成正比,参数规模越大,对算 力的需求越大。根据 OpenAI 公司《适用于神经语言模型的尺度定律 (Scaling Laws for Neural Language Models)》论文观点显示,训练阶 段算力需求与模型参数数量、训练数据集规模等有关,且为两者乘积 的 6 倍:训练阶段算力需求=6×模型参数数量×训练集规模。本报告对 目前公布了详细技术参数的主流大模型,进行训练算力资源的估算, 根据计算公式进行归一化处理后,估算出训练阶段大模型对智能算力 的需求。

推进基础预训练大模型(千亿级以上参数)需要大规模智算集群 支撑。随着模型参数量从千亿迈向万亿,模型能力更加泛化,大模型 对底层算力的诉求进一步升级,万卡集群成为这一轮大模型基建军备 竞赛的标配,万卡集群将有助于压缩大模型训练时间,实现模型能力 的快速迭代。万卡集群是指由一万张及以上的加速卡(如 GPU、NPU、 TPU 或其他专用 AI 加速芯片)组成的高性能计算系统,用以训练基 础大模型。美国一直在引领万卡集群建设进程,诸如 Google、Meta、 微软、亚马逊、特斯拉等科技巨头,正利用超万卡集群推动其在基座 大模型、智能算法研发,以及生态服务等方面的技术创新。如 Google 推出超级计算机 A3 Virtual Machines,拥有 26,000 块 Nvidia H100 GPU; Meta 在 2022 年推出拥有 16,000 块 Nvidia A100 的 Al 研究超级集群 Al Research Super Cluster,2024 年初又公布了 2 个 24576 块 NvidiaH100 集群,支持下一代生成式 Al 模型的训练6。
国内大型 AI 企业、头部互联网厂商、电信运营商等均在万卡集 群的建设和使用过程中不断推动技术革新。字节跳动、阿里巴巴、百 度为代表的互联网公司在积极推进万卡集群的建设。其中,字节跳动 搭建了一个 12288 卡 Ampere 架构训练集群,研发 MegaScale 生产系 统用于训练大语言模型7。大型 AI 研发企业基于万卡集群加速模型研 发,如科大讯飞 2023 年建设成首个支持大模型训练的万卡集群算力 平台“飞星一号”。运营商作为算力基础设施建设的中坚力量,正加 速推进超万卡集群智算中心的建设。目前,中国移动已投产呼和浩特 万卡智算中心,共部署了近 2500 台智算服务器,单体算力规模可达 6.7EFLOPS,同时正在规划建设 2 个超万卡国产算力集群8。此外,中 国电信于今年 3 月宣布,天翼云上海临港国产万卡算力池正式启用。
2.模型推理应用将构成智算基建第二条增长曲线
随着 AI 大模型的应用落地,推理智算需求正迎来爆发。随着 Llama 等开源框架的广泛应用,将加速大模型在各行业各领域落地生 成式 AI 应用,行业模型的推理算力需求也将快速增长。据中信建设 证券数据显示,2024 年-2027 年全球大模型推理的峰值算力需求量的 年复合增长率为 113%,远高于训练的 78%。另据 IDC 调研数据显示, 2026 年云端训练需求与云端推理需求比由 2022 年的 58.5%-41.5%变为 37.8%-62.2%。此外,英伟达和英特尔今年都在公开场合多次强调 了 AI 推理的重要性和巨大潜力,且英伟达 2024 财年 Q4 财报直接显 示其数据中心 40%的收入来自推理。可见,随着基础通用大模型市场 趋于饱和,训练增长曲线逐渐放缓,大模型技术逐步进入融合赋能落 地阶段,推理应用的智算需求可能比预期中的发展速度要更快。
大模型推理应用对智算基建的低成本性、实时性、稳定性提出更 高要求。随着人工智能大模型逐步进入广泛投产模式,推理应用阶段 对于单位算力的性价比、成本高度敏感。以 Sora 为例,据相关机构 测算,基于扩散(diffusion-based)模型生产 1530 万到 3810 万分钟的 视频后,在推理上花费的计算量将超过训练环节。此外,推理的使用 场景多在产业一线,对于底层算力的所处的位置、端应用服务是否能 够快速连接等要求比较高,这就要求算力供给主体具备海量的可扩缩 容的高性能算力,并且这些算力能够稳定交付。应对不同的推理场景, 智算基建在加速卡选型方面有针对性的方案。针对大模型推理场景, 智算基建需要选用训练卡支撑推理,或部署训推一体机方案,根据推 理工作负载的需求,动态调整算力资源,通过“削峰填谷”的方式, 来实现推理算力资源的高效利用,实现智算资源的错峰利用。针对实 时性要求较高的小模型推理场景,智算基建也需要选用训练卡支撑推 理。针对实时性要求较低的小模型推理场景,智算基建选用推理卡支 撑推理。
部分主体开始布局推理智算基建,通过建设推理集群满足区域或 客户推理业务需求。四川电信下的云锦天府与立昂科技联合建设千卡GPU 推理集群——云锦天府·立昂领算云平台,主要支撑大模型推理 应用,能够有效适配数字人场景下的渲染、建模、自然语言识别和语 音合成等需求,同时平台还满足云渲染、虚拟直播和三维建模的场景 需求,支持 AI 制药、自动驾驶、基因测序和工业仿真等个性化算力 定制。宜昌市点军区与燧原科技共建点军智算中心,一期 300P 的算 力资源中,包含 250P 的推理算力以及 50P 的训练算力,训推算力比 为 1:5,除了为大模型推理和微调任务提供算力支撑外,还为宜昌市 智慧城市应用场景提供 AI 视频智能化解析,与智能摄像头等场景应 用联动,同时为文旅、金融、科教等行业提供生成式 AI 服务。另外, 该智算中心还将对接外省市的算力调度需求,实现异地异构算力跨省 市对接,以支撑各省市、区域、行业的应用实践创新。
3.区域智算基建布局综合考虑训练与推理需求
国内智算中心单体算力规模分为三个层次,与布局区域特点高度 协同。目前智能算力主要分布和林格尔、贵阳、芜湖等国家算力枢纽 节点,以及北京、上海、深圳等 AI 超一线城市,已布局不少单节点 规模大于 1000PFLOPS 的大型算力中心,用于支撑通用基础大模型训 练及高并发推理应用。人工智能发展基础较好的城市,布局 300 至 1000PFLOPS 规模的中型算力中心,可满足行业大模型对海量数据和 复杂计算的需求。与此同时,各地市、区也在积极发展 40 至 300PFLOPS 规模的小规模算力中心,以适应本地不同行业和场景下 的多样化计算需求,形成对大中型算力中心节点的有力补充。
从重点城市来看,我国已初步形成三级智能算力基建布局体系。 一是核心区域,以北京、上海、深圳为典型代表,智能算力基础设施 基础扎实,人工智能产业应用方面拥有绝对的领先优势,可为全国需 求地区输送智能算力能力与服务。二是重点区域,以武汉、广州、成 都、南京、合肥等为典型代表,是国家算力枢纽节点或国家新一代人 工智能创新发展试验区覆盖地区,以人工智能为主导产业并且经济基 础良好,能够带动周边区域发展,满足周边区域智能算力需求。三是 活力区域,以大连、沈阳、青岛、福州等为典型代表,具有一定人工 智能基础或将人工智能产业作为重点发展方向积极推动的地区,先期 建设主要满足本地智能化业务发展需求。
城市布局智算中心综合考虑区域内 AI 训练与推理需求。截至 2024年7月底,我国地方国资公司主导投资建设的智算中心有55个, 底层加速卡以华为昇腾智算为主,大部分智算中心首批规划建设算力 峰值在 100-300PFLOPS(FP16)之间,平均智算规模为 150PFLOPS (FP16),可满足 AI4S、行业大模型、大模型微调及推理的算力需求。 而基础大模型则需要更大规模的算力集群支撑。因此,核心区域城市 聚焦人工智能大模型技术创新与产业创新,多布局大智算集群用以支 撑通用基础大模型训练;重点区域城市聚焦人工智能应用技术创新与 应用示范,多布局中型智算中心用以支撑行业模型训练与推理;活力 区域城市聚焦人工智能应用赋能与数智化转型,布局智算中心用以支 撑区域传统产业人工智能融合推理应用。沈阳人工智能计算中心联合 本地高校、科研院所、头部企业等主体,积极投入开展行业模型研发,在工业质检、化工工艺、网络安全、智能招聘、智慧医疗等领域均有 创新应用。
4.跨区域调度协同强力支撑智算基建供需对接
电信运营商智算基建跨区域调度能力较为突出。依托全国的智算 布局体系,电信运营商自主研发算力调度平台,提供 IaaS、PaaS、TaaS 等多层次智算服务,全面推进智能算力一体化管控调度。中国移动打 造“百川”算力并网平台,已接入社会算力近 5EFLOPS,和自有算力 形成优势互补,总共具备超 10EFLOPS 的算力供给能力,同时依托移 动云算网大脑,支持东数西算、智算超算、数据快递等 100 多种算网 业务,实现日均调度东西部资源上千万次。中国联通推出“星罗”先 进算力调度平台,结合全国 200+骨干云池及 AI 边缘一体机提供一键 分发的“中训边推”服务,实现京津冀、大湾区、粤港澳等重点区域 间毫秒级超低时延。中国电信推出算力互联互通平台“息壤”,单集 群调度性能每秒超过 2000+实例,打造通智超一体化智算加速平台 “云骁”与一站式智算服务平台“慧聚”。
地方层面多元异构算力互联互通调度平台持续涌现。安徽省算力 统筹调度平台(长三角枢纽芜湖集群算力公共服务平台)承担省级算 力统筹调度平台职能,集通算、智算、超算、量算“四算合一”,围绕 “管、排、调、营、测”五位一体,构建资源管理、交易服务、编排 调度、监控运维 4 大能力中心,是算力使用省级财政补助政策的唯一 指定承载平台,已与沪苏浙地区相关平台实现互联互通。“东数西算” 长三角算力调度中心承载了中国电信天翼云 4.0 算力分发网络平台“息壤”平台,已对接全国 100 多个算力资源池节点,支持智算、超 算、通算等异构算力的统一接入、统一封装、统一调度,服务苏州 10 个产业集群、30 条产业链组成的“1030”体系。深圳市智慧城市算力 统筹调度平台,通过标准化接口汇聚全市多元异构算力,通过算网大 脑实现算力的弹性分配,提供具有公信力、安全性和普惠性的算力供 给服务,实现超高可靠、极低时延、极速带宽、极高性能、绿色低碳 的算力调度体系,预计 2024 年年底前调度规模达 30000PFLOPS。
为应对当前 AI 预训练超大模型对 AI 算力的巨量需求,智算资 源跨区域协同研究正在同步推进。从发展规律看,为应对超大模型的 算力巨量需求,主要是通过提升单体智算中心集群能力来实现,但构 建(十)万卡集群技术难度高、投入成本极大。当前部分主体探索通过 多智算中心资源协作,依托算网融合将离散的智算中心资源进行整合, 构建跨区域跨主体互联的智算基础设施,共同协作支撑大模型训练。 在跨区域智算基础设施互联协同中,时延是当前关键卡点,集群内节 点高速互联时延在微秒级(服务器内部是纳秒级),但互联网骨干网 平均时延在毫秒级。通信时延,使得在推进跨区域智算基础设施互联 协同时,分布式并行训练面临严重的瓶颈,拉低整体训练性能。鹏城 实验室研发了面向云际协同训练场景的深度学习统一训练框架,在算 力共享、模型共享和大模型服务层面进行了探索和实验,支持在低带 宽网络环境下,利用不同算力集群的异构算力进行大模型的跨云训练。