目前,我国智算产业链已经初步形成,涵盖由芯片、软件、硬件 供应商构成的上游产业,由云商、电信运营商、第三方数据中心服务 商等构成的中游产业,以及由互联网、交通、金融、工业等行业等用 户构成的下游产业。
1、智算产业链初步形成,生态集聚效应不断增强
(一)上游:AI 芯片领域形成多方竞争格局
GPU、FPGA 技术壁垒高,迅速形成寡头格局。英伟达(NVIDIA) 凭借 NVLink、NVSwitch 等集群性能优势以及良好的 CUDA 生态,成为 全球 GPU 主要供货商,其 A100 芯片占据了数据中心 GPU 市场 90%以 上的份额。据 IDC 数据,预计到 2025 年 GPU 仍将占据 AI 芯片 8 成市 场份额。同时赛灵思(Xilinx)和英特尔(Intel)已在 FPGA 领域形 成双寡头格局,市场份额占比约 90% [9]。
TPU、NPU 逐渐兴起,呈现“百家争鸣”态势。以 TPU、NPU 为代表的 ASIC 凭借吞吐量、功耗、算力等优势,逐渐被广泛应用于人工 智能领域。国外以谷歌为首发布 TPU 芯片,国内寒武纪、华为、阿里 等公司也都推出了深度神经网络加速的 ASIC 芯片,如华为昇腾 NPU、 阿里平头哥 NPU。
白盒交换机以其软硬解耦、灵活可编程、高速转发等优势受到云 商智算中心大规模组网青睐。Omdia 数据显示,2022 年全球数据中心 以太网交换机市场份额白盒供应商占比 32%,其中 Arista 占比 18%。 在北美市场,全球 TOP3 云商亚马逊、谷歌和 Meta 的白盒交换机购买 规模已超市场总规模的三分之二。 InfiniBand 和 RoCE 作为智算中心高性能网络的主流方案,满足 智算网络的低时延、大带宽、稳定运行、大规模以及可运维的需求。 InfiniBand 网络方案及配套设备供应商主要包括英伟达、英特尔、思 科,其中英伟达市场占有率超七成。支持 RoCE 的交换机厂商较多, 主要以新华三、华为为主。支持 RoCE 的 NVIDIA ConnectX 系列网卡 当前市场占有率比较高。
(二)中游:云商及 IDC 服务商基于自身优势提供智算服务及解 决方案
云商、科技公司借助自身技术壁垒提供大模型及平台服务。主流 云商一方面自建大型智算中心,如 Meta 宣布取消或暂停部分正在建 设的数据中心,对其 11 个正在开发的项目进行重新设计,彻底转向 人工智能数据中心的建设。另一方面加速布局 AI 大模型,如谷歌 “PaLM-2”、Meta“Llama 2”等。特斯拉、苹果等科技公司基于自身业务优势,一方面自建定制化智算中心,如特斯拉面向自动驾驶等领 域建设超算中心 Dojo,拥有超过 100 万个训练节点,算力达到 1.1EFLOPS[10]。另一方面,积极布局 AI 大模型体系,巩固自身行业优 势壁垒,如特斯拉 AI 机器人“擎天柱”、苹果“Apple GPT”。
IDC 服务商依托云/网资源优势,积极参与智算建设。国内运营 商积极建设智算中心及平台,如中国电信推出息壤智能计算平台,提 供智算、超算、通算多样化算力服务,为大模型训练、无人驾驶、生 命科学等场景提供软硬一体解决方案,RDMA 吞吐可高达 1.6Tb[11]。国 外 IDC 服务商仍在布局阶段,如 2023 年日本 NTT 宣布将在 5 年内投 资 8 万亿日元(约合 590 亿美元)用于人工智能、数据中心和其他增 长领域[12] ;Equinix 的 2023 年全球科技趋势调查报告显示,人工智 能应用率上升,但 IT 基础设施没有为人工智能做好充足准备。
(三)下游:车企领衔行业大模型落地应用
互联网、交通、金融、工业等行业,基于大模型带动自动驾驶、 机器人、元宇宙、智慧医疗等下游产业发展。海外大模型行业应用主 要在传媒游戏、机器人、办公等领域落地,如 Meta 推出 AI Sandbox 为广告生成不同的文字、Apple 推出生成式人工智能元宇宙产品 Visin Pro 头显,并计划在 siri 嵌入类 GPT 功能。哈维基于 GPT 及 行业数据推出 AI 法律助手。国内大模型行业应用主要聚焦金融、医 疗、传媒游戏、智能汽车等领域,如百度文心大模型助力浦发银行、 泰康保险在投资决策、理赔信息检索等方面的应用。华为盘古大模型 为国家电网电力巡检提供智能服务。

车企布局智算中心用于自动驾驶大模型训练。特斯拉基于 Dojo 超级计算机先后推出 BEV 大模型、端到端自动驾驶大模型,推动高阶 智能驾驶落地,预计到 2024 年算力将达 100EFLOPS。吉利星睿智算 中心自研汽车行业 AI 对话模型,初步完成百亿参数的大模型训练, 吉利星睿智算中心(湖州)预计 2025 年算力规模将达 1.2EFLOPS[14]。 小鹏汽车自动驾驶智算中心“扶摇”(乌兰察布),基于阿里飞天智 算平台,算力可达 600PFLOPS,将小鹏自动驾驶核心模型的训练提速 近 170 倍[15]。毫末智行智算中心“雪湖·绿洲”(山西大同),基于 火山引擎智算云解决方案,算力达 670PFLOPS,模型训练效率提升 100 倍[16]。
2、国产自研 AI 芯片加速入场,短期高效供给仍受限
国产硬件厂商持续突破 AI 芯片性能,提升市场竞争力。华为推 出昇腾 910,性能对标英伟达 A100,可用于智能手机、云计算、自动 驾驶等领域,同时推出 AI 开源计算框架 MindSpore,支持用户进行 AI 开发。寒武纪提供云边端一体、训练推理融合等系列 AI 芯片产品 及平台化基础系统软件,重点对推荐系统和大语言模型的训练推理等场景进行优化。壁仞科技等初创公司不断与多方建立合作关系,如万 国数据、浪潮、中国移动等,聚焦云端通用智能计算,重点在 AI 训 练和推理、图形渲染等领域发力。
大型云商自研 AI 芯片,以摆脱对国外技术依赖。阿里面向自身 电商、汽车、家电等领域需求自研 AI 芯片,基于 RISC-V 架构和自研 算法推出含光 800 NPU,支持 TFlops 级别浮点运算。百度面向搜索、 智能交通等领域的深度学习运算需求,推出昆仑系列 AI 芯片,用于 大模型推理。腾讯依靠蓬莱实验室推出 AI 推理芯片“紫霄”,已用 于腾讯会议等多个内部业务。 我国自主 AI 芯片在系统效率等方面与国际领先产品仍有差距, 并存在性价比待提高、架构不够兼容、配套工具不够成熟、应用场景 不够广泛等问题。制程方面,目前英伟达已率先到达 4 nm,而国内厂 商多集中在 7 nm [17] ;算力方面,国内厂商大多不支持双精度(FP64) 计算,且仅在单精度(FP32)及定点计算(INT8)方面与国外中端产 品持平;生态方面,与英伟达 CUDA 的成熟生态相比,国内企业多采 用 OpenCL 进行自主生态建设,存在明显差距。
3、智算中心建设版图持续扩张,智算服务灵活多样
智算中心聚焦东部城市,以政府主导国产化为主。截至 2023 年 5 月,全国超 35 个城市在建或投运 44 个智算中心(在建 15 个智算 中心,投运 29 个智算中心),其中明确面向 AI 大模型应用的有 11 个。地理分布集聚一线及省会城市,与大模型研发分布强相关。智算中心建设以东部为主,京津冀、长三角、粤港澳共 29 个(占比近 66%), 其中 9 个在建,20 个投运,面向西部枢纽节点逐渐开展布局。东部多 为政府主导建设,且国产化占比高(54%),西部以云商自建为主。 地方政府牵头主导 34 个(占比近 80%),主要满足当地 AI 产业发展, 且以华为昇腾、寒武纪等为主要合作方提供国产化能力。西部以云商 为主,如阿里乌兰察部智算中心、字节跳动与毫末智行合建雪湖绿洲 (山西大同)智算中心。受限于需求不清晰、高性能芯片产业生态不 成熟等因素影响,智算规模普遍偏小。智算中心规模在 100- 300PFLOPS 内占比超 70%以上,超过 1EFLOPS 规模的智算中心约占 25% (超半数为云商及大型企业自建),且全部集中在京津冀、长三角和 粤港澳区域。
由于智算需求场景多样且高度定制化,相较于传统数据中心,智 算中心服务模式呈现多元化特点,包括机房托管、算力租赁、智算平 台、工具集及咨询等增值服务、模型即服务(MaaS)、大模型应用服 务以及各种组合模式。
(一)机房托管:机房托管服务与传统数据中心服务模式类型相 同,但需要面向智算提供更高层次的定制化(功耗、配电、网络等), 主要面向云商、AI 公司、大型央企等客户。 (二)算力租赁:主要面向中小型科技公司、IT 公司、小参数量 的模型(10B 规模)等客户,通过将闲置 GPU 资源通过云服务的形式 将服务器或虚拟机租用给用户,采用按使用时间及利用率收费。 (三)大模型托管、训练、部署、订阅等从 IaaS 到 SaaS 全线服 务。一是提供 GPU 主机、高性能计算、批量计算等 IaaS 产品。二是 依靠智算平台提供公有云和专有云,为各类科研、公共服务和企业机 构提供算力调度、数据处理、模型开发等一体化智能计算服务。三是 通过 MaaS 提供模型定制、精调、部署等一站式模型服务。四是基于 大模型和 MaaS 能力全面智能升级 SaaS 应用,帮助企业构建行业大模 型或集成在企业应用上、以及面向公众用户提供搭载大模型应用的基 于大模型的搜索引擎、数字人等服务。

未来智算服务模式将由现阶段集成 AI 大模型能力的云产品的卖 方市场,逐步过渡到围绕产品提供配套衍生服务,最终形成基于标准 化智算中心基于“AI 原生”生态服务的买方市场。
4、大模型呈蓬勃发展态势,助力产数业务发展
我国大模型研发快速增长,大模型研发分布以东部城市为主。从 全球已发布的大模型分布来看,中国和美国大幅领先,超过全球总数 的 80%,美国在大模型数量方面始终居全球最高,中国从 2020 年进 入大模型快速发展期,目前与美国保持同步增长态势。据不完全统计, 目前中国 10 亿参数规模以上的大模型已发布 79 个,14 个省市/地区 都在开展大模型研发,与智算中心布局一致,主要集中在北京(38个)、 广东(20 个)、浙江(5 个)和上海(5 个)[18]。其中大模型开源占 比过半,高校/科研机构是开源主力。清华大学的 ChatGLM-6B、复旦 大学的 MOSS 以及百度的文心系列大模型开源影响力最高。
通用大模型不仅需要海量数据与雄厚算力支撑,对资金实力、人才队伍等也提出更高要求。如 ChatGPT 单次训练成本高达数百万美金, OpenAI 核心团队 87 人,全部来自世界顶尖高等院校。未来将呈现少 数几家通用大模型,并涌现出无数更贴近产业需求的行业大模型的趋 势。
智算赋能行业应用,是产数业务发展的“加速器”。行业大模型 通过对垂直细分领域的数据进行更有针对性的训练和优化,从而更好 地理解行业的语义和规范,更有效地执行专业性更强的任务。如金融 的风险控制和投资决策,医疗的图像识别和诊断,交通的调度和路径 优化,能源的能耗预测、碳排放监测等。预计生成式 AI 能为这些行 业带来 1000 亿美元到 3000 亿美元的收益。通用大模型企业基于自有 通用大模型+外部行业数据的模式拓展多个行业大模型,行业公司基 于开源大模型+内部行业数据赋能自身应用。截至 2023 年 8 月,国内 已落地的行业大模型共 72 个,主要集中在金融(14 个,19.4%)、医 疗(14 个,19.4%))、传媒游戏(8 个,11.1%)及教育科研(8 个, 11.1%)。
