智算中心行业发展现状及挑战有哪些?

智算中心行业发展现状及挑战有哪些?

最佳答案 匿名用户编辑于2023/09/06 14:38

1.智能算力跃升为全球第一大算力,智算中心建设如火如荼

1956 年第一次 AI 发展浪潮信息伊始,60 多年来,从理论探索到大数据驱动,从深度学习 到大模型智能涌现,AI 正在成为一项新兴的通用型技术,向多场景、规模化、AIGC(AI Generated Content)等方向快速演进。智能算力作为 AI 的底座型技术迎来需求井喷。据统 计,到 2030 年,全球智能算力需求增长约 390 倍,增速远超摩尔定律。据《中国算力发展 指数白皮书(2022)》指出,我国智能算力也在近几年保持快速增长态势。2021 年我国智 算规模已达到 104E FLOPS,占比超过总算力的 50%,预计到 2030 年将升至 70%,成为算 力的主要增长极。智算成为全球第一大算力已是大势所趋。

随着 AI 在赋能产业发展、促进数实融合方面发挥出愈加显著的作用,各国政府纷纷发布政 策引导其发展。美国为加强其在 AI 领域研发和部署的领导地位,于 2019 年签署《美国人工智能倡议》(American AI Initiative)[1],旨在从国家战略层面重新分配资源,用于 AI 研发, 以应对来自“战略竞争者和外国对手”的挑战。之后,在 2021 年颁布《美国创新与竞争法 案》[2],高度关注 AI 与机器学习、高性能计算、半导体等十大关键技术领域。欧盟在 2021 年发布《2030 数字指南针:欧洲数字十年之路》[3],要求到 2030 年 75% 的欧盟企业使用 云计算、大数据和 AI 技术。我国也高度重视 AI 技术发展,自 2017 年以来国家各部委和地 方政府相继出台政策,指导 AI 产业发展规划,鼓励企业加大人才引进和研发力度,并明确 指出要积极推动智算中心有序发展。至此,智算中心作为一种新型算力基础设施为大家所熟 悉。不同于传统的云数据中心和超算中心,智算中心是以 GPU、AI 加速卡等智能算力为核心、 集约化建设的新型数据中心,为人工智能应用提供所需的算力服务、数据服务和算法服务, 使能各行各业数智化转型升级。

智算中心的战略地位不断提升,为构造未来竞争发展优势,很多国家都在积极开发和部署智 算中心。其中,美国能源部及国家科学基金会主导,将智算中心和超算中心结合,建设超大 规模智能超算中心,为科学研究提供高性能计算资源,例如,橡树岭国家实验 室的 Summit(3.4E)[4],阿贡国家实验室的 Polaris 和 Aurora(约 10E)[5],劳伦斯伯克 利实验室的 Perlmutter(3.8E)等,这些智能超算中心往往具有单体算力大、技术领先等特 点。美国科技巨头也是智算中心的主要建设者,包括谷歌的开放机器学习中心(9E),特 斯拉 Dojo 集群(据称 2024 年末规模达到 100E),Meta AI 超级计算机(9.9E)等。

国内智算中心建设热潮始于 2020 年,目前已有 40+ 城市建成或正在建设智算中心,包括武汉人工智算计算中心(200P)、南京智能计算中心(800P)、合肥先进计算 中心(12P)、鹏城云脑 II(1E)等,其中 12 个位于“东数西算”八大枢纽,这些智算中 心主要由地方政府与企业合建,总体投资规模超千亿,旨在带动当地产业智能化升级。国内 互联网和 AI 企业自建的智算中心是国内智能算力的重要组成,如阿里在张北和乌兰察布建 设的总规模达 15E 的智算中心,旨在结合智能驾驶、智慧城市等业务,探索云服务后的智 算服务新业态;百度在山西阳泉建设规模 4E 的智算中心,孵化国内首个正式发布的大模型“文 心一言”;商汤作为国内头部 AI 企业,投资 56 亿在上海临港建设人工智能计算中心,规模 超 4E,主要面向智慧商业、智慧城市、智慧生活和智能汽车四大板块,发展 AIaaS(AI as a Service)服务。

当前智算中心主要以单供应方全栈体系构建为主,尚未形成业界统一的设计方案,因此各地 智算中心在技术、标准、生态、运营等方面仍面临挑战。

在技术方面 :早期建设的智算中心以承载中小模型为主,AI 服务器大多是 PCIe 机型,配备 独立的文件存储,互联方式则以节点内 PCIe 通信与节点间传统以太网为主。 随着通用大模型的普及,智算中心的设计思路需要从原先以单芯片、单服务器 粒度提供算力服务的模式,转变为支持巨量并行计算,提供高吞吐、高能效的 集群算力。

在标准方面 :由于各地智算中心大都是当地政府与 AI 芯片、整机厂家合作建设为主,技术方 案深度绑定,容易形成多种派系。亟需通过制定行业标准,一方面降低客户学 习和使用的时间成本,另一方面加强产业链上下游企业的协同,促进智算产业 的高质量发展。

在生态方面: 因为 AI 是软硬深度耦合的技术栈,国外主流产品“先入为主”,主导生态发展, 相比之下国内 AI 起步较晚,在芯片算力和软件栈适配方面均存在差距。在智算 生态竖井式发展的当下,需要加强引导,为后续 AI 应用的适配和跨架构迁移奠 定基础。

在运营方面: 各地智算中心的服务对象多为区域内的行业客户、科研院所和高校,较少考虑 全局协同,随着东数西算、东数西渲等应用需求不断丰富,需要提前布局跨区 域的全局算力调度,提升算力高质量供给和数据高效率流通。

 

参考报告

NICC新型智算中心技术体系白皮书.pdf

NICC新型智算中心技术体系白皮书。ChatGPT系列大模型的发布,不仅引爆全球科技圈,更加夯实了人工智能(ArtificialIntelligence,AI)在未来改变人类生产生活方式、引发社会文明和竞争力代际跃迁的战略性地位。当前各国政府已全面布局AI,作为AI技术发展的关键底座,智算中心的建设和部署在全球范围内提速。然而,早期建设的智算中心,以承载中小模型、赋能企业数智化转型为主要目的,在技术标准、生态构建、业务发展和全局运营等各方面仍有待提升。当追逐大模型成为行业标准动作,面向大模型的新型智算中心(NewIntelligentComputingCenter,NICC)成为新时期关注的焦...

查看详情
相关报告
我来回答