大量实践表明,针对大模型分布式训练场景,集群规模的线性提升无法直接带来集群有效算力的线性提升,卡间和节点间的互联网络、软件和硬件的适配调优是追求集群极致有效算力的关键挑战。
1.超万卡集群背景与趋势
自 ChatGPT 面世以来,大模型步入了迅猛发展期,型层出不穷,爆点频出Scaling Law[1]不断得到验证,高速发展的人工智能对数字经济产生了巨大赋能作用。大模型所使用的数据量和参数规模呈现“指数级”增长,2018年 BERT 模型参数量仅有 1.1亿,到 2021年 GPT-3 达到了 1750 亿。随着 Mixture ofExperts(MOE)[2]等先进模型结构的出现,模型参数迈入万亿规模。预计在未来的 2-3 年,随着 AI技术的进步和算力提升,ScalingLaw 还将延续,助推模型参数向十万亿进军。
大模型能力的不断跃迁,使得超长序列应用、文生视频、文生音频等基于多模态的应用层出不穷,大模型在各个领域均展现出了强大的智能化能力,“AI+”对生产生活带来了巨大影响。ChatGLM、LLaMA[3]、Gemini 等大模型的发布更加坚定了科技界持续摸高大模型能力天花板的决心;文生视频多模态大模型 Sora 的问世更加引爆了行业热点,促使业界在大模型的技术、规模和应用上不断挖掘,以期能创造下一轮爆点。
AI技术的发展带动产业大规模升级的同时,也带来了对巨量算力和能源的需求。据公开信息报道,GPT-3 训练所消耗的电力,相当于美国约121个家庭一整年的用电量。GPT-4 拥有 16 个专家模型共 1.8 万亿参数,一次训练需要在大约 25000 个A100 上训练 90 到 100 天。大模型对底层算力、空间、水电能源产生极大消耗,对新一代智算设施的设计要求也日益严苛。更高密度的算存硬件、高性能无阻塞的网络连接以及更高并行度的通信和计算范式成为新一代智算中心的设计目标,新型智算中心(NICC,NewIntelligentComputingCenter)[4]相关技术将继续被推向新的高度。
人工智能新纪元,算力为企业科技创新和转型提供有力支撑。在全球化的科技竞争格局中,领先的科技公司正积极部署千卡乃至超万卡规模的计算集群,既是展现其在人工智能、数据分析、大模型研发等前沿领域的技术实力,也向外界展示了公司对未来科技趋势的深远布局。
在国际舞台上,诸如 Google、Meta、Microsoft 等科技巨头,正利用超万卡集群推动其在基座大模型、智能算法研发及生态服务等方面的技术创新。如 Google 推出超级计算机 A3 Virtual Machines,拥有 26000 块 Nvidia H100 GPU,同时基于自研芯片搭建 TPUv5p 8960 卡集群。Meta 在 2022 年推出了一个拥有 16,000 块Nvidia A100 的 A|研究超级集群 Al Research Super Cluster,2024 年初又公布 2个24576 块 Nvidia H100 集群,用于支持下一代生成式 A! 模型的训练。这些企业通过成千上万台服务器组成的集群计算优势,不断优化服务架构,提升用户体验,加速新技术的市场转化与应用。
在国内,通信运营商、头部互联网、大型 AI 研发企业、AI 初创企业等均在超万卡集群的建设和使用过程中不断推动技术革新。
通信运营商作为国家算力基础设施建设的中坚力量,利用其庞大的机房资源和配套设施优势,正加速推进超万卡集群智算中心的建设。这一举措不仅为运营商自身的大模型研发提供强大的计算支持,同时也为政府、高校和企业客户带来了前所未有的高质量智算服务。随着智算中心建设的不断深入,运营商站在连接技术创新与行业应用的关键位置,其在推动社会数字化转型和智能化升级中的引领作用日益凸显。
头部互联网企业作为技术创新的先锋,通过建设超万卡集群来加速其在云计算、大数据分析和大模型研发等领域的突破。字节跳动、阿里巴巴、百度为代表的互联网公司在积极推进超万卡集群的建设。其中,字节跳动搭建了一个12288卡Ampere 架构训练集群,研发 MegaScale 生产系统用于训练大语言模型[5]。通过集群的强大计算力,这些头部互联网公司不仅加速了自身业务的数字化转型,也为国内科技产业的发展贡献了创新动力。大型 AI研发企业出于对大规模模型训练和复杂算法计算的迫切需求,正在积极投建超万卡集群。这些公司作为人工智能领域的先行者,正积极投建超万卡集群以满足其大模型的计算需求。如科大讯飞,2023 年建设成首个支持大模型训练的超万卡集群算力平台“飞星一号”。此类集群的建立,不仅为这些企业在 AI 领域的深入研究提供了必须的算力支撑,也为他们在智算服务的商业应用中赢得了先机。
AI 初创企业则更倾向于采取灵活的租用模式,利用已有的超万卡集群来支持其创新项目。这些企业为了能够实现应用和投入平衡,大多对基础设施采取灵活的租用模式,利用超万卡集群的强大计算能力来支持其创新项目。这种模式降低了初创企业的初始投资门槛,使他们能够快速获得高性能的计算资源,加速产品的研发和迭代。
整体而言,无论是通信运营商、头部互联网企业、大型 AI 研发企业还是 AI 初创企业,都在通过自建或使用超万卡集群加速其在人工智能领域的技术突破和产业创新。随着超万卡集群建设的不断深入,我们预见这一趋势将为整个智算产业的发展带来深远影响。
2.超方卡集群面临的挑战
当前,超万卡集群的建设仍处于起步阶段,主要依赖英伟达 GPU 及配套设备实现。英伟达作为全球领先的 GPU 供应商,其产品在大模型训练上有较大优势。得益于政策加持和应用驱动,国产 A1芯片在这两年取得长足进步,但在整体性能和生态构建方面仍存在一定差距。构建一个基于国产生态体系、技术领先的超万卡集群仍面临诸多挑战。
2.1 极致算力使用效率的挑战
大量实践表明,针对大模型分布式训练场景,集群规模的线性提升无法直接带来集群有效算力的线性提升,卡间和节点间的互联网络、软件和硬件的适配调优是追求集群极致有效算力的关键挑战。我们把集群有效算力分解为“GPU 利用率”和“集群线性加速比”两个重要指标,其中“GPU 利用率”受限于芯片架构和制程、内存和I/0 访问瓶颈、卡间互联带宽和拓扑、芯片功耗等因素,“集群线性加速比”则取决于节点间的通信能力、并行训练框架、资源调度等因素,两者的最大化发挥将最终表现为模型训练效率提升和成本降低。在超万卡集群中,需要运用系统工程方法,通过对超万卡集群网络的精细化设计、软硬件全栈整合优化,综合提升集群算力使用效率。
2.2 海量数据处理的挑战
千亿模型的训练需要对 PB 量级的数据集使用多种协议进行处理,未来万亿模型的训练对 checkpoint 的读写吞吐性能更是要求高达 10TB/S,现有智算存储系统在协议处理、数据管理、吞吐性能等方面面临诸多挑战:
协议处理层面:传统智算存储系统按照块、文件、对象等不同协议建设分立存储池,多套不同协议存储系统之间需要来回拷贝数据,影响数据处理效率,浪费存储空间,增加运维难度;
吞吐性能层面:传统智算的分布式文件存储仅支持百节点级别扩展,节点规模小,难以提供超万卡集群所需的 10TB/S 以上的数据吞吐性能;
数据管理层面:传统智算的数据存储需人工干预,进行冷热分类,并在高性能和普通性能存储集群之间迁移。跨系统的数据管理和迁移降低了大模型下海量数据处理效率,还会额外占用网络带宽和计算节点资源。因此,超万卡集群的存储系统需要通过协议融合、自动分级等一系列技术手段提供高效的数据共享和处理能力,满足大模型训练的需求。
2.3 超大规模互联的挑战
模型规模扩大到万亿量级,数据的吞吐量和计算量已远远超过目前最强单机单卡能力,多机多卡互联和并行训练策略成为必须。以在超万卡集群部署1.8万亿 GPT-4 为例,在大模型训练过程中,每轮迭代计算都涉及前反向传播算法的计算和通信,这对超万卡集群的 Scale Out 和 Scale UP 网络提出极大挑战。
在 Scale 0ut 互联层面,网络承载数据并行(DataParallel,DP)和流水线并行(Pipeline Parallel,PP)流量,参数面网络带宽需达到200Gbps至400Gbps,数据面网络需要配备 100Gbps 带宽,保证数据读取不成为训练瓶颈。此外,参数面网络还需要应对因多租户多任务并行训练通信特征不规整、上下行 ECMP(EqualCost MultiPath)选路不均衡而引发的高速大象流的交换冲突和拥塞。
在 Scale up 互联层面,由于 MoE 专家并行和张量并行(Tensor Parallel,TP)的通信无法被计算掩盖,不仅要求卡间互联带宽达到几百甚至上千 GB的量级,而且应突破当前单机 8卡的限制,以支持更大参数量的型训练。此外,Scale up 互联还需要保持高频度、低时延、无阻塞的通信式。
2.4 集群高可用和易运维挑战
超万卡集群承载万亿模型训练意味着千万器件的满负荷高速运转,任一部件不可恢复的失效都可能导致训练中断,带来超万卡集群高可用和易运维的关键挑战:千万器件维护管理难度大:超万卡集群由数千台智算服务器+数千台交换机+数千台存储设备以及数万根光纤/数万颗光模块构成,训练任务涉及千万颗元器件满负荷高速运转,基于固有的元器件硬件失效率和海量的器件规模带来硬件故障频发,涉及到的软硬件故障模式繁杂,故障管理挑战巨大;
复杂系统故障定位难度大:万亿模型训练的过程是各个软硬组件精密配合的过程,一旦发生问题定界定位复杂。业界典型硬件故障定位需 1~2天,复杂应用类故障定位可能长达数十天。快速自动定界定位能力需要结合实际运维经验进行系统性积累和针对性持续改进。
高负荷运行故障概率高:万亿大模型训练至TTA(TimeToAccuracy)一般需要一百天 7x24 小时满负荷运行。而硬件 MTBF(Mean Time Between Failure)伴随集群规模的增长越来越短,万亿大模型训练作业中断频发,业界超万卡集群持续稳定运行仅数天,断点续训恢复缓慢,直接影响模型训练效率。超万卡集群急需支持更有效、更快速、影响更小的自动断点续训功能。
2.5 高能耗高密度机房设计的挑战
超万卡集群对机房配套设施的需求相对于传统IDC云数据中心发生重大变化,对供电、承重、机房洁净度和走线架设计等有极高要求:
在供电方面,当芯片 TDP 设计功率上升至400~700W,单柜功率从原先的7~8KW 上升至 40KW 甚至 60KW,集群整体功耗将攀升至数十~上百 MW,机房需要进行功率提升改造,并配合进行散热能力提升改造;
在承重方面,由于集群规模翻番增长,为了保障单位空间的算力密度,需要引入液冷方案,确保智算芯片的高速运行,单机柜重量达1-2 吨,对机房承重提出高标准要求;
在机房洁净度方面,由于超万卡集群参数面网络使用大量100G、200G 甚至400G 的高速光模块,高速光模块本身是一个集成度极高的器件,裸露的光纤通道和内部器件都比较脆弱,要尽可能避免落入灰尘,降低故障率。因此机房需要综合考量制冷和通风方案,在设备侧保持较高的洁净度标准,确保后期集群的稳定运行。
在线缆布放方面,由于超万卡集群的算力密度更高、功耗密度更高,线缆的布放量也随之增大。以一个 1.8 万卡的智算集群为例,需要布放 10 万量级的线缆,这将对走线架的宽度和承重带来新的挑战。
可见,超万卡集群提出了对高压直流供电技术、高效液冷散热技术、超大规模网络工程便捷落地的刚性需求。这就要求机房配套设施在建设之初,提前对机房供电、制冷、承重等进行配套设计,以更好的支撑超万卡集群快速建设、便捷部署和长期稳定运行。