可以从算力集群化、算力 系列化、高质量数据、应用快速迭代、高质量数据通信这 5 个方面来分析在 AI 大模型加速行业智 能化背景下,企业对 ICT 基础设施的需求。
1.算力集群化
因为总部和区域(或领域)需要做模型训练和 推理资源池,有建设大规模 AI 算力的需求。 单卡性能增长有限,想要增加性能,只有集群 的模式满足大算力的需求。AI 集群是个系统工 程,需要兼顾计算、网络、存储等的跨域协同 及优化,助力企业构筑高效协同的算力集群。 AI 集群建设有如下 3 大技术需求: 首先,需要大规模集群能力,并支持弹性扩展。 总部需要部署高阶模型,不同的高阶模型对算 力要求不同,百亿参数百张卡,千亿参数千张 卡,万亿参数万张卡。
其次,集群需要实现低时延、大带宽、高可靠 的网络。 训练集群网络的丢包率会极大影响算力效率, 零丢包是训练集群网络的基本要求。万分之一 丢包,算力降低 10%;千分之一丢包,算力降 低 30%。 面对千亿、万亿参数规模的大模型训练,仅仅 是单次计算迭代内梯度同步需要的通信量就达 到了百 GB 量级,此外还有各种并行模式、加 速框架引入的通信需求,使得传统低速网络的 带宽远远无法支撑集群的高效计算。因此要充 分发挥计算资源的强大算力,必须构建一个全新的高性能网络底座,用高速网络的大带宽来 助推整个集群计算的高效率。
在大模型的训练和推理中,集群间的多卡通 讯频繁,对时延敏感。以推理为例,多卡低 时延通信挑战:低时延推理需要采用多卡模 型并行来分担参数和 KV 缓存,提升等效的 HBM 带宽;Decoding 阶段引入大量小数据 包 allreduce 集合通信;例如 GPT-3 175B, 每 个 token 需 要 192 次 allreduce 通 信, 在 BatchSize=1、FP16 计算精度下每次业务包 仅为 24KB,对通信时延极其敏感。 最后,在存储方面,大模型基于算力和数据驱 动,通过高频迭代学习,强化模型效果 , 需要 实现大容量、高带宽、高 IOPS、高可靠。需 求一,大容量:参数规模大、单模态走向多模态, 对存储容量带动数据存储从服务器本地盘走向 外置存储,且要求按需扩展。需求二:高带宽、 高 IOPS:Checkpoint 模型数据集需要快速保 存,需要大带宽的存储写入能力;为保障训练 效率,需要加速加载海量小文件训练数据、减 少 GPU 卡空载等待时间、提升算力利用率。需 求三,高可靠:长时间训练过程中,存储的高 可靠性直接影响模型参数的准确性和训练效率。
2.算力系列化
基于前述的部署范式,企业总部需要构建共享 的高阶模型训练和共享推理资源池,根据不同 的业务需求需要使用 AI 算力集群、训练服务 器、推理服务器、训推一体机来建设训练中心 和推理中心。比如自行构建万亿参数的大模型, 需要万卡级规模的 AI 算力集群;构建千亿参 数的大模型,需要千卡级规模的 AI 算力集群; 基于预训练的大模型构建百亿参数的模型,需 要百卡规模的 AI 算力集群。
区域需要建设低阶模型训练和较小的推理算 力,不同企业区域业务规模、业务种类差异大, 对算力需求差异大。需要使用 AI 算力集群、 训练服务器、推理服务器、训推一体机来建设 训练中心和推理中心。比如总部构建的模型已 覆盖大部分业务,区域只需要针对差异化的业 务基于总部预训练的模型做差异化的训练,训 推一体机即可满足。 边端侧算力需求小,同时有环境限制,需要使 用不同规格的推理服务器、推理模块、终端内 嵌的推理算力几种方式来满足工业生产现场、 野外、本安、工地等差异化的业务场景诉求。 边缘设备需要具备边缘自治能力,实现边端侧 业务自闭环。比如野外环境恶劣,在网络中断 的情况下,需要提供可靠的本地 AI 推理能力、 快速切换故障节点,保障业务不中断。
3.高质量数据
数据将是构建大模型竞争力的核心要素,高质 量的行业数据尤为稀缺,从企业外部采购数据 成本高,行业先锋都需要打造自已的数据飞轮, 将海量数据采集好、管理好,支撑行业智能化。 行业大模型的训练和推理都需要高质量的行 业数据来支撑。训练、推理数据不单有 IT 数 据,还有 OT 数据,OT 数据是指由操作技术 (Operational Technology) 产 生 的 数 据, 包括来自工业控制系统、物联网设备、传感器 和其他 OT 设备的数据。OT 数据的实时采集 和管理为大模型提供高质量的数据集,驱动“数 据 - 模型 - 应用”飞轮,让模型更好用。
高质量的数据需要统筹规划感知、存储、网络、 数据治理、数据安全,需要做好整个系统的顶 层设计和各个子系统的协同。有 5 大技术需求: 首先,需要感知层全面采集 OT 数据和接收任 务命令。在 OT 数据的采集和上传上,行业的 传感器、仪表和设备数字化和智能化参差不齐, 普遍存在智能化和智能化改造的诉求:一些仪 表还是机械式、模拟式仪表,无法提供智能化 输出;OT 现场设备联网的挑战是“有线联网难、 无线联网慢”,导致 OT 设备联网率很低,即 使是一些已经联网的仪表、传感器,也仅仅支 持本地互联,感知数据仅用于有限场景,在本 地经过处理的结果向上级系统提供,原始的感 知数据不上传;一些设备(仪表、传感器 ) 对 外连接七国八制,集成复杂,可用性低,导致 数据无法及时、全量上传,数据采集时间无法 对齐,数据无法支撑智能 AI 训练;需要智能 化的终端,通过智联操作系统,将协议复杂、 系统孤立的终端有机协同起来,实现对同一感 知对象的联动感知能力,做到 “一碰传、自动 报”,以满足更加复杂、高精度、高速度、智 能化和协同的作业要求。
其次,需要大容量、支持访问协议多样化的存 储。OT 数据量大,文件格式多样,训练前需 要从跨域多系统将大量的 OT 样本数据上传到 模型训练中心,对存储要求高。需要存储提供 大容量、支持从跨域多数据源拷贝 PB 级原始 数据以及访问协议多样化。 再次,构建 IT 与 OT 融合的扁平化工业网络对 于工业企业而言意义非凡,将真正实现“数据 上得来、算力下得去、上下游贯通”。数据上 得来:数据“逐层上送”的过程中,每一层的 数据传递过程都存在较多的数据信息损失,因 此工业企业需要打破层级壁垒,解决跨系统数 据流转难问题,实现数据直采。算力下得去: 算力下沉至边缘 / 端侧,让工业数据与 AI、算 力相融合,帮助工业企业实现 AI 质检、智能 排产、工艺优化等创新应用。上下游贯通:通过生产现场进度与客户实时共享、产品设计方 案与合作伙伴共享等上下游的连接和协同,帮 助工业企业与客户、合作伙伴之间建立更紧密、 更坚固的纽带。
第四,工业企业需要有效的数据治理,提供高 质量的数据,支撑大模型训练。IT 数据需要从 源头治理,制定数据标准,从应用规范、应用 产生开始治理,保障数据“优生”。传统数据 治理主要用于大数据业务,智能化时代数据治 理将为模型的训练和推理服务,因此数据治理 需要与 AI 打通。数据还需要进一步外溢和延展, 比如:企业的数据从局限于自身内部转变为企 业间数据协同、流通、共享与交易,便于在上 下游和产业间形成协同、在企业间和产业内形 成数据交易、数据经济和数据市场。 最后,数据安全作为数据价值化的基石,对于 保障商业秘密、企业数据主权,确保数据使用 合规至关重要。为此工业企业需要构建事前预 防、事中预警、事后追溯的全套数据安全能力, 让数据使用更安全。
4.应用快速迭代
随着 AI 技术的发展、智能化应用的深入,应 用场景变得更多元、更复杂。每个行业的应用 场景都有成百上千,每个子场景对 AI 模型的 泛化性要求不同,在特定的场景,需要对 AI 模型进一步优化和重构,以适应生产环境。比 如:在工业场景下,有工业质检、安全巡检等 应用,质检子场景中生产线要适配不同的订单, 生产的零部件千差万别,安全巡检子场景中巡 检区域可能地形复杂多样并且自然环境恶劣。 在交通场景下,包含若干细分的子场景,以公 路子场景交通拥堵治理来说,每一个区域(车 辆数、拥堵点、停车场、周边路网承载力), 每一个路口(全时、全域、全要素状态、事件、 行为),每一辆车(出行、时间、地点、路线) 情况和需求不尽相同,复杂多变。
这些多元复杂的场景,都提出了对 AI 的需求, 在将 AI 应用于这些场景过程中,即使有自动 化程度很高的工具,在传统的 AI 模型开发模 式下,也不得不逐个定制开发,如同作坊式开 发,投入人力多,开发周期长,再加上 AI 人 才供给不足,导致 AI 算法开发产能不能满足 行业智能化的需要。大模型为解决这类问题提 供了很好的方案。有了预先训练好的大模型, 每个场景化 AI 开发,都不必再从 0 开始,而 是基于大模型做增强训练,并自动化抽取出适 合该场景部署的小模型,开发周期从月级缩短 为天级,相对于以前的作坊式开发,AI 工业化 开发效率可以提升 10~100 倍,实现了 AI 模 型从作坊式开发到工业化开发的转变。但这样 的开发效率需要高效的开发工具链支撑,需要 做到针对不同业务场景需求,快速响应、动态 按需适配,实现从需求到智能化应用的快速迭 代、敏捷应用短闭环。
具体来说,智能化应用的开发工具链需要满足 以下 4 个关键需求: 首先需要大模型增强训练敏捷化,减少开发的 中间环节,让应用的使用者参与到模型的构建 中来,实现全民参与,贡献行业经验,加速 AI 算法的创新和孵化。模型开发工具链要能够支 撑从数据标注、模型选择、模型训练、模型评估、 模型部署到结果反馈全流程高效作业,降低开 发门槛。 其次需要应用开发敏捷化,从传统的“瀑布式” 开发走向敏捷式开发,支持低代码、零代码开 发,让业务人员可以直接参与开发。打通应用和 AI 开发工具,实现应用对 AI 算法的调用,使智能化应用的上线周期从月级跨越到天级,让应用 开发更加友好、简单。 再次需要数据与 AI 融合,打通数据库、湖、仓和 AI 开发平台之间的互访,让数据在多个引擎间能 够高效流转,实现一站式的 DataOps 与 MLOps,最终通过将数据和 AI 的能力整合,加速模型开发。 最后,通过将 AI 引入开发过程,提供代码和测试用例的智能生成、代码解释和代码翻译的智能交 互问答、需求获取和代码提交的智能协同,大幅提升开发效率。
5.高质量数据通信
海量数据是基础大模型训练、行业场景模型二次训练、模型持续迭代进化的“养料”,也是无所不 在的推理交互的输入输出。随着 AI 训练、推理走向“工业化开发、规模化应用”,训练集群内部 需要高效数据通信,两级训练三级推理部署范式之间的持续迭代需要高效数据通信,数据采集与推 理服务器之间也需要高效数据通信。
从总部到区域 / 领域、从区域 / 领域到边端,海量训练样本数据上传、模型推送与训练迭代、无所 不在的推理交互,都需要高质量的广域数据通信网络。以自动驾驶模型训练为例,每天有 1TB 的 样本数据需要上传到提供训练服务的数据中心,突发带宽高、潮汐效应明显,需要 10GE 接入、 400GE 汇聚的高速数据通信;训练生成的模型文件下推,需要广覆盖、大带宽、任务式的弹性数 据通信,灵活建立联接;千万应用场景的实时推理交互,需要低时延、高可靠、高并发的低时延数 据通信;为了提升投资效率,我们需要在一张数据通信网络同时支持多种应用,既要满足传统应用“万 物智联”的要求,也要满足 AI 时代“万智互联、万数智算”的要求。为此,我们需要引入超融合 以太 (HCE)、IPv6+、自动驾驶网络 (ADN) 等创新技术,打造新一代数据通信网络,面向行业智 能化提供弹性超宽、智能无损、自智自驭的数据通信基础设施。行业智能化基础设施的可持续发展, 还需要考虑数据中心的异地容灾、东数西算、协同计算,这就需要引入网络切片、OXC、网络数 字地图等技术,打造超大容量极低时延、应用感知体验保障、算网融合智能无损的 IP 骨干网络、 OTN 骨干网络,实现跨地域的实时算力调度、极速数据运送、高效协同计算。
与此同时,数据通信的安全至关重要。行业智能化时代,数据流量持续增长,加密威胁持续增加, 我们需要高性能、高弹性、高效拦截加密威胁的网络安全解决方案,为行业智能化保驾护航。 行业智能化时代,新一代高运力数据通信网络从“万物智联”走向“万智互联、万数智算”,成为 万物智联、弹性超宽、智能无损、自智自驭的关键基础设施。