运营商AI存力挑战是什么?

运营商AI存力挑战是什么?

最佳答案 匿名用户编辑于2023/10/24 14:05

运营商丰富的 AI 应用对传统 IT 基础设施带来了全面的挑战,运营商依据 AI 业务流(数据获取、数据预处理、 模型训练、推理应用)独立建设存力设施后,设备多、版本多、冗余数据多、数据管理复杂等问题不断累积, 进而出现了数据容量、数据传输、数据管理、数据安全、数据节能等维度的 AI 存力难题。

1. 容量挑战

运营商传统的 IT 基础设施主要应用于超算、大数据 等领域,无法满足 AI 大模型对存力平台的诉求。容 量层面主要面临以下三方面的挑战,一是灵活性不足, 随着大模型的发展,模型进入万亿级参数、PB 级存 储时代,这使得传统的单机模式和服务器盘集群建 设难以满足千亿级文件系统管理、PB 级存储持续扩 容以及数据响应性能要求。二是开放性不足,多模 态大模型需要 AI 存力设施支持多样性的数据存储需 求,传统的建设方式需要为每一种新的数据类型配 备对应的存储设备,这限制了系统的开放性和灵活性。 三是建设难度大,AI 业务流在数据获取、数据预处理、 模型训练和推理应用的各个阶段对数据存储的诉求 差异极大,传统的独立业务域存储建设模式难度极大。 因此,新型的 AI 存力一方面需要同时支持 NAS/S3/ HDFS/POSIX 等传统数据服务接口,另一方面需要 持续创新,支持训推阶段向量信息的新型存储格式。 数据格式多协议互通互享,可以有效降低数据存储 空间,并提高数据管理效率和向量数据访问性能。

2. 传输挑战

(1)数据跨域调度

营商在发展 AI 大模型业务时,需要获取来自不同 机构的多样化数据,包括互联网、企业内部、合作 机构和省分公司等。为了最大化利用存储能力,需 要实现高吞吐和大容量数据传输。然而,传统的建 设模式选择不同的计算资源、网络资源和存储资源 构建基础设施底座,多样性的设备带来了业务难迁 移等问题,使数据难以流动。因此,新型的 AI 存力 一方面需要建设统一的数据湖存储实现大容量的数 据传输。

(2)数据高效流动

大模型训练任务对内存和显存带来较大挑战,数据 需要在计算、Cache、高带宽内存(HBM,High Bandwidth Memory)、DDR 内存设备之间频繁移动, 缺乏统一内存空间的寻址会导致编程模型变得复杂, 也会限制设备之间的协作,增加了开发难度和错误 率。同时在DDR 内存和HBM 之间数据需要多次转换, 异构设备既无法直接共享数据,也无法充分发挥各 自的优势,这些因素都限制了系统整体性能的提升。 因此,需要引入统一的内存引用方式和服务调用接 口总线技术,如灵衢总线(UB ,Unified BUS)或 CXL(Compute Express Link)等技术。这种总线技 术提供了基于内存语义的数据中心资源池化和高效 共享机制,允许程序地址的直接引用,并支持分布 式执行的远程功能调用,从而满足了包括 AI 大模型、 大数据分析和云超算等在内的多种紧耦合、大规模、 高性能计算需求,有助于数据中心高效率编程,从 而极大地提高了数据中心的性能和效率。

3. 管理挑战

大模型从单模态走向多模态,多样化的数据类型给 数据存储管理带来了巨大的挑战。一是大模型训练 需要复杂的文件读写,数据存储系统不仅需要支持 千万级 IOPS 和数百 GB/s 的带宽诉求,而且需要在 技术和管理方面进行不断的改进和创新。二是大模 型训练面临计算处理能力瓶颈。大模型训练时需要 在 CPU 上执行复杂多阶段的数据预处理流程 , 包括 提取、转换、加载等,如何通过存储系统管理降低 CPU 的数据预处理负担是新的挑战。 因此,新型 AI 存力需要从数据全生命周期管理的角 度解决上述问题。一是基于全域数据管理发现无用 数据、冗余数据、热温冷数据等;二是提供数据分 布视图并指导用户进行数据存储的重新规划,减少 存储开销,同时支持数据和模型云边调度及推送能 力;三是构建全局虚拟数据总线,为 AI 平台提供全 局数据空间,以及安全、高效、易用的数据存力网络。

4. 安全挑战

运营商的人工智能计算中心是国家的重要基础设施, 是推动科研创新和工业发展的关键动力。AI 存力平 台是人工智能计算中心的重要组成部分,在安全保 障体系建设过程中,需要满足供应安全和自主可控, 包括国产控制 CPU、系统管理芯片、接口卡处理芯片、 固态硬盘控制芯片,以及自主可控的数据存储介质等, 从根本上保障 AI 先进存力平台的供应链安全。 AI 存力平台汇聚了海量数据和高价值大模型文件, 需要维护数据的机密性、完整性和可用性。一是在 应用层提供安全的开发环境,如账号安全性、数据 安全性、权限安全性、编码安全性等能力。二是在 系统层对使用的操作系统、数据库和中间件容器等 进行安全保护。三是在网络层对网络设备以及通信 提供保护。四是在管理层对系统维护、运作活动进 行监管和保障,确保系统安全的连续性。

通过各个层面的分工配合,可以为业务系统提供安 全、可靠、稳定的服务,并为客户提供资产安全保 障。然而,对于数据存储系统来说,还需要进一步 做好数据层面的防护。数据安全的威胁主要集中在 数据破坏、数据泄露和数据勒索等方面。为了防止 数据被破坏、被窃取和被勒索,需要有效地识别攻击, 并在受灾后恢复数据。

5. 节能挑战

运营商是实现“双碳”目标的重要力量,电信业 务系统的数据迁移会产生能源消耗,在业务全周 期内减少数据迁移次数,能够大幅优化能耗开销。 然而,当前 AI 业务系统内部的多类数据迁移操作 相互独立,缺乏对数据系统级和 AI 作业生命周期 级别的数据排布规划,导致数据迁移的代价较大, 严重影响了系统效率,消耗了大量的存储计算资源。 因此,如何在系统架构上减少低效数据处理和无 效数据迁移所带来的巨大能耗开销,是当前面临 的关键挑战。 在碳中和目标下,运营商节能减排和绿色转型势 在必行。面向未来的存力平台需要结合 AI 业务特 征进行能耗优化。一是宏观架构上存算协同,计算、 存储资源独立部署,通过高通量全局虚拟总线互联, 虚拟总线统一内存语义访问数据,实现计算、存 储资源灵活调度和利用率最大化。二是微观上存 算一体,减少数据非必要迁移,在数据产生的边缘、 数据流动的网络、数据存储的系统中布置专用数 据处理算力,根据业务支持算子下推,将其卸载 至 DPU、内存、盘控制器,提升数据处理效率。

参考报告

运营商AI先进存力白皮书:汇聚产业新动能,共创AI新时代.pdf

运营商AI先进存力白皮书:汇聚产业新动能,共创AI新时代。人类社会正在跑步进入通用人工智能时代。从AlphaGo到ChatGPT,人工智能领域的里程碑事件不断涌现,GPT-4首次展现极强的语义理解能力、内容生成能力和持续对话能力,这是一个新时代来临的标志。产业界纷纷加强大模型相关领域的研究,并推出一些新产品和新应用,传统信息产业生态正在被重塑。运营商作为ICT基础设施建设的主力军,迎来AI发展的新机遇。从对内网络业务角度看,大模型将会加速运营商网络智能化升级。首先,利用人工智能的分析、策略优化与预测等能力来赋能网元、网络等业务系统,有助于提升电信网络的智能规建、智能运维、智能管控能力。其次,通...

查看详情
相关报告
我来回答