AIGC数据存储解决方案及案例梳理

AIGC数据存储解决方案及案例梳理

最佳答案 匿名用户编辑于2025/02/10 13:31

AIGC数据存储解决方案采用分布式存储和备份归档作为存储底座。

1.IGC数据存储解决方案

AIGC数据存储解决方案采用分布式存储和备份归档作为存储底座。采用不同盘位的分布式全闪和混闪存储 与备份归档存储共同构建统一资源池,分布式并行存储的burstbuffer功能,能够智能识别热点数据,精准分 级。统一资源池和全局文件系统能保证数据跨介质、跨设备流动,防止形成数据孤岛,备份归档的存储特性则 保证数据的长期保存和耐久性,具备数据流动能力。

基于数控分离架构、内核亲和力调度、多任务并行无锁I/O和GPU直通存储等技术,当前方案可以读写速度 不同的存储介质作为AIGC不同阶段的存储池,满足全流程的数据读写要求。在高速存储池上,当前方案可提供 百GB/s的大带宽、百万级IOPS和毫秒级低时延,具备强大的数据处理能力。

从存储架构上,分布式存储可横向扩展,性能和容量线性增长,而随着存储单节点所容纳盘位数的增加和单 盘容量的增大,目前单存储节点的容量可以达到1.4PB-2.3PB。同时,此方案使用HDD作为海量数据低成本归档 存储介质,随着传统硬盘的存储密度近年来已经接近极限(约1Tb/in2 ,in表示英寸),存储采用新型存储技术,如叠瓦式磁记录(SMR)、二维磁记录(TDMR)、点阵式磁记录(BPMR)以及能量辅助磁记录,以降低冷数据归档存储 成本,具备强大的数据容纳能力。基于分布式存储架构和数据、元数据管理功能,则可对外提供数据并行处 理、模型分布式训练的数据管理能力。 存储系统发生故障时会导致数据读写操作失败、降低CHK读写性能,影响训练效率。字节级分布式锁、系 统故障快速恢复、系统故障预测和系统防护相结合,可以加快故障恢复、提前预测故障和进行系统防护,达到 为存储底座提供全方位保护的效果,保证数据安全。

基于分布式存储多协议融合互通的功能,该方案可实现同时支持文件、对象和大数据存储服务,对外同时 提供POSIX、NFS、CIFS、FTP、FTPS、HTTP、HDFS、S3和CSI等多种数据协议,实现不同协议下用户权限共 享、语义无损、性能一致,同时数据在存储池内仅保存一份,但是可以通过多种协议访问,避免不同协议下数 据的拷贝,节省50%的数据存储空间。而通过全局元数据共享技术则可以构建统一命名空间,支持跨平台、跨 形态、跨地域的全局数据管理,并对外提供统一的数据视图,用户可方便地检索任意位置系统的数据并进行访 问,在高速池上可实现10亿文件秒级检索,体现了此方案的数据共享能力。 综上所述,基于分布式存储和备份归档的AIGC数据存储解决方案具备数据流动、处理、容纳、管理、安全 和共享六种能力,满足数据采集、数据准备、数据训练、数据推理和数据归档五个阶段的存储要求,可以提供 端到端的数据支持,满足面向文本、音频、图像、视频、代码以及多模态和全模态的大模型数据处理的需求。

2.AIGC数据存储经典案例

2.1 案例一

项目背景: 上海某大学服务国家创新驱动发展战略,瞄准基础学科研究的前沿领域,推动学科交叉和科教融合,在光 子科学、人工智能、生物医药、能源科学等重大创新领域积极布局,是一所小规模、高水平、国际化研究型、 创新型的大学。该大学和某存储厂商合作以计算和存储为平台融合新技术应用,推进重大科研创新平台建设, 提升创新体系效能,加速科技创新,共同搭建跨学科多模态人工智能计算平台。面向多模态大模型训练,搭建 了跨学科技术研究的平台,满足了数字材料、生命制药、芯片制造、数字孪生、人机协作等多个研究方向的大 模型科研需求。

解决方案: 存储集群采用先进的全闪存分布式存储系统,提供高带宽和高IOPS,同时存储集群支持高冗余模式,即当 某节点出现故障时,可以自动切换至备用节点,提供存储系统的高可用性,保障科研平台数据不丢失,保证了 数据安全性和项目课题运行的持续性。根据后期业务的增长,长期存储系统在线横向扩展新的存储节点,系统 的性能和容量会随着节点数量的增加线性增长,为科研项目的持续研究保驾护航。

客户价值: 以上存储解决方案为计算平台提供超高的性能支持,可达400万IOPS和500GB带宽,满足大模型训练过程 中大规模数据读写的带宽需求,有效避免大模型训练过程中大量小文件token读取时延的问题,满足整个存储资 源的整体性能。同时,该方案可提供全数据生命周期管理的能力,实现数据按热度进行流动、提供热、温、 冷、冰四级存储介质,实现高效、节能的数据分级存储。在上层,智能化运维管理平台,采用AIOPS主动运维监 控、预测分析、提升管理效率、降低运维成本。以上功能特性满足AIGC模型训练场景下极低时延与极高IOPS需 求。满足跨学科领域研究的需求,为智慧医疗、智能感知、人机协同、数字孪生、材料发现、芯片制造、视觉 影像多个研究方向的大模型研究提供了安全可靠的数据存储底座。

 

2.2 案例二

项目背景: 随着AIGC大模型的快速发展,对于稀缺计算资源的需求越来越大,在拓展AIGC模型训练和推理时,如何构 建千卡、万卡大集群,考验的不仅是硬件的集成能力,更重要的是如何合理分配算力资源和存力资源,并最大化 释放算力。大模型的语料信息和参数越来越大,通过存储系统在多台算力节点之间交换数据的效率越来越重要, 低效的数据存取也将成为整个计算集群的性能瓶颈。同时,参与AIGC训练的海量数据特征复杂,对数据特征的操 作包括选择、提取、缩放等一系列特征工程,对提高模型的泛化能力至关重要,更好地管理数据特征是亟需解决 的问题。

解决方案: 某存储方案可以将各种异构计算汇聚,共享硬件资源(包括CPU、Memory、GPU、FPGA等),按需动态 构建各种AIGC计算框架、模型并行、算法并行并内置多种机器学习算法,实现算法推荐、自动构建模型、可视 化数据特征、优化模型训练,最大程度简化用户的工作;底层采用多套存储系统组合方案,根据数据类型不同 提供多种数据存取服务,全闪存并行文件系统提供超大带宽和极速海量小文件的处理能力;该存储数据管理系 统通过独特的数据感知引擎和分布式图引擎,为AI特征工程提供有效支撑。

客户价值: 该方案的平台配置的存储系统采取分级策略,配置一级高性能存储+二级大容量存储,实现数据在不同层级 间自由流转。存储模块全部支持多种存储类型,多种功能模块协同工作,打破单一软硬件技术壁垒,使业务运 行更加顺畅。并且该方案提供闪存存储空间300TB,存储吞吐可达100GB/s+。该解决方案配备高性能存储系 统,为用户提供强大、高效的数据存储空间和数据访问的能力,同时提供了多种数据特征提取、整合,多维度 动态组织数据集的能力,为用户“再创新,再发现”提供了强力的工具。计算模块提供了异构计算框架的兼容 能力,复杂流程的解析能力/并发能力和异构资源的高效利用能力。实现一套集群中多种业务并行,多种计算并 行,多租户共享。

2.3 案例三

项目背景: 某医学研究中心,主要业务为医学影像,如X光片、CT(计算机断层扫描)、MRI(磁共振成像)等的分析 和仿真影像生成,同时涉及多模态数据交互和跨模态生成。为满足大规模医学数据高效处理需求,该中心建设了 一个包含500个节点的算力集群,专门用于医学影像的深度学习训练和内容生成。为支持大规模模型训练和数据 处理需求,中心决定采用分布式存储系统作为后端数据存储底座,以同时满足高性能、海量存储、灵活扩展的要求。其中,配置了全闪存储集群来支持数百亿参数的医学影像生成模型的训练和推理,通过提供高性能存储解 决方案,保证训练、推理各个阶段数据传输效率和数据的安全性。 客户需要一套高性能的全闪存储系统,支持数百亿参数的医学影像生成模型训练,规划3PB全闪存储集群, 要求聚合带宽200GB/s,集群OPS达到350万。为了支持数据采集、预处理和归档,客户还需要一套大容量的混 闪存储系统,规划30PB混闪存储集群,要求性能达到50GB/s,集群OPS为135万。医疗数据的安全和隐私保护 至关重要,客户要求存储系统在保证高性能的同时,必须具备强大的数据安全和隐私保护机制。

解决方案: 为满足大规模医学影像生成模型训练的需求,提供一套3PB的全闪存储集群,与500节点的算力集群进行交 互。全闪存储集群主要负责支撑AI模型训练和推理流程,满足客户对存储集群带宽和OPS的高要求。针对数据采 集、预处理和归档阶段的需求,配备30PB的混闪存储集群。该集群采用多个独立资源池,分别支持大规模数据 的采集、预处理和归档存储。针对数据安全和隐私保护需求,通过数据传输和存储的加密以及严格的访问控制 和审计策略来确保。

客户价值: 数据预处理阶段有大量医学影像数据需要快速上传和预处理。通过优化数据路径,减少数据传输路径中的 瓶颈,提高上传和预处理速度。通过并发优化算法,提升多客户端同时上传和处理数据的效率(上传速率和性 能),利用智能缓存技术,加快常用数据的访问速度,高并发上传和智能缓存技术使数据处理时间节省30%。 模型训练阶段深度学习模型训练需要高性能存储系统,训练过程中需要频繁读取和写入大量数据,因此需要较 高的吞吐性能,3PB全闪存储集群支持高带宽和高OPS,满足深度学习模型训练需求。数据分片和并行处理技术 通过将大文件分成多个小块存储和处理,提高数据存储和访问效率。通过内置的智能调度算法自动调整存储资 源分配,确保高性能需求的训练任务顺利进行。通过全局去重技术,减少重复数据存储量,提升存储利用率。 全闪存储集群优化后,聚合带宽达到250GB/s,OPS超过400万,训练和推理效率提升110%。多层次的数据保 护机制确保医疗数据的安全性和隐私保护,提升系统的合规性和可靠性,确保了研究中心医疗影像数据安全的 相关保密规定得到严格落实。

参考报告

AIGC数据存储技术研究报告.pdf

AIGC数据存储技术研究报告。软件定义存储成为数据基础设施领域的关键技术。数字经济时代,数据是数字经济的新型生产要素,在作为劳动工具赋能其他生产要素的同时,数据还可以作为劳动对象展现本身的经济价值。存储设备是数据的最终物理载体,是行业、企业和用户数据的保险柜。业务需求和计算技术的更新推动存储设备向高扩展、高性能、快迭代的方向演进,软件定义存储凭借横向节点扩展、性能近线性增长和软硬件技术快速迭代的特点成为数据基础设施领域的关键技术。分布式融合存储是软件定义存储的发展趋势。早期的软件定义存储,一套集群只能支撑一种数据的读取和写入,对外提供一种服务,数据存储在单一介质中。随着数字经济的发展,一套作业...

查看详情
相关报告
我来回答