AIGC场景下对数据存储的多样化需求促使数据存储技术进一步发展以适应其要求,具体来看,AIGC场景下 数据存储的应对技术可以从六个维度进行论述。
1.数据处理技术
(1)数控分离 AIGC应用在数据处理阶段对存储系统的访问性能有极高的要求,包括数据采集、训练、推理阶段的海量小I/O密集读写和大文件读写等场景。存储系统采用数控分离架构,通过将I/O的控制面和数据面解耦合,控制面 主要负责管理数据的属性信息,如位置、大小等,通过优化逻辑控制和数据管理算法来提高存储系统的访问效 率和数据一致性。而数据面则直接负责数据的读写操作。将数据管理流和数据传输流进行分离,分别在不同的 I/O路径进行处理,各存储节点在收到数据访问请求后,即可与客户端之间直接建立连接发起数据传输,大幅降 低了数据传输流在节点间东西向的转发操作,可极大地降低由于数据在存储集群节点间转发所带来的网络和系 统处理开销,提高系统访问性能。

(2)内核亲和力调度 在当前的AI基础设施平台中,计算服务器配置非常高,更高性能的CPU和更多的插槽数带来了NUMA (Non-Uniform Memory Access)节点数据的增加。在多核处理器环境下,会产生大量的跨NUMA远端访 问。在未经过NUMA均衡的存储系统中,存储的缓存空间集中在单个NUMA节点内存内。当I/O 请求量增大时,所有其他NUMA节点的CPU核的数据访问均集中在单个Socket内,造成了大量跨Socket、跨 NUMA访问。这不仅导致了CPU核的超负荷运载和大量闲置,还使得单次远端NUMA节点访问造成的微小时延累 积,进一步增大整体时延。为了降低跨NUMA访问带来的时延,通过内核亲和力调度技术,在数控分离架构下 使内核客户端可自主控制数据页缓存分配策略并主动接管用户下发的I/O任务。这种方式能够更加灵活地实现各 类客户端内核态到远端存储池的数据移动策略。其中,针对不同的I/O线程进行NUMA感知优化,将业务读线程 与数据自动分配到相同的NUMA节点上,使所有数据均在本地NUMA内存命中,有效减少了高并发下NUMA节 点间数据传输,降低了I/O链路时延并提升内存访问效率,保证各NUMA节点的负载均衡。
(3)小文件聚合 小文件聚合也是AIGC场景下实现文件性能加速的重要手段。具体来看,第一,写入过程。首先,小文件写 入时先进入到快速层,介质是快于HDD的NVME或持久内存,配置的EC或副本模式也更快速,对数据进行落 盘,并记录元数据;然后,文件拼接后形成4MB-10MB的大文件落向HDD层,如果聚合模块中的数据需要释放 时,更改元数据文件,使其数据索引到HDD位置,整体过程根据文件的尺寸不同提升小文件5-10倍的性能。第 二,读出过程。根据数据所在位置分别从聚合层和HDD层读取, EC算法支持从单分片中读取,读取通常不受影 响,同时并发性能也会随之提高。第三,GC过程。如果数据删除过多或产生空洞,后台需要进行GC的数据整 理。GC过程的常用方法有两种:一是搬移数据,搬移数据可以重新排列得到更多的可用空间利用率,但是大量 的搬移则会占用带宽和资源,适用于删除一次就删掉了大量数据且需要重新排布的数据较少的场景;二是对空 洞管理的方案,根据空洞的管理进行聚合,性能比较稳定,但是磁盘空间利用率低,适用于少量删除或整体文 件尺寸比较平均一致的场景。
2.数据容纳技术
(1)高密硬件设计 数据存储中的高密硬件设计包括高密硬盘设计、免工具设计、高性能接口、高效散热设计、简易维护设计 等。分开来看,高密硬盘布局可以在有限的机箱空间(如4U或5U高度)内,通过优化硬盘布局和排列方式最大 化硬盘数量;免工具设计,旨在方便拆卸,大大缩短运维时间成本,如HDD硬盘框抽屉设计,支持单独抽出维 护(内滑轨+坦克链);高性能接口技术,如PCIe 4.0转SAS 4.0、PCIe 5.0 SI设计等,能够支持更高的带宽和 更低的延迟,满足AIGC等高性能计算场景的需求;高效散热设计,如优化气流通道、使用高性能风扇和散热 器,以及通过智能温控技术配合先进的风冷系统,可以实现最佳工作环境,保障系统稳定运行;简易维护设 计,如BMC技术,技术人员可以通过Web管理界面、故障诊断LED等指引设备,并可通过UID指示灯标记有故 障的机器,提高系统可用性。
(2)大容量存储介质 在大容量存储介质方面,QLC NAND的崛起为大容量存储介质的发展提供了契机。QLC NAND闪存每个存 储单元可记录4个位的数据,相比传统的SLC、MLC、TLC,具有更高的数据密度,能够在相同空间内存储更多 的数据。由于QLC技术的快速发展,当前NVMe SSD最大容量已经超过百TB,大大提升了高速存储介质的存储 密度。同时,X-NAND等关键技术的诞生,也缓解了采用ALC介质所带来的性能下降问题,提升TLC/QLC的性 能,进而加速QLC的普及。而在数据的备份归档阶段,HDD仍然是主要的选择之一,在HDD内部,通过改进磁 记录技术,如采用垂直磁记录(PMR)和叠瓦式磁记录(SMR)技术,可以增加磁盘表面的存储密度。对于以 读取为主的冷数据存储场景,这种介质能够在同样的盘片数量下实现更大的存储容量,满足AIGC系统中大量历 史数据和模型参数的存储需求。
(3)数据压缩和重删 数据压缩本质是通过使用算法和技术减少数据存储或传输过程中所占空间或带宽的过程。传统的数据压缩 算法包含了无损压缩(如Huffman编码、LZ系列编码等)和有损压缩(分形压缩、小波压缩等),以上算法和 技术很难满足AIGC场景下量大、类多、速度快的数据的压缩需求,新的数据压缩技术顺势而生。混合列压缩 (HCC)技术以块的形式组织数据,同时利用行存储和列存储的方法存储数据。数据一旦被定位,一个行集合 中的列值会被分组到一起,然后将其进行压缩,待压缩完成后数据会被存储到压缩单元中。利用HCC技术的仓 库压缩和存档压缩都取得了高效的压缩比,其中,仓库压缩在典型情况下可以提供10:1的压缩率,存档压缩 比可以达到15:1,极大的节省了存储空间。此外,存储系统支持基于固定长度数据块或可变长度数据块的重 复数据判断和删除机制,通过SHA256等算法计算数据指纹表记录数据特征,当有相同指纹特征的数据写入时 只保留一份数据,将重复数据删除,其中基于可变长度数据块计算的指纹信息更加灵活和精确,可支持更高的 数据重删率。通过数据重删技术可在重复数据占比较高的数据类型存储时显著节省存储空间。
3.数据管理技术
(1)全局文件系统 在AIGC数据采集阶段得到的数据来源广泛、格式多样,存储需要提供不同的接入协议,在数据训练和数据 推理阶段产生的高价值数据需要在温冷存储介质中长期保存,以及在异构存储或跨地域存储系统之间迁移和保 存。大规模AIGC训练集群可能需要分布在不同地域的多个智算中心的集群间进行数据协作,分享某个阶段训练 完成的数据,通过存储系统的全局文件系统管理能力,可支持数据在跨地域的存储系统之间以及不同存储介质 之间自动流动,并支持按照设置的策略对过期数据自动删除,实现数据高效管理。同时全局文件系统支持基于 全闪存介质构建缓存加速层,提高系统整体的访问性能。
存储系统管理本地存储和后端冷存储介质中的全量数据及元数据,采用全局统一的元数据管理机制,全局 文件系统与后端存储之间的元数据同步可采用快照或日志方案。快照方案通过snapdiff获取两个快照间变更的 inode列表,再遍历读取每个inode的详细元数据后对比元数据的差异,将差异部分进行同步更新。日志方案则 需记录每次元数据变更的日志,通过重放日志的方式在另一套存储系统中将元数据构建出来,实现元数据的同 步。从而保证全局文件系统与后端存储之间元数据的一致性。 通过全局元数据共享技术构建全局统一命名空间,对外提供统一的数据视图,可视化呈现热冷数据的分 布,检索系统任意位置的数据并进行访问,在高速池上实现海量百亿级文件秒级检索。
4.数据安全技术
(1)故障恢复 故障恢复技术通过多副本和纠删码算法实现数据的冗余保护,这与中国传统医学中的逻辑理念不谋而合,即 “治已病”。存储系统的K+M纠删码级别有:K+1、K+2、K+3和K+4,其中,K代表数据块的数量(K≤32),M 代表校验块的数量(M≤4),即在不发生数据丢失的前提下,系统所允许的同时发生故障的节点数或硬盘数。例 如,K+2允许系统在不同的节点上故障两块硬盘,或故障两个节点。系统不仅能支持硬盘级的故障,而且还支持 机柜级或节点级的故障。只要系统中同时故障的节点数不超过M,系统就可以持续提供服务。通过数据重构过 程,系统可以恢复出损坏的数据,保证整个系统的数据可靠性。并且存储系统支持按用户需求指定机柜级或节点 级的故障域策略,系统按设定的故障域策略可灵活调整数据分片的分发和存储策略,机柜整体故障或机柜内节点 故障时,如故障范围在冗余规则内,则集群业务不受影响,故障时间内的数据读写不受影响,故障消除后会自动 对数据进行重构恢复。
(2)故障预测 与故障恢复不同,故障预测是要对可能发生的故障进行精准预测来实现对数据保护,即“治欲病”。存储周期性的亚健康状态检测,提前诊断并发现系统仍在正常运行但已存在故障隐患的亚健康因素,推送至管理平台 提示系统管理员提前介入处理,确保系统故障隐患提前排除。另外,存储管理平台通过智能运维AIOPS算法实现 系统容量、系统性能、SSD硬盘寿命和HDD硬盘故障的精准预测,在容量接近阈值或性能下降波动前提前上报预 测。并通过机器学习算法和海量数据样本分析,对存储系统全部SSD和HDD硬盘的健康状态参数进行周期性收集 分析,结合硬盘的失效模型对SSD寿命和HDD盘故障给出精确的预测结果,保障存储系统长期稳定运行。
(3)数据安全防护 故障预测、故障恢复和数据安全防护构成了对数据安全的全方位保护体系,数据安全防护更强调在“治未 病”中的保护作用,通过数据加密和防病毒技术实现数据保护。具体来看,数据加密是指存储系统支持数据传 输加密和数据存储加密技术,使数据在传输过程到写入落盘的全过程都保持密文状态,防止数据被窃取篡改。 对敏感数据的访问拥有认证、授权或加密机制,对于认证凭据的安全存储,在不需要还原明文的场景下,使用 不可逆算法加密。通过加密机制确保了即使非法窃取物理磁盘也无法获取实际数据,保证非法途径无法获取明 文数据。在读取数据时通过加密密钥解密后返回给客户端,保证数据在解密后内容不发生变化。加密算法支持 标准AES加密算法及国密SM4算法等,满足客户不同的加密要求。防病毒技术的实现主要通过对系统读写IO的实 时捕获并进行IO行为特征分析,与病毒库样本对比校验,系统可发现正常的IO读写行为与勒索软件/恶意软件的 行为差异,及时侦测出异常访问行为,将存疑文件及时隔离并上报告警。另外也可通过机器学习模型,对未和 病毒库匹配的可疑IO行为并结合已知病毒样本的特征进行分析,提高病毒拦截的准确率,确保数据安全。
5.数据共享技术
(1)多协议融合互通 存储系统支持文件、对象、大数据等非结构化数据协议的融合互通和全局命名空间,减少数据在AIGC训练、 推理过程不同阶段的重复存储,并支持数据的跨协议、跨区域、跨系统调度能力,提高系统的数据处理效率。 存储系统采用统一的增值特性配置、统一的分布式存储池,保证了各种协议共享同一份数据和元数据,各种 协议访问过程中无需数据转换和拷贝,并且为每种协议提供原生语义服务,每种服务均可直接访问,无需安装网 关或插件,也无需在计算侧或应用层改造。实现了非结构化协议数据的融合互通,一份数据多种协议共享,语义 无损和性能无损,提升了数据处理效率,降低了存储成本。其中基于统一的数据访问接口和元数据管理的架构设 计,对外提供统一的增值特性服务,在NFS、CIFS、HDFS或S3协议中的一种协议下设置了某个高级特性后对其 他协议都同时生效,支持不同数据协议下统一的高级特性配置。并且不同协议下对同一个文件共享同一份数据和 元数据,不同协议访问的数据和元数据为同一份。 从数据流动角度看,AIGC开发场景需要处理、提取甚至拷贝海量且类型多样的数据,因此多协议融合存储是 必要的选择,支持NFS、CIFS、POSIX、HDFS、S3等多种访问协议访问同一存储池内的同一文件,避免因访问协 议不同造成的数据拷贝,极大提高数据访问和处理效率。