以下总结了不同类型数据库支持数据能力建设的现状,分析 创新发展需求,并提出下一步发展建议。
1.不同类型数据库助力数据能力建设取得积极成效
一是数据仓库高效支持金融机构数字化经营。由于数据仓库 可对异构源数据进行有效集成,面向数据分析场景,支持全局信 息共享和决策分析处理,从而受到金融机构的青睐。金融机构通 过建设数据仓库进一步加强对不同业务部门数据的集中存储管 理,为数据存储、处理、质量管控和安全管控等提供支持,满足 快速增长的海量数据处理、高可用、弹性扩展、动态负载管理、 融合分析等应用需求,并基于相关算法、模型、工具,支持数据 价值挖掘、分析应用,在精细化客户管理、风险管理、精准营销、 智能化决策等不同业务场景中发挥高效作用。
二是非关系型数据库为金融机构数据能力建设提供新助力。 近年来,非关系型数据库在海量、复杂关系、多维的数据管理和 分析处理中因为查询速度快、高可用、高可扩展性等优势,在金融业实现了较快的创新应用。其中键值数据库因数据类型丰富、 高吞吐量、低时延而被大家熟悉,在海量并发场景可为业务提供 极致的访问体验。图数据库由于能更好表达数据之间的复杂关联 关系,构建包含实体、事件、概念之间关系的图模型,进行复杂 的路径分析、社区发现、链接预测等,相比关系数据库能够更好 地展现和处理这类数据,在反欺诈、合规风控、投资信贷决策等 场景进行了较多应用探索。向量数据库针对机器学习和深度学习 中数据的向量表示形式,能实现快速查找和检索,在量化交易, 智能风控,个性化投资组合管理以及智能客服、数字人、情感分 析、新闻事件挖掘等自然语言处理的不同金融场景中开展应用探 索。总体来看,非关系数据库在海量文件存储、灵活快速查询、 大数据统计分析、分析决策报表、实时分析、高速缓存、影像图 片数据管理、指标标签管理等领域发挥越来越重要的作用。
2.金融业数字化快速发展对数据库提出新需求
一是金融业数字化转型深入推进对数据仓库的功能、性能、 扩展性和安全性提出更高要求。在功能方面,要求承载数据仓库 的数据库系统要支持更大规模的数据存储管理、服务时效性、混 合负载能力等。其中存储范围上要容纳海量的内外部结构化数据, 还要支持对数据湖等系统中存储的非结构化数据和半结构化数 据进行有效管理和高效访问。数据服务要支持批量服务和实时服 务,特别是对分布式架构下 OLTP 与 OLAP 业务融合越来越多的场景,对混合负载(HTAP)能力提出更高要求。在性能方面,金融 企业级数据仓库处理的数据量巨大、查询条件复杂、服务的业务 类型和业务人员众多,对查询、响应效率,高并发、批量加工作 业时间窗口等提出了更高的要求。在扩展性方面,随着金融数据 量不断爆发式增长,数据的存储、计算需求会随之快速增长,是 否具备便捷的扩展、伸缩能力成为金融机构对数据仓库的刚性需 求。在安全性方面,要具备数据丢失或损坏时的恢复能力、对敏 感数据的保护能力、以及对人为有意或无意的误操作的隔离能力, 确保数据和系统的安全。
二是数字金融快速发展对非关系型数据库提出更多需求。随 着数字金融快速发展,数据规模迅速增长,金融机构对海量数据 的深度分析、事务间的复杂关联分析、数据随时间的变化分析越 发重要;人工智能和深度学习技术和应用的迅速发展,使科学计 算中的高维向量数据、影音/图片/文档等多媒体的非结构化数据 大幅度增加,存储管理这些多模态信息需求也快速增加,都对非 关系型数据库提出更多的应用需求。其中,键值数据库需要解决 海量并发中热 key 带来的性能挑战,权衡性能和数据一致性的影 响,进而提供满足不同业务场景的高性能方案。图数据库需要适 应目前金融业应用中标准化程度不高、复制性不强的实际,进行 灵活创新应用;同时,不同应用场景对不同架构的图数据库需求 差异较大,要求图数据库具备集中式处理和分布式加工两类处理 模式的优势,以适应复杂的业务需求。而向量数据库要降低处理金融数据高维特征对性能带来的影响、平衡成本与性能要求,满 足数据处理和查询的高实时性要求,对敏感数据进行安全防护, 确保数据安全和隐私保护。
3分类推动各类数据库应用创新促进数据能力提升
一是加大数据仓库技术创新,不断提升金融机构数据能力。 通过利用 MPP 架构、列存储、智能索引、向量化计算等多种技术, 提升在大数据量、多表关联复杂计算的能力,提升数据吞吐量和 查询计算效率,减少业务决策的停顿等待时间,优化查询能力。 利用湖仓一体架构、存算分离架构,满足结构化、非结构化数据 存储和计算的多源融合需求,打通多种数据库之间的壁垒,支持 构建统一的数据分析平台,满足大数据量、高并发的数据查询请 求,为不同的业务弹性分配所需算力,提升数据吞吐量、并发能 力。
二是利用 HTAP 技术助力混合负载类业务系统建设。OLTP 与 OLAP 并存是金融业应用系统常见的场景。在传统 OLTP 类型数据 库中,虽能保证高并发读写下的数据强一致,但是在多表关联、 大数据量下的数据分析场景中表现稍显薄弱,尤其是在分布式数 据库场景下。通过在 OLTP分布式数据库上发展的 HTAP 关键技术, 实现一套引擎同时支撑业务系统运行和分析决策场景,避免在传 统架构中,在线与离线数据库之间大量的数据交互,为混合负载场景的应用系统开发提供了便利,大幅提升面向复杂查询场景的 处理能力。
三是分类推动不同非关系型数据库应用发展。目前键值数据 库在金融业的应用较多,在应用时可针对不同的数据规模和业务 场景,合理选择分布式集群和读写分离架构,以满足海量并发场 景的处理能力和业务访问体验需求,同时加大键值数据库的高可 用架构建设,为业务稳定、连续运行提供强有力的保障。对正在 快速应用图数据库,注重高效的图数据处理能力、大规模图数据 分析能力、可视化和全生命周期的管理能力的提升;使用标准的、 符合未来发展方向的图查询语言,采用支持 ISO GQL 标准语言的 图数据库产品,提升图数据库的标准化水平;针对不同阶段和业 务场景,合理选择单机架构或分布式架构图数据库,进行合理的 资源投入和架构设计。对于向量数据库,针对高维数据,选择合 适的向量索引方法,以优化数据的查询性能;对于高维向量数据, 进行必要的降维或特征选择,以减少数据存储和处理的复杂性, 并提高数据处理效率;考虑使用并行计算、分布式集群部署、压 缩技术,以满足金融数据大规模处理和实时查询的需求,减少高 维向量数据的存储成本。