我将从以下三个方面来分析国产数据库的创新方向。
1.看架构:分布式成重要趋势,云数据库打开更大市场
按照架构模式进行分类,数据库可以分为分布式数据库和集中式数据库。这种分类方 式的诞生,一方面是由于传统集中式数据库缺乏扩展性,为了实现扩展而出现了分布式数 据库,另一方面,是缘于云技术和网络技术快速发展,推动分布式技术升级,形成新型分 布式数据库。集中式数据库由一个处理器、与它相关联的数据存储设备以及其他外围设备 组成,将数据集中在一台机器上进行处理,被物理地定义到单个位置。典型代表有 Oracle、 DB2、人大金仓、武汉达梦等;分布式数据库采用分布式架构,将数据在网络上分开储存 于多个机器中进行处理。分布式数据库是一个数据集合,这些数据在逻辑上属于同一个系 统,但物理上却分散在计算机网络的若干站点上,并且要求网络的每个站点具有自治的处 理能力,能执行本地的应用。分布式数据库典型代表如谷歌的 Google Spanner、阿里巴 巴的 OceanBase、华为的 GaussDB 等。

硬件架构:数据库硬件架构主要有完全共享、共享内存、共享磁盘和无共享四种。完 全共享(Shared Everything)模式拥有完全透明共享的 CPU、内存和磁盘,属于集中式 数据库的范畴,天然具有较好的 AICD 事务性,但扩展性和并发性较差;共享磁盘(Shared Disk)和共享内存(Shared Memory)模式允许增加内存节点和磁盘节点以提高并行处理 能力,但是随着数据体量的爆发式增长,共享磁盘的接口数量容易达到上限,共享内存的 内存访问和网络带宽之间冲突增强,系统处理速度将会遭遇瓶颈。无共享(Shared Nothing) 模式下每个节点具备独立的 CPU、内存、磁盘,每个处理单元独立运行,各单元之间通过 协议通信。无共享架构具备良好的扩展能力和并行处理能力,从 MPP 数据仓库时代起逐 渐得到广泛应用。随着硬件成本的下降,无共享模式已逐渐成为分布式硬件架构的主流。
主流应用:通过无共享架构实现的分布式架构已成为大数据管理的主流解决方案。数 据量的爆发式增长以及应用负载的快速增加使得传统单一服务器架构的集中式数据库出 现瓶颈,包括传统集中式数据库厂商、新兴厂商在内的各类玩家均开始探索数据功能的分 布式实现。三种分布式架构中,无共享架构凭借高可用性、高扩展性、低带宽要求等优势 已成为分布式架构的主流解决方案。
技术实现:分布式架构的实现方式将逐渐从借助中间件向原生分布式过渡。分布式架 构的实现路径包括借助中间和原生分布式两类,其中原生分布式包括共享存储分布式数据 库、去中心化的分布式数据库,不同技术路线产品各有千秋。分库分表+中间件的模式相 对成熟,但整体依然基于单机数据库的存算性能,依托中间件进行数据分配和任务管理, 在并发性和扩展性上仍有局限。原生分布式实现了存储层、计算层的全面分布式改造,但 目前技术成熟度相对较低。
技术内核:从存算一体到存算解耦,硬件成本的降低和网络带宽的提高保障分布式架 构的实现。20 世纪 80 年代,Oracle 推出了首款数据库产品。彼时服务器硬件成本高昂, 硬件算力、存储、网络带宽都十分有限。因此数据库产品在优化过程中难以依托服务器之 间的信息交换,而是聚焦于在单服务器的 CPU、内存、磁盘固定配置下进行极致优化。因 此在软件架构的设计中,存储与计算高度耦合,其核心思想是通过存算一体实现性能的极 致优化。随着硬件成本的大幅降低和网络带宽的大幅提高,通过集群服务器的硬件设计, 联合多个节点进行协议通信以实现分布式计算成为可能。软件算法的设计无需再基于存储 和计算的深度绑定,存算解耦的思想为分布式的实现提供了更多想象力。

分布式数据库的“资源池化”思想与云计算的“按需服务”理念具有异曲同工之处, 天然满足云原生的需求。分布式数据库迁移到云计算平台后可以轻松实现数据与业务的分 离、存储与计算的分离。云数据库可以相对不受限制地实现基础设施资源的调动,以满足 上层对于高扩展性、高并发、高吞吐量、灵活配置的需求。因此,云数据库在成本、可用 性、易用性、扩展性和并行处理方面较传统数据库有绝对优势。但同时,由于现阶段云数据库产品仍处于相对不成熟阶段,且市场的普遍存在公有云和私有云的混合部署需求,云 数据库在数据迁移、数据质量、性能优化和规范标准方面仍有局限。
在未来,上云需求将持续为数据库市场带来增量。IDC 数据显示,2021 年我国关系 型数据库中,公有云部署的市场规模增速已经超过本地部署的增速,预计从 2022 年开始 二者的增速差将进一步拉大。IDC 预测,未来三年关系型数据库中云数据库的市场规模增 速有望保持在 40%左右,而本地部署模式的规模增速仅为 20%,云数据库的市场份额有 望进一步提高。
2.看模型:关系型与非关系型长期共存,重视多模型能力构建
数据模型先后经过了层次模型、网状模型和关系模型的变迁,互联网的兴起推动非关 系模型和 NoSQL 数据库登上历史舞台。20 世纪 80 年代以来,结构化的关系模型始终占 据市场主流,随着 Web2.0 的繁荣非结构化和半结构化数据(如日志、图片、文档、音视 频等)出现爆发式增长,面向非关系型数据的 NoSQL 数据库开始走向市场,区别于关系 数据库,它们往往不保证关系数据的 ACID 特性,对于超大规模和高并发数据具有较好的 处理能力。NoSQL 数据库种类繁多,数据之间无关系,容易扩展。NoSQL 数据库具有非 常高的读写性能,尤其在大数据量下,主要在于它的无关系性,数据库的结构简单。目前 对于非关系型数据库主要有四种数据存储类型:键值对存储(key-value),文档存储(document store),基于列的数据库(column-oriented),图形数据库(graph database)。

放眼全球:从市场反馈来看,多模型数据库更受企业青睐,企业用户关注平台的兼容 性与可扩展性。DB-Engines 发布的 2022 年 10 月数据库管理系统流行程度排名显示,排 名前 8 的数据库管理系统均为多模型数据库,支持文档模型,键值模型,图模型等多种数 据模型。而随着排名逐渐靠后,多模型数据库的比重也逐渐下降,排名 11-20 的数据库管 理系统中仅有 5 个多模型数据库。由此可见多模型数据库受企业欢迎的程度更高。国内公 司凭借对于主流数据模型更高的兼容性,有望在非关系型数据库领域与国际厂商同台竞争, 凭借大数据基础平台等核心产品实现国产替代。
聚焦国内:非关系型数据库占比呈现上升趋势,关系型数据库在市场规模和产品数量 上仍占据主流。智研咨询数据显示,2018 年我国关系型数据库市场规模占比高达 85%,但 呈现逐年下降趋势。综合多方关于我国数据库市场规模的数据(中国信通院、IDC、艾瑞咨询),2021 年我国关系型数据库市场规模占比约为 60%。中国信通院数据显示,截至 2021 年 6 月,我国关系型数据库的产品数量占比约为 60%。
我们认为,非关系型数据库与关系型数据库长期共存,具备多模型兼容能力者有望胜 出。根据 IDC、艾瑞咨询、中国信通院对于未来我国数据库市场规模的增速预测,未来关 系型数据库仍将占据主流市场,但非关系型数据库也将成为行业生态中不可或缺的一部分, 二者将长期共存。处理半结构化、非结构化数据的治理水平或将成为未来衡量数据库厂商 能力的重要指标之一,具备多模型兼容能力者有望胜出。

以国产大数据厂商星环科技为例,旗下核心大数据基础平台(TDH)中包含 9 种独立 的存储引擎,支持业界主流的 10 种存储模型。相关核心子产品主要包括关系型分析引擎 Inceptor、宽表数据库 Hyperbase、图数据库 StellarDB、搜索引擎 Scope、时空数据库 Spacture、时序数据库 TimeLyre、键值数据库 KeyByte、事件存储库 Event Store、文档 数据库 DocStore,对于多模型的兼容能力相较于海外主流厂商存在优势。
TDH 的多模型实现路径相较于其他主流产品具备优势。传统的多模型实现路径包括为 每一种新数据模型开发独立完整的存算策略、用单一存储引擎支撑多个存储模型、在多种 独立数据库之上提供统一的用户界面等,这些策略暴露出存算资源消耗过高、存储引擎与 存储策略不匹配、语言不一致提高开发难度等问题。星环 TDH 通过提供统一的 SQL 编 译器层,统一的分布式计算引擎层 ,统一的分布式数据管理系统层以及统一的资源调度 层,将不同的数据库架构在统一多模型数据平台中,跨库的关联分析不需要额外的数据导 出导入过程,避免了数据冗余。同时 TDH 提供 9 种独立的存储引擎子产品,用户可以根 据业务的需要,随时增减不同的存储引擎,做到资源按需分配。
3.看生态:开源闭源并存发展,共促商业化生态繁荣
开源即开放源代码,用户拥有基于源代码进行修改的权利。虽然源代码一般均免费提 供给使用者,但开源系统的版权依然受到法律保护。开源软件标准权威发布机构 OSI (Open Source Initiative)发布的对于开源的定义及要求主要包括如下三个方面:
内容方面:开放的源软件必须包含源代码,且必须确保源代码可被理解和可被运用; 不得故意混淆源代码;开源代码需以源码或编辑后文件的形式传播。允许用户对开源项目 及其他衍生分支进行修改,且必须允许其按照与初始软件相同的许可证发行。 传播规范方面:开源许可证不能限制开源软件的再传播,不得利用此条件进行收费。 必须允许更改后的源代码所建立的程序发行许可证。当且仅当开源软件配合补丁文件一起 发布时,开源许可证才可以限制源代码以修改后的形式发行。开源许可证不得限制其他铜 许可软件一起发行的其他软件,不得限制特定软件的项目内容。 公平性、中立性准则:开源项目不得歧视任何研究领域、个人或团体。所有获得该项 目的主体拥有所有附加到开源项目上的内容的使用权,无需当事方执行额外许可。开源许 可必须独立于技术,不应指定任何特定的技术或接口。

从数据库厂商的视角来看,积极开源有助于构建服务生态,提高产品迭代速度和适配 能力,及时捕捉用户需求的同时降低开发成本。通过构建开源生态社区,数据库厂商一方 面可以依托广泛的开发者群体提高产品创新效率和迭代速度,节省自身开发成本和下游客 户的 IT 成本,另一方面可以更加敏锐地捕捉新兴需求,并基于此迅速迭代产品抢占市场, 亦可通过开源社区提高品牌影响力和行业话语权。
从用户视角来看,开源不同于免费,选型采购阶段的成本将转移到后续的开发部署和 运维使用阶段。对用户来说,采用开源数据库可以一定程度节约选型采购阶段的 license 费用,但同时对于自身二次开发的能力提出了较高要求,数据库的部署、运维、迁移、配 套升级等环节需要开源厂商提供数据库服务,也需要额外的人力投入和资金投入。此外, 用户由于缺乏相关领域的重复实践经验,在应用场景和性能的扩展能力上可能不及直接采 购商业数据库。因此政务、金融等对于数据安全性、一致性要求更高的场景倾向于使用商 业数据库,越来越多厂商开始尝试“开源+商业”的混合策略。
我们认为,开源与商业并不冲突,未来国内数据库厂商将呈现出开源和商业共同繁荣 的格局,数据库厂商将在积极拥抱开源生态的同时,兼顾自主可控及商业化需求。一方面, 在传统数据库领域,我国相较于海外龙头企业仍有差距,开源生态能够帮助国内厂商更加 快速实现追赶;另一方面,近年来数据库领域持续迸发出新技术、新应用、新模式,参与 开源项目能够帮助企业更快把握技术革新与市场机遇,实现生态构建的正向循环。此外在 信创大背景下,开源生态能够促进国产数据库上下游的适配能力,加快自主可控的步伐。