数据库架构、分类、市场规模及发展趋势有哪些?

数据库架构、分类、市场规模及发展趋势有哪些?

最佳答案 匿名用户编辑于2023/09/04 14:35

非关系型数据库增长提速,云化与向量化大势所趋。

1、简介:关系型数据占主要地位,非关系型提速增长

数据库是指长期存储在计算机内的、有组织的、可共享的、统一管理的大量数 据的集合。从架构上看,数据库作为计算机三大基础软件(操作系统、数据库、 中间件)之一,向下可充分发挥硬件算力,向上支撑上层的应用需求,是信息系 统高效运行的关键基础。而数据库管理系统(Database Management System)是 指操纵和管理数据库的大型软件,负责搭建、处理、维护数据库的数据及数据间 逻辑关系。数据库管理系统通过有效使用计算机的CPU、内存、磁盘等资源,管 理一个或多个数据库,涉及对数据的增删改查。

20 世纪 60 年代以来,数据库经历了网状/层次型数据库,关系型数据库,NoSQL (非关系型)数据库,NewSQL 数据库四个发展阶段。

从分类来看,数据库按数据组织架构可分为关系型数据库、NoSQL(非关系型 数据库)、NewSQL 三大类,是主流的数据库分类方式。此外数据库可按部署方 式分为本地部署、云部署;或按架构类型分为单机、集中式、分布式;或按业务 负载特征分为 OLTP(Online Transaction Processing 联机事务处理过程)、OLAP (OnLine Analytical Processing 联 机 分 析 处 理 ) 、HTAP(HybridTransactional/Analytical Processing 混合事务和分析处理)。

关系型数据库:关系型数据库模型是将复杂的数据结构用较为简单的二元关系 (二维表)来表示。在该类型数据库中,对数据的操作多建立在一个或多个表格 上,可以采用结构化查询语言(SQL)对数据库进行操作。关系型数据库是目前 主流的数据库技术,其中具有代表性的数据库管理系统有:Oracle、DB2、SQL Server、MySQL 等。

非关系型数据库(NoSQL):非结构化数据量的激增与 Web 2.0 网站的兴起凸显 了传统关系数据库在扩展性和灵活性方面的劣势,即无法处理大规模高并发非结 构化数据,NoSQL 应运而生,以解决大规模数据集合及多重数据种类带来的挑 战,具有高灵活性和可扩展性。NoSQL 所采用的数据模型并非关系型数据库的 关系模型,而是类似键值、列簇、文档等的数据模型,打破了长久以来关系型数 据库与 ACID(原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation) 和持久性(Durability)理论大一统的局面。

从分类来看,非关系型数据库可分为图形数据库、文档数据库、列式数据库、 键值数据库和向量数据库:

1)图形数据库专门用于存储和导航关系,使用节点来存储数据实体,并使用边 来存储实体之间的关系。边有一个开始节点、结束节点、类型和方向,可以描述 父子关系、操作、所有权等。一个节点可以拥有的关系的数量和类型没有限制。 图形数据库中的图形可依据具体的边类型进行快速遍历,或者也可对整个图形进 行遍历。

2)文档数据库是在文档中存储信息的数据库。文档是文档型数据库中的一条记 录,以字段-值的形式存储数据。值的类型和结构可以有多种,包括字符串、数 字、日期、数组等。文档存储的格式可以是 JSON(JavaScript Object Notation JS 对象简谱),BSON(二进制形式的 JSON)和 XML(Extensible Markup Language 可扩展标记语言)。此外文档数据库不要求严格的数据格式,一个集合中文档和 文档之间的字段可以不一致,结构灵活;扩展性强,拥有自己的查询语言和 API。

3)列式数据库将数据按列进行组织和存储。在实际应用中,列式数据库把同一 列的数据存储在同一个物理存储块中,使得数据压缩和存储更为紧凑,降低了存 储空间的需求,在大规模数据存储和查询、读取速度上有明显优势。列式数据库 具有高度可扩展性,列式存储可以轻松地分割和分布式处理大量数据,从而更好 地支持庞大的数据集。

4)键值数据库将数据存储为键值对集合,其中键作为唯一标识符。键和值都可 以是从简单对象到复杂复合对象的任何内容。键值数据库是高度可分区的,并且 允许以其他类型的数据库无法实现的规模进行水平扩展。

5)向量数据库专门用于存储和管理向量数据,擅长非结构化数据处理。向量数 据是指由多个数值组成的数据,这些数值通常表示某种特征或属性。与传统数据 库相比,向量数据库可以处理更多非结构化数据(图像、音频等)。向量数据库 通过基于机器学习的 Embedding(词嵌入)模型将非结构化数据表示为向量,再 结合其他先进的数据库(包括传统数据库)技术,让使用者更高效地处理非结构 化的复杂数据。向量数据库通常采用基于向量相似度的查询方式,即根据向量之 间的相似度来检索数据;通常采用基于向量索引的存储方式。向量数据库在处理大规模、高维数据和复杂查询方面具有较强的能力,且易于扩展。特别是在向量 搜索和相似度计算方面,具有更低的查询延迟和更高的准确性。

6)NewSQL数据库:NewSQL是对一类现代关系型数据库的统称,对于OLTP读 写请求提供可横向扩展的性能,同时支持事务的 ACID 保证。这些系统既拥有 NoSQL数据库的扩展性,又保持传统数据库的事务特性。NewSQL具有以下特点: 耗时短;使用索引查询,不使用全表扫描,仅涉及少量数据;重复度高,通常使 用相同的查询语句和不同的查询参数。NewSQL 数据库分为 3 类:完全使用新的 架构重新设计开发的NewSQL数据库、在中间件层实现NewSQL特性的数据库、 云计算平台提供的数据库即服务产品(DaaS)。

2、数据库市场规模快速增长,头部云厂商及新兴厂商崭露头角

全球数据库市场规模仍快速增长,非关系型数据库是重要增长驱动。根据 Gartner 和前瞻产业研究院数据,2021 年全球数据库市场规模为 795 亿美元,预 计到 2026 年全球数据库市场规模将达到 2086 亿美元,2021-2026 年全球数据库 市场规模 CAGR 达到 21.27%。从规模结构来看,关系型数据库仍然占市场主导, 2021 年占比 81%,非关系型数据库占比 19%。从增速来看,非关系型数据库更 快。根据 Gartner报告,2017-2021年全球非关系型数据库市场规模 CAGR为 48%, 而关系型数据库 CAGR 仅 16.4%。

数据库市场集中度高,头部云厂商及新兴厂商崭露头角。数据库产品具有较高 的技术和生态壁垒,因此市场集中度较高:2021 年,全球 Top5 数据库厂商市场 份额占比达 81%,头部效应明显。云数据库的可扩展性、易用性、安全性与企业 的降本增效需求使得数据库从本地部署转向云部署;传统数据仓库无法满足海量 非结构化数据处理需求,数据湖与湖仓一体架构应运而生。在此趋势下,以 Oracle 为代表的传统数据库巨头市场份额逐步减少,微软、亚马逊和谷歌等云厂 商以及 Databricks、MongoDB 等新兴厂商市场份额占比增加。从细分来看,全球 关系型数据库市场中,2022 年 Microsoft 市场份额占比 29.08%,排名第一, Oracle 与 Amazon 以 23.8%、21.4%的市场份额分列二、三;全球非关系型数据库 市场中,2021年AWS以43.3%市场份额位列第1,Google、阿里巴巴、MongoDB 以 18.6%、5.8%、5.6%的市场份额紧随其后。

3、云转型顺势而为,向量化成重要布局方向

云数据库成为主流,Serverless 优势显著。传统数据库模式存在资源利用率不高、 成本昂贵等问题,2020 年以来数据库迁移上云态势显著提速,云托管、云原生 数据库成为主流。相较传统部署的数据库而言,云数据库通过存储计算分离,实 现资源池化和弹性,具备高扩展性、高可用性、低成本等优势。然而,云数据 库不能按需自动缩放,也不能更小粒度地实现按使用量付费。当用户遇到数据库 扩容的突发需求时,就只能根据业务实际使用情况手动调整数据库容量大小,耗 费大量时间和成本。具有以下优势的 Serverless 数据库应运而生:自动伸缩降低 使用成本,能够随着用户业务请求数的增加和减少智能化地膨胀和缩小,当流量 洪峰来临时,可以自动调配资源支持;流量进入低谷时,则可自动释放资源;高 易用性,借助 Serverless 架构,底层的数据库操作可以被屏蔽,数据库能够根据 需求自动进行资源部署,而使用者只需要关注自身业务的相关数据使用问题。

生成式 AI 寻求数据处理成本效率,向量化成为重要布局方向。全球数据量爆发 式增长,2022 年全球创建、使用和存储的数据量约为 97ZB,根据清华大学互联 网产业研究院数据,预计到 2025 年全球创建、使用和存储的数据量将达到 181ZB,2021-2025年全球数据量 CAGR约为 23%。以 OpenAI GPT大模型为例, 近年来每一代 GPT 的参数规模呈指数级增加,市场中主流 AI 大模型 GPT、 LLaMA、BERT 参数均达千亿级,大规模数据为数据处理带来新挑战。传统数据 库通常使用表格结构或关系型模型,无法直接存储和索引高维度的向量数据,从 而导致查询和匹配速度较慢;而向量搜索技术支持高维度向量的相似度搜索和匹 配,提升大模型数据查询的精准性和效率。

参考报告

MongoDB公司研究:乘AI之风,文档数据库龙头再启航.pdf

MongoDB公司研究:乘AI之风,文档数据库龙头再启航。文档数据库龙头,收入增长强劲。MongoDB起步于文档数据库产品,通过开源社区生态扩大用户规模,并积极云转型趋势,逐渐发展为多功能开发者数据平台。2021年MongoDB全球非关系型数据库市场份额占比5.6%,排名第4。公司2023财年实现收入12.84亿美元,同比增长47%;Non-GAAP净利润为0.65亿美元,Non-GAAP净利率为5.0%(同比+6.1pcts),首次转正。全球数据库市场规模快速增长,非关系型数据库是重要增长驱动。2021年全球数据库市场规模为795亿美元,根据Gartner和前瞻产业研究院数据,预计2021-...

查看详情
相关报告
我来回答