向量数据库定义、工作流程、特点及市场空间如何?

向量数据库定义、工作流程、特点及市场空间如何?

最佳答案 匿名用户编辑于2024/02/02 11:50

向量数据库是专门用来存储和查询向量的数据库。

向量数据库是专门用来存储和查询向量的数据库。向量数据库是一种专门用于存储、 管理、查询、检索向量(Vectors)的数据库,主要应用于人工智能、机器学习、数 据挖掘等领域。同传统数据库相比,向量数据库不仅能够完成基本的 CRUD(添加、 读取查询、更新、删除)、元数据过滤、水平缩放等操作,还能够对向量数据进行 更快速的相似性搜索。目前 AI 主流的大模型如 Transformer、Clip、GPT 等均能够 将文本、图像等非结构化数据转化为高维向量,而伴随大模型应用场景的扩展,这 些高维向量数据的存储、检索将显著带动向量数据库的市场需求。

向量数据库的工作流程包括以下步骤: 1、向量数据的存储:向量数据通常是高维的数值型数据,如图像特征向量、文本 词向量等;向量数据库使用基于向量的存储结构,以便快速查询和处理; 2、向量索引:向量数据库使用 PQ、LSH 或 HNSW 等算法为向量编制索引,并将 向量映射到数据结构,以便更快地进行搜索; 3、向量查询:向量数据库将查询向量与数据库中的向量进行比较,从而找到最近 邻的向量; 4、查询结果的返回:向量数据库返回查询结果,通常包括与给定向量最相似的向 量列表、向量之间的相似度得分等信息;该环节可以使用不同的相似性度量对最近 邻重新排序。

向量数据库能够通过向量搜索(Vector Search),实现更为高效、准确的执行和结 果输出。当前主流的数据库检索采用关键词搜索(Keyword Search)的方式,将搜 索关键词与数据库中的值进行匹配,根据词汇相似性、单词出现的频率,得到输出 结果。关键词检索的缺点在于,其对于语义相同、表达方式不同的文本理解能力较 差,且不具备多模态或多语言的检索能力。向量搜索利用神经网络模型,将对象(如 文本和图像)和查询表示为高维向量,采用 K 近邻法(KNN,K-Nearest Neighbor) 或近似临近算法(ANN,Approximate Nearing Neighbor),计算目标对象与数据库 中向量嵌入的距离(通常采用余弦距离、欧氏距离等方法)以表示两者的相似度, 并按照向量的相似度进行排序,返回结果。同关键词搜索相比,向量搜索能够实现 对语义更为精准的理解,在多模态、不同语言等环境下能够输出更为准确的结果。 例如:英文的 Capital 可以指“资本”或者“首都”,“从中国去美国”和“从美国 去中国”存在方向,传统的数据库不能很好地解决这些问题。

向量数据库的主要特点和优势包括: 1、 高效的相似性搜索:向量数据库通过优化的索引结构和查询算法,能够在大规 模向量数据集中快速地找到与给定查询向量相似的向量。这有助于实现实时或 近实时的搜索和推荐功能;2、 灵活的向量表示:向量数据库通常支持各种向量表示方法,包括稠密向量(如 词嵌入)和稀疏向量(如词袋模型和 TF-IDF)。这使得向量数据库可以处理各 种类型的数据,如文本、图像、音频和视频等; 3、 可扩展性:向量数据库通常具有良好的可扩展性,可以在多个计算节点上分布 式存储和查询向量数据。这使得向量数据库可以应对大规模数据集和高并发查 询的需求; 4、 高级查询功能:向量数据库通常提供丰富的查询功能,如相似性搜索、近似最 近邻查询、向量加权查询等。这使得向量数据库在各种应用场景中具有较高的 灵活性和实用性。

海量数据爆发产生巨大数据库需求。在互联网化趋势下,数据量呈爆炸式增长,同 时随着数据大集中、数据挖掘、商业智能、协同作业等大数据处理技术的日趋成熟, 数据价值呈指数上升趋势。根据 Stastista,2022 年全球创建、使用和存储的数据量 约为 97ZB,预计到 2025 年数据量将达到 181ZB,2021-2025 年全球数据量复合增 长率约为 23%。数据量的爆发式增长为数据存储、处理带来更为庞大的需求。

全球数据库市场规模仍处在高速成长期。根据 Gartner 数据,2021 年全球数据库市 场规模接近 800 亿美元(5201 亿人民币),同比增长约 20.3%,五年内已实现市场 规模翻倍。根据前瞻产业研究院,预计到 2026 年,全球数据库市场规模将达到 2086 亿美元,2021-2026 年复合增长率达到 21.13%。

关系型数据库仍然占市场主导,灵活拓展与高并发能力助力 NoSQL 数据库腾飞。 根据 IDC 报告,2017 年至 2022 年,非关系型数据库(DDMS)市场规模年复合增 长率为 30.94%,而关系型数据库(RDBMS)复合增长率仅 8.12%;但从市场规模看,关系型数据库仍然占据主导,83%的数据库市场由关系型数据库构成。根据 ScaleGrid 2019 年统计,关系型与非关系型数据库的用户规模分别为 60.5%和 39.5%。 根据 IMARC,2022 年全球 NoSQL 市场规模将达到 73 亿美元,预计 2023-2028 年 复合增长率将达到 29.92%。未来,Not-only-SQL 类型数据库市场规模的增速将持续 领先于传统关系型数据库。

向量数据库或将迎来超 500 亿美元市场。基本假设: 1、 参考 Gartner、IDC 的市场规模数据,2021 年全球数据库市场规模为 800 亿美元; 2、 到 2030 年,全球数据库市场规模以 18%的年复合增长率增长,即 2030 年全球 数据库市场规模约为 3548 亿美元; 3、 参考 NoSQL、云服务数据库的占比,同时考虑到 AI 的快速渗透,假设 2030 年, NoSQL 数据库中向量数据库占比将达到 50%; 根据上述假设我们得出,预计到 2030 年,全球向量数据库市场规模或将达到 522 亿美元。

中国向量数据库市场空间或将达到 253-949 亿元。根据中国信通院数据,2021 年中 国数据库市场规模约为 309 亿元,占全球数据库 800 亿美元市场的比重约为 5.94%; 预计到 2025 年,中国数据库市场规模为 688 亿元,2020-2025 年复合增长率为 23.4%, 占全球数据库市场的比重约为6.14%。根据IDC,2020年中国数据量规模约为7.92ZB, 占全球总量的 18%;预计到 2025 年,中国数据量规模将增至 48.6ZB,占全球数据 量的 27.8%。中国数据量在全球的占比远超数据库市场规模占比,错配情况较为明 显。基于上述数据,我们做出如下假设: 1、 到 2030 年,中国数据库市场将以 20%的年复合增长率增长,对应 2030 年市场 规模 1711 亿人民币,占全球数据库市场的 7.4%; 2、 中国向量数据库市场占全球比重的下限≈中国数据库市场占全球数据库市场的 比重,即 7.4%; 3、 到 2030 年,中国数据量占全球数据量规模的比重维持在 2025 年水平; 4、 中国向量数据库市场占全球比重的上限≈中国数据量占全球数据量的比重,即 28%; 根据上述假设我们得出,预计到 2030 年,中国向量数据库市场规模或将达到 39-146 亿美元,对应 253-949 亿人民币。

需要特别指出的是,相比于传统数据库,向量数据库其实不止有存储功能,也有一 定的计算属性,因此其 TAM 是可以扩大的。

参考报告

AI行业专题报告:向量数据库,AI时代的Killer App.pdf

AI行业专题报告:向量数据库,AI时代的KillerApp。我们认为向量数据库是AI时代的KillerApp。AI时代一切AI化,而AI化的本质则是向量化。向量化计算成本高昂,海量的高维向量势必需要专门的数据库进行存储和处理,向量数据库应运而生。向量数据库在拓展AI全新应用场景的同时,也将对传统数据库产品形成替代,进而成为AI时代的KillerApp。向量数据库是专门用来存储和查询向量的数据库。其存储的向量来自于对文本、语音、图像、视频等的向量化。同传统数据库相比,向量数据库不仅能够完成基本的CRUD(添加、读取查询、更新、删除)等操作,还能够对向量数据进行更快速的相似性搜索,商业价值提升明显...

查看详情
相关报告
我来回答