全球已有向量数据库产品包括哪些?

全球已有向量数据库产品包括哪些?

最佳答案 匿名用户编辑于2024/02/02 11:51

目前全球已有的向量数据库产品主要包括 Pinecone、Milvus、Weaviate、Vespa 等。 

1. Pinecone

Pinecone 拥有技术背景雄厚的工程团队,先后上架 Google 云和 AWS 并打开市场。 2019 年,Pinecone 创始人 Edo Liberty 创立 Hypercube.ai,提供基于深度学习的多媒 体搜索解决方案;2021 年初,Hypercube.ai 正式转化为 Pinecone,专注于向量数据 库领域研发。团队多数工程师出自 Google、Databricks、Splunk 等知名科技企业。 公司创始人兼首席执行官 Edo Liberty 获得耶鲁大学计算机科学博士学位,曾担任 Yahoo 的高级研究总监和纽约地区 Yahoo 研究实验室的负责人,后加入 AWS 带领 团队构建了尖端的机器学习算法、系统和服务。2022 年 12 月起,Pinecone 先后上 架 Google Cloud 和 AWS,用户可以在 Marketplace 购买并使用 Pinecone,在不改变 基础架构的前提下,将 AI 技术支持的搜索加入到应用程序。Pinecone 通过借助平台 流量逐步提升产品知名度,有望进一步打开销售渠道,抢占市场份额。

Pinecone 是一个闭源、全托管、仅使用简单 API 的云原生向量数据库,大致划分为 核心索引、容器分布(container distribution)、云管理层三部分。Pinecone 核心索 引负责将来自第三方数据源的高维向量转换成 ML 可读取的格式。容器分布确保数 据库在收到查询、更新和嵌入指令后,以延迟低于 50 毫秒的运行状态处理负载平 衡、进行数据复制、管理命名空间、分割数据库。云管理层使得用户在不安装硬件 的情况下,仅通过创建索引并导入向量数据就可实现查询。此外,用户可以使用 API 随时随地更新、查询向量索引。公司经历了三次重要技术创新:1)技术团队在 保证托管系统稳定运行,元数据与图像遍历(graph traversal)相结合等条件下,研 发出动态、可过滤的图形索引;2)原 RocksDB 存储引擎达到极限后,团队构建了 全新的“memkey”向量存储,其在大型数据库对生成对象的存储速度超 RocksDB 10 倍,降低 30%-50%的运营成本;3)基于 C++和 Python 产出的代码库问题不断,团 队最终决心在 Rust 中重新搭建数据库和开发环境的架构,有效提高了开发速度并降 低了运营事件概率。

Pinecone 数据库拥有 4F 特性:快速(Fast)、实时(Fresh)、可过滤(Filtered)、 全托管(Fully)。即使有数十亿规模的数据存储,依然可以保持极低的查询延迟。 在增加、编辑和删除数据时,实时更新索引。向量搜索与元数据过滤相结合,提高 查询结果的相关性。平台保证稳定、安全的运行环境,产品入门简单、使用便利。 操作流程可划分创建索引(Index)、连接索引、插入索引、使用索引四步。通过创 建一个索引对象,通常为 json 格式的数据,将向量嵌入和元数据写入到索引中,然 后调用索引对象的方法来执行相似性搜索或其他操作。pinecone 还提供了一些预定 义的索引类型(Index Type),如 Image Search ,Text Search 等,可以让开发者更容 易地开始特定的用例。

定价标准:当前存在初学者、标准、企业级三种模式。初学者版本使用免费,但仅 限创建一个索引与一个计划;标准版本适用于任何规模的生产应用程序,支持将向 量数据库保存在集合中,能够进行自由索引,每月收费 70 美元起;企业版本能够 实现标准版本中的所有功能,并支持多个可用区以及 24/7/265 专属支持服务,每月 收费 104 美元起。 Pinecone 一级市场获 1.38 亿美元融资,估值超 7 亿美元。2021 年 7 月,Pinecone 种子轮收到 1000 万美元投资,投资方 Wing Venture Capita;2022 年 3 月底,公司 A 轮融资 2800 万美元,Menlo Ventures 领投,Tiger Global、Wing Venture Capital 跟投, 公司估值达到 1.68 亿美元。2022 年底,伴随 ChatGPT 推出而引发生成式 AI 开发热,作为 LLM“海马体”的向量数据库需求激增,开发者、投资者纷纷涌入向量数据库 赛道。截至 2023 年 4 月,公司 B 轮获 Andreessen Horowitz、ICONIQ Growth、Menlo Ventures、Wing Venture Capital 投资超 1 亿美元,三轮融资总额达到 1.38 亿美元, 投后估值已升至 7.5 亿美元。

2. Milvus

Milvus 向量数据库由中国创业团队 ZilliZ 研发,并于 2019 年面世。Zilliz 成立于 2017 年,拥有超过 100 名员工。通过向量数据库 Milvus,Zilliz 与 Nvidia、IBM、微软、 AWS 等公司建立合作。目前开源 Milvus 已成为业界领先的向量数据库解决方案, 有~18000 个 GitHub Star。

 

Milvus 是一个基于云原生、开源的自托管向量数据库。Milvus 数据库包含以下特点: 易于使用:借助 Milvus 向量数据库,使用者可以在不到一分钟的时间内创建大 规模的相似性搜索服务;SDK 简单直观,也可用于各种不同的语言; 速度快:Milvus 具有较高的硬件效率,并提供先进的索引算法,检索速度可提 升 10 倍;高可用性:Milvus 向量数据库已成功在一千多名企业用户中进行了实战测试, 通过对各个系统组件的广泛隔离,Milvus 具有较高的弹性和可靠性; 高度可扩展性:Milvus 的分布式和高通量特性使其面对大规模向量数据时能够 提供高效的服务; 云原生:Milvus 向量数据库采用系统化的云原生方法,将计算与存储分离,并 允许使用者横向、纵向扩展;功能丰富:Milvus 支持各种数据类型、具有属性过滤的增强向量搜索、UDF 支 持、可配置的一致性级别、时间旅行等。

为了增强弹性和灵活性,Milvus 由存储层和计算层组成。该系统包括四个级别: 接入层 Access Layer:接入层由一组无状态代理组成,充当用户的系统和端点 的前端;协调器服务 Coordinator service:协调器服务将任务分配给工作节点,并充当 系统的大脑; 工作器节点 Worker nodes:工作器节点充当人类的手臂和腿,是一种哑执行器, 遵循协调器服务的指令并执行用户触发的数据管理语言 DML/数据定义语言 DDL 命令; 存储 Storage:存储是系统的骨骼,确保数据可持续性,包括元存储、日志代 理和对象存储。

Zilliz 目前已进入 B 轮融资阶段,获得投资总额超 1.13 亿美元。2022 年 8 月 24 日, Milvus 的开发者公司 Zilliz 宣布,已在其最初 4300 万美元 B 轮融资基础上追加了 6000 万美元的融资。本轮融资由沙特石油巨头 Aramco Ventures 旗下多元化增长基 金 Prosper Ventures 领投,现有投资者 Temasek's Pavilion Capital(淡马锡)、Hillhouse Capital(高瓴)、5Y Capital 和 Yunqi Capital(云启资本)跟投。本轮融资后,公司 的总融资额达 1.13 亿美元,融资将用于支持其云矢量数据库的工程设计和上市工作。

3. Vespa

Vespa 由 Oath 开发,发布之初被定义为一款开源的“大数据处理和服务引擎”,。 2003年2月2日,Yahoo以1亿美元收购Vespa前身——挪威搜索引擎公司AlltheWeb; 2017 年 9 月 28 日,由 Yahoo 和 AOL 业务合并后诞生的公司 Oath 宣布开源 Vespa, 并将代码托管于 GitHub。 Vespa 能够部署于本地或云上,能够实现不同类型的搜索功能。作为开源的应用, Vespa 应用程序可以部署在本地或 Vespa Cloud 上,并可以接入 Java 组件和 Python API。部署完成后,Vespa 能够实现基于传统 BM25 的信息检索、向量最近邻搜索、 机器学习模型服务、问答、内容推荐等功能。目前 Vespa 已被应用于 Oath 的多个 产品,包括 Yahoo.com、Yahoo News、Yahoo Sports、Yahoo Finance、Yahoo Gemini、 Flickr 等,每日可以处理数十亿个用户请求,为用户返回基于数十亿文档得出的搜 索结果和推荐内容,并提供定制化内容和广告。

Vespa 由多个无状态的 Java 容器集群和零个或多个存储数据的内容集群组成。无状 态容器集群包括传入数据、查询以及响应的组件。这些组件提供包括索引转换和查 询执行的平台功能,也可以提供应用程序的中间件逻辑。容器集群将查询和数据操 作传递到内容集群中的相应节点,也可以添加组件访问来自外部服务的数据。内容 集群负责存储数据并对数据执行查询和推理。查询的范围包括简单数据查找、使用 机器学习模型对数据进行排序、以及对数据进行分组和聚合。

4. Weaviate

Weaviate 前身为 SeMI Technology,成立于 2019 年,是一家全球性初创企业。目前 Weaviate 在荷兰、美国、加拿大等地设有分支机构,拥有超过 30 名团队成员。Weaviate 创始人 Bob van Luijt 与 Etienne Dilocker 拥有 10 年以上的自由工程师经历,具有深 厚的技术积累。 Weaviate 是一个低延迟的向量数据库,对不同的媒体类型(文本,图像等)具有开 箱即用的支持。Weaviate 提供语义搜索、问答提取、分类、定制化模型(PyTorch / TensorFlow/Keras)等功能,基于 Go 语言,能够存储对象和向量,并允许将向量搜 索、结构化筛选和云原生数据库的容错能力相结合,且支持 GraphQL、REST 以及 各种客户端编程语言进行访问。 Weaviate 可进行本地或云化部署,具有多种定价模式。Weaviate 可提供 SaaS 以及 混合 SaaS 的服务,其中 SaaS 服务定价分为三类:标准、企业、关键商务型,起价 分别为 25/135/450 美元/月,实际定价将伴随向量存储、搜索的维度的增长而提升。

标杆应用场景——Weaviate 于 2023 年推出 ChatGPT 的 Plugin 插件,其功能包括: 1、允许用户连接一个向量数据库到 ChatGPT,其中包含用户的专有数据,可以被 ChatGPT 调用并用于回答特定的问题; 2、允许用户对个人文档进行存储,使 ChatGPT 的回答更加个性化; 3、用户可以在向量数据库中储存与 ChatGPT 的对话,在关闭并再次打开 ChatGPT 后,根据数据库中的内容继续对话。 Weaviate 的索引流程:以文本编码器(text2vec-transformer)和问答编码器 (qna-transformers)为例,用户可以创建任意数量的索引,每个索引包含一定数量 的分片,索引中的分片是独立的存储单元,每个分片均可以进行对象、倒置和向量 存储,其中对象和倒置存储使用 LSM 树方法进行实现,向量索引独立于这些对象 存储,不受 LSM 分割的影响。此外,Weaviate 本身是纯原生的向量数据库,不自 带任何模块,因此各类功能将由可选模块进行执行。除上述提到的文本、问答等编 码模块外,Weaviate 还支持加载例如其他媒体类型的向量化、物体识别、拼写检查 等外部模块。

投后估值 2 亿美元,融资总额超过 6700 万美元。2023 年 4 月 22 日,Weaviate 宣布, 继 2022 年 A 轮融资获得 1650 万美元后,B 轮融资获得 5000 万美元(约合 3.5 亿人 民币),由 Index Ventures 领投,Battery Ventures 等机构跟投。公司截至目前共获得 6770 万美元融资,投后估值 2 亿美元。

我来回答