您应该使用哪个矢量数据库? 选择最适合您需求的数据库

2024-09-01 15:04

本文主要是介绍您应该使用哪个矢量数据库? 选择最适合您需求的数据库,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

导言

矢量数据库已成为存储非结构化和结构化数据表示并编制索引的首选。 这些表征被称为向量嵌入,由嵌入模型生成。 向量存储在利用深度学习模型(尤其是大型语言模型)的应用开发中发挥着至关重要的作用。

什么是矢量数据库?

在现实世界中,并非所有数据都能整齐地排列成行和列。 在处理复杂的非结构化数据(如图像、视频和自然语言)时尤其如此。

矢量数据库是一种以高维矢量形式存储数据的数据库,本质上是代表对象特征或特性的数字列表。 每个矢量对应一个独特的实体,如一段文本、图像或视频。

但为什么要使用矢量呢? 奥妙就在于它能够捕捉语义和相似性。 通过将数据表示为向量,我们可以对它们进行数学比较,并确定它们的相似或不相似程度。 这使我们能够执行复杂的查询,如 "为我查找与此相似的图片 "或 “检索与此文本语义相关的文档”。

为什么需要矢量数据库?

近年来,矢量数据库越来越受欢迎,尤其是在机器学习(ML)和人工智能(AI)领域。 人工智能和 ML 模型的复杂性要求采用有效的方法来存储、搜索和检索它们所处理的大量非结构化数据。

对于为结构化数据而构建的传统数据库来说,矢量数据的复杂性和大小可能经常会让它们难以承受。 相反,矢量数据库就是为此而专门设计的。 它们提供专门的搜索和索引算法,即使在拥有数十亿条目的数据库中,也能迅速找到可比较的矢量。

矢量数据库的不同用例

通过查找可比矢量的能力,人工智能和 ML 的应用得到了极大扩展。 典型用例包括:

  • RAG 系统: 矢量数据库可与大型语言模型(LLMs)相结合,构建以知识为基础的语言人工智能应用。
  • 推荐系统: 矢量数据库可以将用户偏好和项目属性表示为矢量,从而为高度个性化的推荐引擎提供动力。
  • 通过搜索视觉相关的图像或视频,矢量数据库彻底改变了基于内容的检索。
  • 自然语言处理: 矢量数据库通过将文本转换为矢量,提供语义搜索、主题建模和文档分组功能。
  • 欺诈检测: 矢量数据库可用于协助识别金融交易中的趋势和异常情况。

矢量数据库比较

目前有许多矢量数据库,如 Qdrant、Pinecone、Milvus、Chroma、Weaviate 等。 每个数据库都有自己的优势、利弊和理想用例。 在此,我们将对 Pinecone、Milvus、Chroma、Weaviate、Faiss、Elasticsearch 和 Qdrant 等流行的矢量数据库进行全面比较。

部署选项

在这方面,Pinecone 是个异数。 出于性能和可扩展性的考虑,Pinecone 是一项完全托管的服务,因此无法在本地运行实例。 Milvus、Chroma、Weaviate、Faiss、Elasticsearch 和 Qdrant 都可以在本地运行;其中大多数都提供了用于运行的 Docker 镜像。

在这里插入图片描述

可扩展性

Qdrant提供静态分片功能;如果数据增长超出服务器容量,则需要向集群添加更多机器,并重新分片所有数据。 这可能是一个耗时且复杂的过程。 此外,不平衡的分片会带来瓶颈,降低系统效率。

Pinecone 通过其 Serveless Tier 支持计算和存储的分离。 对于基于 POD 的集群,Pinecone 采用的是静态分片,要求用户在扩展集群时手动重新分片。

Weaviate 提供静态分片。 在没有任何分布式数据替换的情况下,Chroma 无法扩展到单节点以外的规模

在这里插入图片描述

性能基准测试

  • Qdrant几乎在所有场景中都实现了最高的RPS和最低的延迟,无论我们选择的精度阈值和指标如何。 在其中一个数据集上,它的 RPS 也提高了 4 倍。
  • Elasticsearch 在许多用例中都变得相当快,但在索引时间方面却非常慢。 当存储 1,000 多万个 96 维向量时,它可能会慢 10 倍! (32 分钟对 5.5 小时)
  • 在索引时间方面,Milvus 是最快的,而且精度也很高。 不过,当嵌入维度较高或向量数量较多时,Milvus 在 RPS 或延迟方面就无法与其他产品相提并论了。
  • Redis 能够实现较好的 RPS,但主要是在较低精度的情况下。 在单线程情况下,Redis 也能实现较低的延迟;但在并行请求较多的情况下,延迟会迅速增加。 速度提升的部分原因是其定制协议。
  • 随着时间的推移,Weaviate 的改进最小。 由于其他引擎的相对改进,就 RPS 和延迟而言,它已成为最慢的引擎之一。

在这里插入图片描述

数据管理

在这里插入图片描述

矢量相似性搜索

矢量数据库如此有用的原因之一是,它们可以告诉我们事物之间的关系,以及它们的相似或不相似程度。 矢量数据库可以通过各种距离度量来实现这一功能,不同的矢量数据库会采用不同的距离度量。

在这里插入图片描述

集成和应用程序接口

REST 应用程序接口更常见,而 GRPC 应用程序接口则面向延迟关键场景或需要快速移动大量数据时的性能和吞吐量。 根据您的要求和网络情况,GRPC 的速度可比 REST 快数倍。

在这里插入图片描述

社区和生态系统

开放源代码意味着我们可以浏览核心数据库的源代码,矢量数据库具有灵活的许可模式。

在这里插入图片描述

元数据过滤

元数据是一个非常强大的概念,与矢量数据库的核心功能相辅相成;它是模糊的人类语言与结构化数据之间的纽带。 这是架构的基础,当人类用户询问产品时,人工智能购物助手会立即回复他们所描述的产品。

在这里插入图片描述

向量数据库功能

  • Qdrant: Qdrant 使用三种类型的索引为其数据库提供动力。 这三种索引分别是有效载荷索引(类似于传统的面向文档数据库中的索引)、字符串有效载荷全文索引和矢量索引。 他们的混合搜索方法是矢量搜索与属性过滤的结合。
  • Pinecone: RBAC 对于大型企业来说是不够的。 存储优化(S1)在性能方面存在一些挑战,只能达到 10-50 QPS。 命名空间的数量有限,用户在使用元数据过滤作为绕过这一限制的方法时应小心谨慎,因为这将对性能产生很大影响。 此外,这种方法也无法实现数据隔离。
  • Weaviate: Weaviate 使用两种索引为其数据库提供支持。 一种是将数据对象属性映射到其在数据库中的位置的倒排索引,另一种是支持高性能查询的矢量索引。 此外,它的混合搜索方法使用密集向量来理解查询的上下文,并结合稀疏向量来进行关键字匹配。
  • Chroma:Chroma 使用 HNSW 算法来支持 kNN 搜索。
  • Milvus:Milvus 支持多个内存索引和表级分区,从而实现了实时信息检索系统所需的高性能。 支持 RBAC 是企业级应用的要求。 关于分区,通过将搜索限制在数据库的一个或多个子集上,分区可以提供比静态分区更有效的数据过滤方式,静态分区可能会带来瓶颈,当数据增长超出服务器容量时需要重新分区。 分区是一种管理数据的好方法,它可以根据类别或时间范围将数据分组为子集。 这可以帮助您轻松过滤和搜索大量数据,而无需每次都搜索整个数据库。 没有一种索引类型能适合所有的使用情况,因为每种使用情况都有不同的权衡标准。 有了更多索引类型的支持,您就可以更灵活地在准确性、性能和成本之间找到平衡。
  • Faiss: FAISS 是一种支持 kNN 搜索的算法

总体比较摘要

在这里插入图片描述

这篇关于您应该使用哪个矢量数据库? 选择最适合您需求的数据库的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1127273

相关文章

Java中List的contains()方法的使用小结

《Java中List的contains()方法的使用小结》List的contains()方法用于检查列表中是否包含指定的元素,借助equals()方法进行判断,下面就来介绍Java中List的c... 目录详细展开1. 方法签名2. 工作原理3. 使用示例4. 注意事项总结结论:List 的 contain

C#使用SQLite进行大数据量高效处理的代码示例

《C#使用SQLite进行大数据量高效处理的代码示例》在软件开发中,高效处理大数据量是一个常见且具有挑战性的任务,SQLite因其零配置、嵌入式、跨平台的特性,成为许多开发者的首选数据库,本文将深入探... 目录前言准备工作数据实体核心技术批量插入:从乌龟到猎豹的蜕变分页查询:加载百万数据异步处理:拒绝界面

Android中Dialog的使用详解

《Android中Dialog的使用详解》Dialog(对话框)是Android中常用的UI组件,用于临时显示重要信息或获取用户输入,本文给大家介绍Android中Dialog的使用,感兴趣的朋友一起... 目录android中Dialog的使用详解1. 基本Dialog类型1.1 AlertDialog(

Python使用自带的base64库进行base64编码和解码

《Python使用自带的base64库进行base64编码和解码》在Python中,处理数据的编码和解码是数据传输和存储中非常普遍的需求,其中,Base64是一种常用的编码方案,本文我将详细介绍如何使... 目录引言使用python的base64库进行编码和解码编码函数解码函数Base64编码的应用场景注意

使用Sentinel自定义返回和实现区分来源方式

《使用Sentinel自定义返回和实现区分来源方式》:本文主要介绍使用Sentinel自定义返回和实现区分来源方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Sentinel自定义返回和实现区分来源1. 自定义错误返回2. 实现区分来源总结Sentinel自定

C# WinForms存储过程操作数据库的实例讲解

《C#WinForms存储过程操作数据库的实例讲解》:本文主要介绍C#WinForms存储过程操作数据库的实例,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、存储过程基础二、C# 调用流程1. 数据库连接配置2. 执行存储过程(增删改)3. 查询数据三、事务处

Pandas使用SQLite3实战

《Pandas使用SQLite3实战》本文主要介绍了Pandas使用SQLite3实战,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学... 目录1 环境准备2 从 SQLite3VlfrWQzgt 读取数据到 DataFrame基础用法:读

JSON Web Token在登陆中的使用过程

《JSONWebToken在登陆中的使用过程》:本文主要介绍JSONWebToken在登陆中的使用过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录JWT 介绍微服务架构中的 JWT 使用结合微服务网关的 JWT 验证1. 用户登录,生成 JWT2. 自定义过滤

Java中StopWatch的使用示例详解

《Java中StopWatch的使用示例详解》stopWatch是org.springframework.util包下的一个工具类,使用它可直观的输出代码执行耗时,以及执行时间百分比,这篇文章主要介绍... 目录stopWatch 是org.springframework.util 包下的一个工具类,使用它

Java使用Curator进行ZooKeeper操作的详细教程

《Java使用Curator进行ZooKeeper操作的详细教程》ApacheCurator是一个基于ZooKeeper的Java客户端库,它极大地简化了使用ZooKeeper的开发工作,在分布式系统... 目录1、简述2、核心功能2.1 CuratorFramework2.2 Recipes3、示例实践3