LlamaIndex 实现 RAG(三)- 向量数据

2024-08-26 01:52

本文主要是介绍LlamaIndex 实现 RAG(三)- 向量数据,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

RAG 中使用向量存储知识和文档数据,召回时通过语意进行搜索。文档转为向量是个非常消耗时的操作,不同 Embedding Model 参数不同,结果维度也不同,消耗的算力也不同。所以通常的做法都会在索引阶段(Embedding)把向量保存到向量数据库中,在召回阶段,向量数据库会根据选择的算法计算向量相似度,最终将分数高的数据进行返回。本文将介绍向量数据库的使用方法,包括以下几部分

  1. 什么是 Embedding Model?
  2. 向量数据库的使用,包括 Chroma 和 PGVector
  3. 向量文档的管理,文档更新

什么是Embedding Model

嵌入模型用于通过复杂的数值来表示文档,嵌入模型将文本作为输入,并返回一个向量,向量用于捕捉文本的语义。这些嵌入模型经过训练,能够以向量方式表示文本,并帮助实现语音搜索。从高层次来看,如果用户提出一个关于狗的问题,那么该问题的向量与讨论狗的文本的向量将非常相似。在计算向量之间的相似度时,有许多方法可以使用(点积、余弦相似度等)。默认情况下,LlamaIndex在比较嵌入时使用余弦相似度。

相似度算法

向量相似度算法主要包括三种,欧式距离(L2)、夹角余弦(Cosine)、内积(IP),向量数据库创建集合时,可以指定相似度算法,

欧式距离:点与点(矩阵与矩阵)之间的直线距离,越小相似度越高。
在这里插入图片描述

夹角余弦:向量之间的夹角,1 重合,-1 完全相反,0 为向量垂直,1 相似度最高。

在这里插入图片描述

向量内积:向量内积,越大相似度越高

在这里插入图片描述

嵌入模型的选择

嵌入模型选择要从多方面考虑,参数、维度,可以在 HuggingFace 上查看 Embedding排名,选择语言,这里我们选择中文模型,可以看到 Qwen 系列排名都很靠前。在本文的案例中,使用的嵌入模型是 nomic-embed-text,维度 768,效果没有 Qwen 的好,模型相对较小,运行速度比较快,在 RAG 评估阶段,可以根据效果进行嵌入模型的替换。

在这里插入图片描述

集成向量数据库

使用 LlamaIndex 接入向量数据,下面将分别使用代码分别接入 Chroma 和 PGVector。

Chroma

Chroma 是一个开源向量数据库,提供的功能包括向量的存储以及搜索,文档存储,全文本搜索,元数据过滤,多模态等等。安装 Chroma 依赖。

pip install chromadb
pip install  llama-index-vector-stores-chroma

实现 Chroma 向量数据库,包括两个方法,对文档做索引和查询索引,要确保 LlamaIndex 和 Chroma 使用同样的嵌入模型


def get_chroma_storage():chroma_client = chromadb.PersistentClient(path="./chroma_db")chroma_collection = chroma_client.get_or_create_collection("quickstart", embedding_function= embedding_functions.OllamaEmbeddingFunction(model_name="nomic-embed-text",url="http://10.91.3.116:11434"),metadata={"hnsw:space": "cosine"})vector_store = ChromaVectorStore(chroma_collection=chroma_collection)return vector_storedef index_doc_chroma():storage_context = StorageContext.from_defaults(vector_store=get_chroma_storage())# 读取 "./data" 目录中的数据并加载为文档对象documents = SimpleDirectoryReader("./data").load_data()# 从文档中创建 VectorStoreIndex,并使用 OllamaEmbedding 作为嵌入模型vector_index = VectorStoreIndex.from_documents(documents, embed_model=ollama_embedding, storage_context=storage_context,transformations=[SentenceSplitter(chunk_size=1000, chunk_overlap=20)],)return vector_indexdef get_doc_index_chroma():'''解析 PDF 并保存到 Chroma'''# 从文档中创建 VectorStoreIndex,并使用 OllamaEmbedding 作为嵌入模型vector_index = VectorStoreIndex.from_vector_store(get_chroma_storage(), embed_model=ollama_embedding)return vector_index
PGVector

PGVector 是 Postgres 数据库 Vector 扩展,本文使用的是 PGVector.rs,是 PGVector 的 Rust 版本,性能比 PGVector 要好。首先安装 PGVector 依赖

pip install llama-index-vector-stores-pgvecto-rs
pip install pgvecto_rs[sdk]

启动 PG Docker,Docker 镜像最近都不好用了,找到了一个可以用的镜像地址,需要的朋友请查看镜像文档

docker run --name pgvecto-rs-demo -e POSTGRES_PASSWORD=mysecretpassword -p 5432:5432 -d tensorchord/pgvecto-rs:pg16-v0.0.0-nightly.20240823

实现 PGVector Store 并索引文档


def get_pg_storage():vector_store = PGVectoRsStore(client=client)return vector_storedef index_doc_pg():storage_context = StorageContext.from_defaults(vector_store=get_pg_storage())# 读取 "./data" 目录中的数据并加载为文档对象documents = SimpleDirectoryReader("./data").load_data()# 从文档中创建 VectorStoreIndex,并使用 OllamaEmbedding 作为嵌入模型vector_index = VectorStoreIndex.from_documents(documents, embed_model=ollama_embedding, storage_context=storage_context,transformations=[SentenceSplitter(chunk_size=1000, chunk_overlap=20)],)return vector_index

PG 最大好处就是可以 SQL 操作

在这里插入图片描述

文档的管理

本地的知识库通常需要定期更新,例如文档内容的变更,文档管理主要是要处理更新和删除,文档的更新可能会更新文档的多个地方,很难做到细粒度的追踪到每个分块的更新。所以对于文档的更新,我们就是使用删除再插入的方式。如果文档变更了,我们先删除之前的,在插入更新的,问题就变为我们只要能够找到之前文档进行删除即可,在 LlamaIndex 中文档可以通过 ID 删除文档。

在 LlamaIndex 中每个 Vector Store 都有对应的一个 delete 方法,调用 delete 方式需要出入一个 doc_id,下面这个截图来自 pg_vector。
在这里插入图片描述
那么这个 Id 从哪里来的,这个 Id 是在创建 Document 时生成的,下图来自 SimpleDocumentStore,红框内就是 DocId。
在这里插入图片描述
所以,有了这些数据,自己就可以很容易的实现一个文档管理系统。

  1. 首先保存文档创建时的数据,尽量不用SimpleDocumentStore,使用关系数据库保存,易于查询,文件保存在对象存储上。
  2. 删除时,根据文件路径找到对应的 Id,这里要保证路径的唯一性。
  3. 对新的文档进行索引,并保存到数据库中。

总结

本文介绍了LlamaIndex 中向量数据库的使用,向量数据库产品很多,至少有几十个。其实向量数据没有那么复杂,简单来说,就是向量的存储加查询,查询是通过上面所说的相似度算法,最后根据得分排序。由于计算量比较大,现在很多向量数据库厂商使用了云资源,其实向量最好能用能用现有的数据库,这样就不用新引入组件,比如手 PGVec、Mongo 等等。

最后,在项目中,还是要根据具体情况进行选型,要看你的项目的现有存储架构,对于性能要求高的可以考虑使用 Redis,Redis 是支持向量查询的,而且性能也不错。

这篇关于LlamaIndex 实现 RAG(三)- 向量数据的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1107215

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

hdu1043(八数码问题,广搜 + hash(实现状态压缩) )

利用康拓展开将一个排列映射成一个自然数,然后就变成了普通的广搜题。 #include<iostream>#include<algorithm>#include<string>#include<stack>#include<queue>#include<map>#include<stdio.h>#include<stdlib.h>#include<ctype.h>#inclu

【C++】_list常用方法解析及模拟实现

相信自己的力量,只要对自己始终保持信心,尽自己最大努力去完成任何事,就算事情最终结果是失败了,努力了也不留遗憾。💓💓💓 目录   ✨说在前面 🍋知识点一:什么是list? •🌰1.list的定义 •🌰2.list的基本特性 •🌰3.常用接口介绍 🍋知识点二:list常用接口 •🌰1.默认成员函数 🔥构造函数(⭐) 🔥析构函数 •🌰2.list对象

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

让树莓派智能语音助手实现定时提醒功能

最初的时候是想直接在rasa 的chatbot上实现,因为rasa本身是带有remindschedule模块的。不过经过一番折腾后,忽然发现,chatbot上实现的定时,语音助手不一定会有响应。因为,我目前语音助手的代码设置了长时间无应答会结束对话,这样一来,chatbot定时提醒的触发就不会被语音助手获悉。那怎么让语音助手也具有定时提醒功能呢? 我最后选择的方法是用threading.Time