LangChain 0.2 - 构建查询分析系统

2024-05-28 17:44

本文主要是介绍LangChain 0.2 - 构建查询分析系统,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文翻译整理自:Build a Query Analysis System
https://python.langchain.com/v0.2/docs/tutorials/query_analysis/


文章目录

    • 一、项目说明
    • 二、设置
      • 1、安装依赖项
      • 2、设置环境变量
      • 3、加载文档
      • 4、索引文档
    • 三、不使用查询分析的检索
    • 四、查询分析
      • 1、查询模式
      • 2、查询生成
    • 五、使用查询分析的检索


一、项目说明

本页将展示如何在一个基本的端到端示例中使用查询分析。这将涵盖创建一个简单的搜索引擎,展示将原始用户问题传递给该搜索时发生的故障模式,然后是一个查询分析如何帮助解决该问题的示例。有许多不同的查询分析技术,这个端到端示例不会展示所有技术。

为了本例,我们将对 LangChain YouTube 视频进行检索。


二、设置


1、安装依赖项

pip install -qU langchain langchain-community langchain-openai youtube-transcript-api pytube langchain-chroma


2、设置环境变量

我们将在此示例中使用 OpenAI:

import getpass
import osos.environ["OPENAI_API_KEY"] = getpass.getpass()# Optional, uncomment to trace runs with LangSmith. Sign up here: https://smith.langchain.com.
# os.environ["LANGCHAIN_TRACING_V2"] = "true"
# os.environ["LANGCHAIN_API_KEY"] = getpass.getpass()

3、加载文档

我们可以使用YouTubeLoader来加载一些 LangChain 视频的成绩单:

from langchain_community.document_loaders import YoutubeLoaderurls = ["https://www.youtube.com/watch?v=HAn9vnJy6S4","https://www.youtube.com/watch?v=dA1cHGACXCo","https://www.youtube.com/watch?v=ZcEMLz27sL4","https://www.youtube.com/watch?v=hvAPnpSfSGo","https://www.youtube.com/watch?v=EhlPDL4QrWY","https://www.youtube.com/watch?v=mmBo8nlu2j0","https://www.youtube.com/watch?v=rQdibOsL1ps","https://www.youtube.com/watch?v=28lC4fqukoc","https://www.youtube.com/watch?v=es-9MgxB-uc","https://www.youtube.com/watch?v=wLRHwKuKvOE","https://www.youtube.com/watch?v=ObIltMaRJvY","https://www.youtube.com/watch?v=DjuXACWYkkU","https://www.youtube.com/watch?v=o7C9ld6Ln-M",
]
docs = []
for url in urls:docs.extend(YoutubeLoader.from_youtube_url(url, add_video_info=True).load())

API 参考:YoutubeLoader


import datetime# Add some additional metadata: what year the video was published
for doc in docs:doc.metadata["publish_year"] = int(datetime.datetime.strptime(doc.metadata["publish_date"], "%Y-%m-%d %H:%M:%S").strftime("%Y"))

以下是我们加载的视频的标题:

[doc.metadata["title"] for doc in docs]

['OpenGPTs','Building a web RAG chatbot: using LangChain, Exa (prev. Metaphor), LangSmith, and Hosted Langserve','Streaming Events: Introducing a new `stream_events` method','LangGraph: Multi-Agent Workflows','Build and Deploy a RAG app with Pinecone Serverless','Auto-Prompt Builder (with Hosted LangServe)','Build a Full Stack RAG App With TypeScript','Getting Started with Multi-Modal LLMs','SQL Research Assistant','Skeleton-of-Thought: Building a New Template from Scratch','Benchmarking RAG over LangChain Docs','Building a Research Assistant from Scratch','LangServe and LangChain Templates Webinar']

以下是与每个视频相关的元数据。我们可以看到每个文档还有标题、观看次数、发布日期和长度:

docs[0].metadata

{'source': 'HAn9vnJy6S4','title': 'OpenGPTs','description': 'Unknown','view_count': 7210,'thumbnail_url': 'https://i.ytimg.com/vi/HAn9vnJy6S4/hq720.jpg','publish_date': '2024-01-31 00:00:00','length': 1530,'author': 'LangChain','publish_year': 2024}

以下是文档内容的一个示例:

docs[0].page_content[:500]

"hello today I want to talk about open gpts open gpts is a project that we built here at linkchain uh that replicates the GPT store in a few ways so it creates uh end user-facing friendly interface to create different Bots and these Bots can have access to different tools and they can uh be given files to retrieve things over and basically it's a way to create a variety of bots and expose the configuration of these Bots to end users it's all open source um it can be used with open AI it can be us"

4、索引文档

每当我们执行检索时,我们都需要创建一个可以查询的文档索引。我们将使用向量存储来索引我们的文档,并首先对它们进行分块,以使我们的检索更加简洁和精确:

from langchain_chroma import Chroma
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import RecursiveCharacterTextSplittertext_splitter = RecursiveCharacterTextSplitter(chunk_size=2000)
chunked_docs = text_splitter.split_documents(docs)
embeddings = OpenAIEmbeddings(model="text-embedding-3-small")
vectorstore = Chroma.from_documents(chunked_docs,embeddings,
)

API 参考:OpenAIEmbeddings | RecursiveCharacterTextSplitter


三、不使用查询分析的检索

我们可以直接对用户问题进行相似性搜索,以找到与该问题相关的块:

search_results = vectorstore.similarity_search("how do I build a RAG agent")
print(search_results[0].metadata["title"])
print(search_results[0].page_content[:500])

Build and Deploy a RAG app with Pinecone Serverless
hi this is Lance from the Lang chain team and today we're going to be building and deploying a rag app using pine con serval list from scratch so we're going to kind of walk through all the code required to do this and I'll use these slides as kind of a guide to kind of lay the the ground work um so first what is rag so under capoy has this pretty nice visualization that shows LMS as a kernel of a new kind of operating system and of course one of the core components of our operating system is th

效果非常好!我们的第一个结果与问题非常相关。

如果我们想要搜索特定时间段的结果该怎么办?

search_results = vectorstore.similarity_search("videos on RAG published in 2023")
print(search_results[0].metadata["title"])
print(search_results[0].metadata["publish_date"])
print(search_results[0].page_content[:500])

OpenGPTs
2024-01-31
hardcoded that it will always do a retrieval step here the assistant decides whether to do a retrieval step or not sometimes this is good sometimes this is bad sometimes it you don't need to do a retrieval step when I said hi it didn't need to call it tool um but other times you know the the llm might mess up and not realize that it needs to do a retrieval step and so the rag bot will always do a retrieval step so it's more focused there because this is also a simpler architecture so it's always

我们的第一个结果来自 2024 年(尽管我们要求搜索 2023 年的视频),并且与输入不太相关。由于我们只是针对文档内容进行搜索,因此无法根据任何文档属性对结果进行过滤。

这只是可能出现的故障模式之一。现在让我们看看基本形式的查询分析如何修复它!


四、查询分析

我们可以使用查询分析来改进检索结果。这将涉及定义包含一些日期过滤器的查询模式,并使用函数调用模型将用户问题转换为结构化查询。


1、查询模式

在这种情况下,我们将为发布日期提供明确的最小和最大属性,以便可以对其进行过滤。

from typing import Optionalfrom langchain_core.pydantic_v1 import BaseModel, Fieldclass Search(BaseModel):"""Search over a database of tutorial videos about a software library."""query: str = Field(...,description="Similarity search query applied to video transcripts.",)publish_year: Optional[int] = Field(None, description="Year video was published")

2、查询生成

为了将用户问题转换为结构化查询,我们将使用 OpenAI 的工具调用 API。具体来说,我们将使用新的ChatModel.with_structured_output()构造函数来处理将架构传递给模型并解析输出。

from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnablePassthrough
from langchain_openai import ChatOpenAIsystem = """You are an expert at converting user questions into database queries. \
You have access to a database of tutorial videos about a software library for building LLM-powered applications. \
Given a question, return a list of database queries optimized to retrieve the most relevant results.If there are acronyms or words you are not familiar with, do not try to rephrase them."""
prompt = ChatPromptTemplate.from_messages([("system", system),("human", "{question}"),]
)
llm = ChatOpenAI(model="gpt-3.5-turbo-0125", temperature=0)
structured_llm = llm.with_structured_output(Search)
query_analyzer = {"question": RunnablePassthrough()} | prompt | structured_llm

API 参考:ChatPromptTemplate | RunnablePassthrough | ChatOpenAI

/Users/bagatur/langchain/libs/core/langchain_core/_api/beta_decorator.py:86: LangChainBetaWarning: The function `with_structured_output` is in beta. It is actively being worked on, so the API may change.warn_beta(

让我们看看我们的分析器针对我们之前搜索的问题生成了哪些查询:

query_analyzer.invoke("how do I build a RAG agent")
# -> Search(query='build RAG agent', publish_year=None)query_analyzer.invoke("videos on RAG published in 2023")
# -> Search(query='RAG', publish_year=2023)

五、使用查询分析的检索

我们的查询分析看起来非常好;现在让我们尝试使用生成的查询来实际执行检索。

**注意:**在我们的示例中,我们指定了tool_choice="Search"。这将强制 LLM 调用一个(且只有一个)工具,这意味着我们将始终有一个优化查询要查找。请注意,情况并非总是如此 - 请参阅其他指南,了解如何处理没有返回或返回多个优化查询的情况。

from typing import Listfrom langchain_core.documents import Document

API 参考:文档

def retrieval(search: Search) -> List[Document]:if search.publish_year is not None:# This is syntax specific to Chroma,# the vector database we are using._filter = {"publish_year": {"$eq": search.publish_year}}else:_filter = Nonereturn vectorstore.similarity_search(search.query, filter=_filter)

retrieval_chain = query_analyzer | retrieval

我们现在可以在之前有问题的输入上运行这个链,并看到它只产生那一年的结果!

results = retrieval_chain.invoke("RAG tutorial published in 2023")[(doc.metadata["title"], doc.metadata["publish_date"]) for doc in results]

[('Getting Started with Multi-Modal LLMs', '2023-12-20 00:00:00'),('LangServe and LangChain Templates Webinar', '2023-11-02 00:00:00'),('Getting Started with Multi-Modal LLMs', '2023-12-20 00:00:00'),('Building a Research Assistant from Scratch', '2023-11-16 00:00:00')]

2024-05-24(五)

这篇关于LangChain 0.2 - 构建查询分析系统的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1011252

相关文章

Redis连接失败:客户端IP不在白名单中的问题分析与解决方案

《Redis连接失败:客户端IP不在白名单中的问题分析与解决方案》在现代分布式系统中,Redis作为一种高性能的内存数据库,被广泛应用于缓存、消息队列、会话存储等场景,然而,在实际使用过程中,我们可能... 目录一、问题背景二、错误分析1. 错误信息解读2. 根本原因三、解决方案1. 将客户端IP添加到Re

SpringBoot基于MyBatis-Plus实现Lambda Query查询的示例代码

《SpringBoot基于MyBatis-Plus实现LambdaQuery查询的示例代码》MyBatis-Plus是MyBatis的增强工具,简化了数据库操作,并提高了开发效率,它提供了多种查询方... 目录引言基础环境配置依赖配置(Maven)application.yml 配置表结构设计demo_st

Python中构建终端应用界面利器Blessed模块的使用

《Python中构建终端应用界面利器Blessed模块的使用》Blessed库作为一个轻量级且功能强大的解决方案,开始在开发者中赢得口碑,今天,我们就一起来探索一下它是如何让终端UI开发变得轻松而高... 目录一、安装与配置:简单、快速、无障碍二、基本功能:从彩色文本到动态交互1. 显示基本内容2. 创建链

Golang使用etcd构建分布式锁的示例分享

《Golang使用etcd构建分布式锁的示例分享》在本教程中,我们将学习如何使用Go和etcd构建分布式锁系统,分布式锁系统对于管理对分布式系统中共享资源的并发访问至关重要,它有助于维护一致性,防止竞... 目录引言环境准备新建Go项目实现加锁和解锁功能测试分布式锁重构实现失败重试总结引言我们将使用Go作

Redis主从复制实现原理分析

《Redis主从复制实现原理分析》Redis主从复制通过Sync和CommandPropagate阶段实现数据同步,2.8版本后引入Psync指令,根据复制偏移量进行全量或部分同步,优化了数据传输效率... 目录Redis主DodMIK从复制实现原理实现原理Psync: 2.8版本后总结Redis主从复制实

什么是cron? Linux系统下Cron定时任务使用指南

《什么是cron?Linux系统下Cron定时任务使用指南》在日常的Linux系统管理和维护中,定时执行任务是非常常见的需求,你可能需要每天执行备份任务、清理系统日志或运行特定的脚本,而不想每天... 在管理 linux 服务器的过程中,总有一些任务需要我们定期或重复执行。就比如备份任务,通常会选在服务器资

锐捷和腾达哪个好? 两个品牌路由器对比分析

《锐捷和腾达哪个好?两个品牌路由器对比分析》在选择路由器时,Tenda和锐捷都是备受关注的品牌,各自有独特的产品特点和市场定位,选择哪个品牌的路由器更合适,实际上取决于你的具体需求和使用场景,我们从... 在选购路由器时,锐捷和腾达都是市场上备受关注的品牌,但它们的定位和特点却有所不同。锐捷更偏向企业级和专

TP-LINK/水星和hasivo交换机怎么选? 三款网管交换机系统功能对比

《TP-LINK/水星和hasivo交换机怎么选?三款网管交换机系统功能对比》今天选了三款都是”8+1″的2.5G网管交换机,分别是TP-LINK水星和hasivo交换机,该怎么选呢?这些交换机功... TP-LINK、水星和hasivo这三台交换机都是”8+1″的2.5G网管交换机,我手里的China编程has

Spring中Bean有关NullPointerException异常的原因分析

《Spring中Bean有关NullPointerException异常的原因分析》在Spring中使用@Autowired注解注入的bean不能在静态上下文中访问,否则会导致NullPointerE... 目录Spring中Bean有关NullPointerException异常的原因问题描述解决方案总结

python中的与时间相关的模块应用场景分析

《python中的与时间相关的模块应用场景分析》本文介绍了Python中与时间相关的几个重要模块:`time`、`datetime`、`calendar`、`timeit`、`pytz`和`dateu... 目录1. time 模块2. datetime 模块3. calendar 模块4. timeit