知识库的创建(3) - 知识库上传入口update_docs

2024-06-19 08:44

本文主要是介绍知识库的创建(3) - 知识库上传入口update_docs,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 前言
  • 一、添加了注释的源码
  • 二、 参数说明
  • 三、 功能说明
  • 四、 返回值
  • 总结


前言

langchain-chatchat用到的底层函数很多,为了大家思路更清晰,我们换个顺序,先从上传文档+更新、保存向量库的入口 update_docs 开始看起。

update_docs 是一个用于更新知识库文档的函数。这个函数能够处理多个文件,并将它们转换为知识库文档,还可以处理自定义的文档并将其向量化。以下是对该函数的详细介绍:

一、添加了注释的源码

def update_docs(knowledge_base_name: str = Body(..., description="知识库名称", examples=["samples"]),file_names: List[str] = Body(..., description="文件名称,支持多文件", examples=[["file_name1", "text.txt"]]),chunk_size: int = Body(CHUNK_SIZE, description="知识库中单段文本最大长度"),chunk_overlap: int = Body(OVERLAP_SIZE, description="知识库中相邻文本重合长度"),zh_title_enhance: bool = Body(ZH_TITLE_ENHANCE, description="是否开启中文标题加强"),override_custom_docs: bool = Body(False, description="是否覆盖之前自定义的docs"),docs: Json = Body({}, description="自定义的docs,需要转为json字符串",examples=[{"test.txt": [Document(page_content="custom doc")]}]),not_refresh_vs_cache: bool = Body(False, description="暂不保存向量库(用于FAISS)"),
) -> BaseResponse:"""更新知识库文档"""# 验证知识库名称是否合法if not validate_kb_name(knowledge_base_name):return BaseResponse(code=403, msg="Don't attack me")# 获取对应的知识库服务kb = KBServiceFactory.get_service_by_name(knowledge_base_name)if kb is None:return BaseResponse(code=404, msg=f"未找到知识库 {knowledge_base_name}")failed_files = {}  # 记录加载失败的文件kb_files = []  # 需要处理的知识库文件列表# 生成需要加载文档的文件列表for file_name in file_names:file_detail = get_file_detail(kb_name=knowledge_base_name, filename=file_name)# 如果文件之前使用了自定义文档,根据参数决定略过或覆盖if file_detail.get("custom_docs") and not override_custom_docs:continueif file_name not in docs:try:kb_files.append(KnowledgeFile(filename=file_name, knowledge_base_name=knowledge_base_name))except Exception as e:# 记录加载文档时的错误信息msg = f"加载文档 {file_name} 时出错:{e}"logger.error(f'{e.__class__.__name__}: {msg}',exc_info=e if log_verbose else None)failed_files[file_name] = msg# 从文件生成文档,并进行向量化for status, result in files2docs_in_thread(kb_files,chunk_size=chunk_size,chunk_overlap=chunk_overlap,zh_title_enhance=zh_title_enhance):if status:# 如果成功,更新知识库文档kb_name, file_name, new_docs = resultkb_file = KnowledgeFile(filename=file_name,knowledge_base_name=knowledge_base_name)kb_file.splited_docs = new_docskb.update_doc(kb_file, not_refresh_vs_cache=True)else:# 如果失败,记录错误信息kb_name, file_name, error = resultfailed_files[file_name] = error# 将自定义的文档进行向量化for file_name, v in docs.items():try:v = [x if isinstance(x, Document) else Document(**x) for x in v]kb_file = KnowledgeFile(filename=file_name, knowledge_base_name=knowledge_base_name)kb.update_doc(kb_file, docs=v, not_refresh_vs_cache=True)except Exception as e:# 记录自定义文档添加时的错误信息msg = f"为 {file_name} 添加自定义docs时出错:{e}"logger.error(f'{e.__class__.__name__}: {msg}',exc_info=e if log_verbose else None)failed_files[file_name] = msg# 保存向量库if not not_refresh_vs_cache:kb.save_vector_store()# 返回处理结果return BaseResponse(code=200, msg=f"更新文档完成", data={"failed_files": failed_files})

二、 参数说明

  1. knowledge_base_name (str):

    • 描述: 知识库的名称。
    • 示例: “samples”。
    • 用法: 必填参数,用于指定需要更新的知识库。
  2. file_names (List[str]):

    • 描述: 需要更新的文件名列表,支持多文件。
    • 示例: [“file_name1”, “text.txt”]。
    • 用法: 必填参数,用于指定需要处理的文件。
  3. chunk_size (int):

    • 描述: 知识库中单段文本的最大长度。
    • 默认值: CHUNK_SIZE。
    • 用法: 可选参数,用于指定文本分块的大小。
  4. chunk_overlap (int):

    • 描述: 知识库中相邻文本重合的长度。
    • 默认值: OVERLAP_SIZE。
    • 用法: 可选参数,用于指定文本分块时的重叠部分长度。
  5. zh_title_enhance (bool):

    • 描述: 是否开启中文标题加强功能。
    • 默认值: ZH_TITLE_ENHANCE。
    • 用法: 可选参数,用于指定是否增强中文标题。
  6. override_custom_docs (bool):

    • 描述: 是否覆盖之前自定义的文档。
    • 默认值: False。
    • 用法: 可选参数,用于指定是否覆盖已经存在的自定义文档。
  7. docs (Json):

    • 描述: 自定义的文档,需要转换为JSON字符串。
    • 示例: {“test.txt”: [Document(page_content=“custom doc”)]}。
    • 用法: 可选参数,用于传入自定义的文档内容。
  8. not_refresh_vs_cache (bool):

    • 描述: 暂不保存向量库(用于FAISS)。
    • 默认值: False。
    • 用法: 可选参数,用于指定是否保存向量库缓存。

三、 功能说明

该函数主要完成以下任务:

  1. 验证知识库名称

    • 首先调用 validate_kb_name 函数验证知识库名称是否有效。如果无效,返回403错误。
  2. 获取知识库服务

    • 使用 KBServiceFactory.get_service_by_name 函数获取知识库服务实例。如果未找到对应的知识库,返回404错误。
  3. 生成需要加载文档的文件列表

    • 对传入的文件名列表进行遍历,生成需要加载文档的文件列表。如果文件之前使用了自定义文档,根据参数决定略过或覆盖。
  4. 从文件生成文档并进行向量化

    • 调用 files2docs_in_thread 函数将文件生成文档,并在多线程中进行处理。对于处理成功的文件,更新知识库文档;对于处理失败的文件,记录错误信息。
  5. 处理自定义文档并进行向量化

    • 对传入的自定义文档进行处理,将其转换为 Document 对象,并更新到知识库中。如果处理失败,记录错误信息。
  6. 保存向量库

    • 如果未指定 not_refresh_vs_cache 参数,则保存向量库。

四、 返回值

该函数返回一个 BaseResponse 对象,包含以下信息:

  • code: 状态码,200表示成功。
  • msg: 消息,更新文档完成。
  • data: 数据,包含处理失败的文件信息。

总结

通过上述步骤,update_docs 函数能够有效地更新知识库中的文档,并提供处理失败的详细信息,以便于后续的调试和处理。

这篇关于知识库的创建(3) - 知识库上传入口update_docs的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1074542

相关文章

Window Server创建2台服务器的故障转移群集的图文教程

《WindowServer创建2台服务器的故障转移群集的图文教程》本文主要介绍了在WindowsServer系统上创建一个包含两台成员服务器的故障转移群集,文中通过图文示例介绍的非常详细,对大家的... 目录一、 准备条件二、在ServerB安装故障转移群集三、在ServerC安装故障转移群集,操作与Ser

Window Server2016 AD域的创建的方法步骤

《WindowServer2016AD域的创建的方法步骤》本文主要介绍了WindowServer2016AD域的创建的方法步骤,文中通过图文介绍的非常详细,对大家的学习或者工作具有一定的参考学习价... 目录一、准备条件二、在ServerA服务器中常见AD域管理器:三、创建AD域,域地址为“test.ly”

Python在固定文件夹批量创建固定后缀的文件(方法详解)

《Python在固定文件夹批量创建固定后缀的文件(方法详解)》文章讲述了如何使用Python批量创建后缀为.md的文件夹,生成100个,代码中需要修改的路径、前缀和后缀名,并提供了注意事项和代码示例,... 目录1. python需求的任务2. Python代码的实现3. 代码修改的位置4. 运行结果5.

使用IntelliJ IDEA创建简单的Java Web项目完整步骤

《使用IntelliJIDEA创建简单的JavaWeb项目完整步骤》:本文主要介绍如何使用IntelliJIDEA创建一个简单的JavaWeb项目,实现登录、注册和查看用户列表功能,使用Se... 目录前置准备项目功能实现步骤1. 创建项目2. 配置 Tomcat3. 项目文件结构4. 创建数据库和表5.

使用SpringBoot创建一个RESTful API的详细步骤

《使用SpringBoot创建一个RESTfulAPI的详细步骤》使用Java的SpringBoot创建RESTfulAPI可以满足多种开发场景,它提供了快速开发、易于配置、可扩展、可维护的优点,尤... 目录一、创建 Spring Boot 项目二、创建控制器类(Controller Class)三、运行

JAVA中整型数组、字符串数组、整型数和字符串 的创建与转换的方法

《JAVA中整型数组、字符串数组、整型数和字符串的创建与转换的方法》本文介绍了Java中字符串、字符数组和整型数组的创建方法,以及它们之间的转换方法,还详细讲解了字符串中的一些常用方法,如index... 目录一、字符串、字符数组和整型数组的创建1、字符串的创建方法1.1 通过引用字符数组来创建字符串1.2

手把手教你idea中创建一个javaweb(webapp)项目详细图文教程

《手把手教你idea中创建一个javaweb(webapp)项目详细图文教程》:本文主要介绍如何使用IntelliJIDEA创建一个Maven项目,并配置Tomcat服务器进行运行,过程包括创建... 1.启动idea2.创建项目模板点击项目-新建项目-选择maven,显示如下页面输入项目名称,选择

【Python编程】Linux创建虚拟环境并配置与notebook相连接

1.创建 使用 venv 创建虚拟环境。例如,在当前目录下创建一个名为 myenv 的虚拟环境: python3 -m venv myenv 2.激活 激活虚拟环境使其成为当前终端会话的活动环境。运行: source myenv/bin/activate 3.与notebook连接 在虚拟环境中,使用 pip 安装 Jupyter 和 ipykernel: pip instal

在cscode中通过maven创建java项目

在cscode中创建java项目 可以通过博客完成maven的导入 建立maven项目 使用快捷键 Ctrl + Shift + P 建立一个 Maven 项目 1 Ctrl + Shift + P 打开输入框2 输入 "> java create"3 选择 maven4 选择 No Archetype5 输入 域名6 输入项目名称7 建立一个文件目录存放项目,文件名一般为项目名8 确定

Java 创建图形用户界面(GUI)入门指南(Swing库 JFrame 类)概述

概述 基本概念 Java Swing 的架构 Java Swing 是一个为 Java 设计的 GUI 工具包,是 JAVA 基础类的一部分,基于 Java AWT 构建,提供了一系列轻量级、可定制的图形用户界面(GUI)组件。 与 AWT 相比,Swing 提供了许多比 AWT 更好的屏幕显示元素,更加灵活和可定制,具有更好的跨平台性能。 组件和容器 Java Swing 提供了许多