知识库的创建(3) - 知识库上传入口update_docs

2024-06-19 08:44

本文主要是介绍知识库的创建(3) - 知识库上传入口update_docs,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 前言
  • 一、添加了注释的源码
  • 二、 参数说明
  • 三、 功能说明
  • 四、 返回值
  • 总结


前言

langchain-chatchat用到的底层函数很多,为了大家思路更清晰,我们换个顺序,先从上传文档+更新、保存向量库的入口 update_docs 开始看起。

update_docs 是一个用于更新知识库文档的函数。这个函数能够处理多个文件,并将它们转换为知识库文档,还可以处理自定义的文档并将其向量化。以下是对该函数的详细介绍:

一、添加了注释的源码

def update_docs(knowledge_base_name: str = Body(..., description="知识库名称", examples=["samples"]),file_names: List[str] = Body(..., description="文件名称,支持多文件", examples=[["file_name1", "text.txt"]]),chunk_size: int = Body(CHUNK_SIZE, description="知识库中单段文本最大长度"),chunk_overlap: int = Body(OVERLAP_SIZE, description="知识库中相邻文本重合长度"),zh_title_enhance: bool = Body(ZH_TITLE_ENHANCE, description="是否开启中文标题加强"),override_custom_docs: bool = Body(False, description="是否覆盖之前自定义的docs"),docs: Json = Body({}, description="自定义的docs,需要转为json字符串",examples=[{"test.txt": [Document(page_content="custom doc")]}]),not_refresh_vs_cache: bool = Body(False, description="暂不保存向量库(用于FAISS)"),
) -> BaseResponse:"""更新知识库文档"""# 验证知识库名称是否合法if not validate_kb_name(knowledge_base_name):return BaseResponse(code=403, msg="Don't attack me")# 获取对应的知识库服务kb = KBServiceFactory.get_service_by_name(knowledge_base_name)if kb is None:return BaseResponse(code=404, msg=f"未找到知识库 {knowledge_base_name}")failed_files = {}  # 记录加载失败的文件kb_files = []  # 需要处理的知识库文件列表# 生成需要加载文档的文件列表for file_name in file_names:file_detail = get_file_detail(kb_name=knowledge_base_name, filename=file_name)# 如果文件之前使用了自定义文档,根据参数决定略过或覆盖if file_detail.get("custom_docs") and not override_custom_docs:continueif file_name not in docs:try:kb_files.append(KnowledgeFile(filename=file_name, knowledge_base_name=knowledge_base_name))except Exception as e:# 记录加载文档时的错误信息msg = f"加载文档 {file_name} 时出错:{e}"logger.error(f'{e.__class__.__name__}: {msg}',exc_info=e if log_verbose else None)failed_files[file_name] = msg# 从文件生成文档,并进行向量化for status, result in files2docs_in_thread(kb_files,chunk_size=chunk_size,chunk_overlap=chunk_overlap,zh_title_enhance=zh_title_enhance):if status:# 如果成功,更新知识库文档kb_name, file_name, new_docs = resultkb_file = KnowledgeFile(filename=file_name,knowledge_base_name=knowledge_base_name)kb_file.splited_docs = new_docskb.update_doc(kb_file, not_refresh_vs_cache=True)else:# 如果失败,记录错误信息kb_name, file_name, error = resultfailed_files[file_name] = error# 将自定义的文档进行向量化for file_name, v in docs.items():try:v = [x if isinstance(x, Document) else Document(**x) for x in v]kb_file = KnowledgeFile(filename=file_name, knowledge_base_name=knowledge_base_name)kb.update_doc(kb_file, docs=v, not_refresh_vs_cache=True)except Exception as e:# 记录自定义文档添加时的错误信息msg = f"为 {file_name} 添加自定义docs时出错:{e}"logger.error(f'{e.__class__.__name__}: {msg}',exc_info=e if log_verbose else None)failed_files[file_name] = msg# 保存向量库if not not_refresh_vs_cache:kb.save_vector_store()# 返回处理结果return BaseResponse(code=200, msg=f"更新文档完成", data={"failed_files": failed_files})

二、 参数说明

  1. knowledge_base_name (str):

    • 描述: 知识库的名称。
    • 示例: “samples”。
    • 用法: 必填参数,用于指定需要更新的知识库。
  2. file_names (List[str]):

    • 描述: 需要更新的文件名列表,支持多文件。
    • 示例: [“file_name1”, “text.txt”]。
    • 用法: 必填参数,用于指定需要处理的文件。
  3. chunk_size (int):

    • 描述: 知识库中单段文本的最大长度。
    • 默认值: CHUNK_SIZE。
    • 用法: 可选参数,用于指定文本分块的大小。
  4. chunk_overlap (int):

    • 描述: 知识库中相邻文本重合的长度。
    • 默认值: OVERLAP_SIZE。
    • 用法: 可选参数,用于指定文本分块时的重叠部分长度。
  5. zh_title_enhance (bool):

    • 描述: 是否开启中文标题加强功能。
    • 默认值: ZH_TITLE_ENHANCE。
    • 用法: 可选参数,用于指定是否增强中文标题。
  6. override_custom_docs (bool):

    • 描述: 是否覆盖之前自定义的文档。
    • 默认值: False。
    • 用法: 可选参数,用于指定是否覆盖已经存在的自定义文档。
  7. docs (Json):

    • 描述: 自定义的文档,需要转换为JSON字符串。
    • 示例: {“test.txt”: [Document(page_content=“custom doc”)]}。
    • 用法: 可选参数,用于传入自定义的文档内容。
  8. not_refresh_vs_cache (bool):

    • 描述: 暂不保存向量库(用于FAISS)。
    • 默认值: False。
    • 用法: 可选参数,用于指定是否保存向量库缓存。

三、 功能说明

该函数主要完成以下任务:

  1. 验证知识库名称

    • 首先调用 validate_kb_name 函数验证知识库名称是否有效。如果无效,返回403错误。
  2. 获取知识库服务

    • 使用 KBServiceFactory.get_service_by_name 函数获取知识库服务实例。如果未找到对应的知识库,返回404错误。
  3. 生成需要加载文档的文件列表

    • 对传入的文件名列表进行遍历,生成需要加载文档的文件列表。如果文件之前使用了自定义文档,根据参数决定略过或覆盖。
  4. 从文件生成文档并进行向量化

    • 调用 files2docs_in_thread 函数将文件生成文档,并在多线程中进行处理。对于处理成功的文件,更新知识库文档;对于处理失败的文件,记录错误信息。
  5. 处理自定义文档并进行向量化

    • 对传入的自定义文档进行处理,将其转换为 Document 对象,并更新到知识库中。如果处理失败,记录错误信息。
  6. 保存向量库

    • 如果未指定 not_refresh_vs_cache 参数,则保存向量库。

四、 返回值

该函数返回一个 BaseResponse 对象,包含以下信息:

  • code: 状态码,200表示成功。
  • msg: 消息,更新文档完成。
  • data: 数据,包含处理失败的文件信息。

总结

通过上述步骤,update_docs 函数能够有效地更新知识库中的文档,并提供处理失败的详细信息,以便于后续的调试和处理。

这篇关于知识库的创建(3) - 知识库上传入口update_docs的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1074542

相关文章

【Python编程】Linux创建虚拟环境并配置与notebook相连接

1.创建 使用 venv 创建虚拟环境。例如,在当前目录下创建一个名为 myenv 的虚拟环境: python3 -m venv myenv 2.激活 激活虚拟环境使其成为当前终端会话的活动环境。运行: source myenv/bin/activate 3.与notebook连接 在虚拟环境中,使用 pip 安装 Jupyter 和 ipykernel: pip instal

在cscode中通过maven创建java项目

在cscode中创建java项目 可以通过博客完成maven的导入 建立maven项目 使用快捷键 Ctrl + Shift + P 建立一个 Maven 项目 1 Ctrl + Shift + P 打开输入框2 输入 "> java create"3 选择 maven4 选择 No Archetype5 输入 域名6 输入项目名称7 建立一个文件目录存放项目,文件名一般为项目名8 确定

Java 创建图形用户界面(GUI)入门指南(Swing库 JFrame 类)概述

概述 基本概念 Java Swing 的架构 Java Swing 是一个为 Java 设计的 GUI 工具包,是 JAVA 基础类的一部分,基于 Java AWT 构建,提供了一系列轻量级、可定制的图形用户界面(GUI)组件。 与 AWT 相比,Swing 提供了许多比 AWT 更好的屏幕显示元素,更加灵活和可定制,具有更好的跨平台性能。 组件和容器 Java Swing 提供了许多

顺序表之创建,判满,插入,输出

文章目录 🍊自我介绍🍊创建一个空的顺序表,为结构体在堆区分配空间🍊插入数据🍊输出数据🍊判断顺序表是否满了,满了返回值1,否则返回0🍊main函数 你的点赞评论就是对博主最大的鼓励 当然喜欢的小伙伴可以:点赞+关注+评论+收藏(一键四连)哦~ 🍊自我介绍   Hello,大家好,我是小珑也要变强(也是小珑),我是易编程·终身成长社群的一名“创始团队·嘉宾”

Maven创建项目中的groupId, artifactId, 和 version的意思

文章目录 groupIdartifactIdversionname groupId 定义:groupId 是 Maven 项目坐标的第一个部分,它通常表示项目的组织或公司的域名反转写法。例如,如果你为公司 example.com 开发软件,groupId 可能是 com.example。作用:groupId 被用来组织和分组相关的 Maven artifacts,这样可以避免

批处理以当前时间为文件名创建文件

批处理以当前时间为文件名创建文件 批处理创建空文件 有时候,需要创建以当前时间命名的文件,手动输入当然可以,但是有更省心的方法吗? 假设我是 windows 操作系统,打开命令行。 输入以下命令试试: echo %date:~0,4%_%date:~5,2%_%date:~8,2%_%time:~0,2%_%time:~3,2%_%time:~6,2% 输出类似: 2019_06

ORACLE 11g 创建数据库时 Enterprise Manager配置失败的解决办法 无法打开OEM的解决办法

在win7 64位系统下安装oracle11g,在使用Database configuration Assistant创建数据库时,在创建到85%的时候报错,错误如下: 解决办法: 在listener.ora中增加对BlueAeri-PC或ip地址的侦听,具体步骤如下: 1.启动Net Manager,在“监听程序”--Listener下添加一个地址,主机名写计

PHP7扩展开发之类的创建

本篇文章主要将如何在扩展中创建一个对象。创建的对象的过程,其实和一个小孩出生,成长的过程有些类似。 第一步,办准生证 生孩子第一步,先办准生证。声明我要生孩子了。对象创建的时候,如何办准生证呢?只要定义一个zend_class_entry变量即可。代码如下: zend_class_entry ce; zend_class_entry 是啥?可以认为它使一个原型,定义了一些对象应该有哪些东西

创建表时添加约束

查询表中的约束信息: SHOW KEYS FROM 表名; 示例: 创建depts表包含department_id该列为主键自动增长,department_name列不允许重复,location_id列不允许有空值。 create table depts(department_id int primary key auto_increment,department_name varcha

UML- 统一建模语言(Unified Modeling Language)创建项目的序列图及类图

陈科肇 ============= 1.主要模型 在UML系统开发中有三个主要的模型: 功能模型:从用户的角度展示系统的功能,包括用例图。 对象模型:采用对象、属性、操作、关联等概念展示系统的结构和基础,包括类图、对象图、包图。 动态模型:展现系统的内部行为。 包括序列图、活动图、状态图。 因为要创建个人空间项目并不是一个很大的项目,我这里只须关注两种图的创建就可以了,而在开始创建UML图