RAG 进阶:零成本 chat_with_readthedocs

2024-09-03 22:28

本文主要是介绍RAG 进阶:零成本 chat_with_readthedocs,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Readthedocs 是知名的文档托管平台,通常用于免费存放 GitHub 和 GitLab 的项目文档。当项目文档较多时,简单的搜索难以满足读者需求,此外在 AI 2.0 时代,“主动寻找答案”这类用户体验已经逐渐落后。

本文将介绍如何基于 HuixiangDou 在 readthedocs 中做源码检索,同时不需要自备 GPU 服务器和域名。

HuixiangDou ——开源的适合群聊场景的 LLM 知识助手 GitHub 链接:(欢迎 star) https://github.com/internlm/huixiangdou

最终效果见下图,HuixiangDou 会先检索项目文档和 python 源码,然后流式作答。点击右下角 “Chat with AI” 即可体验,可尝试问它这些问题:

  • 如何安装 HuixiangDou?

  • llm_client.py 是干啥用的?

1. 服务部署方法

chat_with_readthedocs 的零成本部署结构如下图所示:

添加图片注释,不超过 140 字(可选)

其中,

  • readthedocs 用于托管中英文文档

  • OpenXLab 提供 https 入口,这是因为 readthedocs 作为 https 服务,无法内嵌 http 网页

  • SiliconCloud 提供 text2vec、reranker 和 LLM 模型的远程 API。考虑到 siliconcloud bce 行为和 GitHub 并未完全对齐,若自备 GPU 机器运行模型,精度会更高

以下是具体操作步骤。

1.1 准备代码和文档

假设我们用 mmpose 所有文档做知识库,把知识库放入 repodir。这里可替换自己的专业知识文档。

cd HuixiangDou
mkdir repodir
git clone https://github.com/open-mmlab/mmpose --depth=1
# 移除知识库的 .git 方便提交
rm -rf .git

调整 gradio_ui.py 的默认配置,使用 config-cpu.ini。

# huixiangdou/gradio_ui.pyparser.add_argument('--config_path',default='config-cpu.ini',type=str,
..

连同自己的知识库和 Huixiangou 源码,一起提交到 GitHub,例如 huixiangdou-readthedocs 的 for-openxlab-readthedocs 分支。

1.2 创建 OpenXLab 应用

打开 OpenXLab,创建 Gradio 类型应用。

  1. 填入上一步的 GitHub 地址和分支名称

  2. 服务器选择 CPU

确认后,修改应用设置:

  • 自定义启动文件 改为 huixiangdou/gradio_ui.py

  • 由于代码已开源,需配置环境变量。HuixiangDou 会优先使用 config 配置中的 token,找不到时会尝试检查 SILICONCLOUD_TOKEN 和 LLM_API_TOKEN,如图:

添加图片注释,不超过 140 字(可选)

同步代码、启动应用。首次运行需要 10min 左右建立稠密和稀疏特征库,结束后应该能看到一个 gradio 应用。例如:

https://openxlab.org.cn/apps/detail/tpoisonooo/HuixiangDou-readthedocs

在浏览器中按 F12,检查源码,可获得服务对应的 https 地址:

https://openxlab.org.cn/apps/detail/tpoisonooo/HuixiangDou-readthedocs

只要不在 OpenXLab 中点击 “删除应用数据”,这个地址就是固定的。

1.3 使用 readthedocs 自定义主题

假设你已经熟悉 readthedocs 基本用法,可以直接拷贝 HuixiangDou docs 目录

  • zh 或 en 目录皆可

  • 在 requirements/doc.txt 设置自定义主题

https://github.com/tpoisonooo/pytorch_sphinx_theme 是我们的自定义主题实现,主要是:

  1. 在 layout.html 创建了一个 chatButton 和空白 container

  2. 为 chatButton 绑定事件。按钮点击时,空白 container 将加载 https 地址,也就是前面的:

bash https://g-app-center-000704-0786-wrbqzpv.openxlab.space 在 theme.css 中,您可修改自己喜欢的样式。

最后,在 readthedocs.io 配置自己的项目,Build Version 即可。

2. 代码检索方案

本文使用稀疏方法实现代码检索。

添加图片注释,不超过 140 字(可选)

具体来说:

  1. 魔改了一个 bm25 实现,完整源码 189 行

  2. 在特征库建立期间。对项目中的 python 代码,用文件名、ast 抽取的类名、函数名和注释,作为 chunk

  3. 把 chunk 分词后,建立稀疏特征

检索期间:

  1. query 分词后,参与稀疏查询

  2. 稀疏和稠密结果共同参与 rerank 这么设计的理由如下:

  • readthedocs 中的响应要尽量快,因此稀疏、稠密、网络搜索必须并行执行,共同参与 rerank、减少 LLM 调用,才能缩短 pipeline 延迟

  • bm25 的输入应避免噪音,因此仅用函数名、类名、文件名等具有签名意义数据做输入

3. 总结

本文介绍了如何基于 HuixiangDou、OpenXLab 和 SiliconCloud,零成本在 readthedocs 搭建代码/文档问答助手,同时介绍了 HuixiangDou 中实现代码检索的稀疏方法。

需要额外注意的是,为降低成本,本文并未开启图文混合检索;同时由于远程 bce 接口行为和 GitHub 不一致,会轻微影响服务精度。

这篇关于RAG 进阶:零成本 chat_with_readthedocs的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1134221

相关文章

Spring Security 从入门到进阶系列教程

Spring Security 入门系列 《保护 Web 应用的安全》 《Spring-Security-入门(一):登录与退出》 《Spring-Security-入门(二):基于数据库验证》 《Spring-Security-入门(三):密码加密》 《Spring-Security-入门(四):自定义-Filter》 《Spring-Security-入门(五):在 Sprin

Java进阶13讲__第12讲_1/2

多线程、线程池 1.  线程概念 1.1  什么是线程 1.2  线程的好处 2.   创建线程的三种方式 注意事项 2.1  继承Thread类 2.1.1 认识  2.1.2  编码实现  package cn.hdc.oop10.Thread;import org.slf4j.Logger;import org.slf4j.LoggerFactory

[MySQL表的增删改查-进阶]

🌈个人主页:努力学编程’ ⛅个人推荐: c语言从初阶到进阶 JavaEE详解 数据结构 ⚡学好数据结构,刷题刻不容缓:点击一起刷题 🌙心灵鸡汤:总有人要赢,为什么不能是我呢 💻💻💻数据库约束 🔭🔭🔭约束类型 not null: 指示某列不能存储 NULL 值unique: 保证某列的每行必须有唯一的值default: 规定没有给列赋值时的默认值.primary key:

【Linux 从基础到进阶】Ansible自动化运维工具使用

Ansible自动化运维工具使用 Ansible 是一款开源的自动化运维工具,采用无代理架构(agentless),基于 SSH 连接进行管理,具有简单易用、灵活强大、可扩展性高等特点。它广泛用于服务器管理、应用部署、配置管理等任务。本文将介绍 Ansible 的安装、基本使用方法及一些实际运维场景中的应用,旨在帮助运维人员快速上手并熟练运用 Ansible。 1. Ansible的核心概念

Flutter 进阶:绘制加载动画

绘制加载动画:由小圆组成的大圆 1. 定义 LoadingScreen 类2. 实现 _LoadingScreenState 类3. 定义 LoadingPainter 类4. 总结 实现加载动画 我们需要定义两个类:LoadingScreen 和 LoadingPainter。LoadingScreen 负责控制动画的状态,而 LoadingPainter 则负责绘制动画。

从0到1,AI我来了- (7)AI应用-ComfyUI-II(进阶)

上篇comfyUI 入门 ,了解了TA是个啥,这篇,我们通过ComfyUI 及其相关Lora 模型,生成一些更惊艳的图片。这篇主要了解这些内容:         1、哪里获取模型?         2、实践如何画一个美女?         3、附录:               1)相关SD(稳定扩散模型的组成部分)               2)模型放置目录(重要)

java学习,进阶,提升

http://how2j.cn/k/hutool/hutool-brief/1930.html?p=73689

【408DS算法题】039进阶-判断图中路径是否存在

Index 题目分析实现总结 题目 对于给定的图G,设计函数实现判断G中是否含有从start结点到stop结点的路径。 分析实现 对于图的路径的存在性判断,有两种做法:(本文的实现均基于邻接矩阵存储方式的图) 1.图的BFS BFS的思路相对比较直观——从起始结点出发进行层次遍历,遍历过程中遇到结点i就表示存在路径start->i,故只需判断每个结点i是否就是stop

【Python从入门到进阶】64、Pandas如何实现数据的Concat合并

接上篇《63.Pandas如何实现数据的Merge》 上一篇我们学习了Pandas如何实现数据的Merge,本篇我们来继续学习Pandas如何实现数据的Concat合并。 一、引言 在数据处理过程中,经常需要将多个数据集合并为一个统一的数据集,以便进行进一步的分析或建模。这种需求在多种场景下都非常常见,比如合并不同来源的数据集以获取更全面的信息、将时间序列数据按时间顺序拼接起来以观察长期趋势等

【Linux 从基础到进阶】 Python脚本在运维中的应用

Python脚本在运维中的应用 在现代运维工作中,Python因其简洁、高效和跨平台的特性,成为了系统管理员自动化工作的重要工具。Python不仅可以轻松处理系统管理任务,还可以与各种运维工具进行无缝集成。本文将介绍Python脚本在运维中的常见应用场景,帮助运维人员提高效率,减少人工操作错误。 1. 自动化任务调度 示例介绍 运维工作中,定时任务是非常常见的需求。虽然cron是Linux