书生浦语训练营二期第三次作业

2024-04-08 07:04

本文主要是介绍书生浦语训练营二期第三次作业,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 基础作业
    • 1. 在茴香豆 Web 版中创建自己领域的知识问答助手
      • 第一轮对话
      • 第二轮对话
      • 第三轮对话
      • 第四轮对话
      • 第五轮对话
    • 2.在 InternLM Studio 上部署茴香豆技术助手
      • 修改配置文件
      • 创建知识库
      • 运行茴香豆知识助手


基础作业

1. 在茴香豆 Web 版中创建自己领域的知识问答助手

我上传了某机器人的控制接口协议文档

第一轮对话

在这里插入图片描述
回答正确:
在这里插入图片描述

第二轮对话

在这里插入图片描述
在这里插入图片描述
虽然没有返回JSON,但是设计的API调用顺序逻辑很合理

第三轮对话

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
前后对话记忆的效果也很好。

第四轮对话

在这里插入图片描述
正确,并且还给出了解释
在这里插入图片描述

第五轮对话

在这里插入图片描述
对于没有直接列出,而是在文档中用数量范围表示的代码也能精准检索。
在这里插入图片描述

2.在 InternLM Studio 上部署茴香豆技术助手

修改配置文件

用已下载模型的路径替换 /root/huixiangdou/config.ini 文件中的默认模型,需要修改 3 处模型地址,分别是:

  1. 命令行输入下面的命令,修改用于向量数据库和词嵌入的模型
sed -i '6s#.*#embedding_model_path = "/root/models/bce-embedding-base_v1"#' /root/huixiangdou/config.ini
- `sed -i` 表示直接修改文件内容,而不是输出到终端。
  • 6s 表示要替换第6行的内容。
  • # 用作分隔符,可以替代常用的 /,以避免与路径中的 / 冲突。
  • .* 匹配任意字符,表示替换整行的内容。
  • embedding_model_path = "/root/models/bce-embedding-base_v1" 是要替换的新内容,设置了用于向量数据库和词嵌入的模型路径。

这条命令的作用是将 /root/huixiangdou/config.ini 文件的第6行修改为 embedding_model_path = "/root/models/bce-embedding-base_v1",设置了向量数据库和词嵌入使用的模型路径。

  1. 用于检索的重排序模型
sed -i '7s#.*#reranker_model_path = "/root/models/bce-reranker-base_v1"#' /root/huixiangdou/config.ini

与第一条命令类似,这条命令将 /root/huixiangdou/config.ini 文件的第7行修改为 reranker_model_path = "/root/models/bce-reranker-base_v1",设置了用于检索的重排序模型的路径。

  1. 和本次选用的大模型
sed -i '29s#.*#local_llm_path = "/root/models/internlm2-chat-7b"#' /root/huixiangdou/config.ini

与前两条命令类似,这条命令将 /root/huixiangdou/config.ini 文件的第29行修改为 local_llm_path = "/root/models/internlm2-chat-7b",设置了本次选用的大模型的路径。
在这里插入图片描述
现在config.ini中的地址信息都被更改了:

在这里插入图片描述

创建知识库

使用 InternLM 的 Huixiangdou 文档作为新增知识数据检索来源,在不重新训练的情况下,打造一个 Huixiangdou 技术问答助手。

首先,下载 Huixiangdou 语料:

cd /root/huixiangdou && mkdir repodirgit clone https://github.com/internlm/huixiangdou --depth=1 repodir/huixiangdou

提取知识库特征,创建向量数据库。数据库向量化的过程应用到了 LangChain 的相关模块,默认嵌入和重排序模型调用的网易 BCE 双语模型,如果没有在 config.ini 文件中指定本地模型路径,茴香豆将自动从 HuggingFace 拉取默认模型。

除了语料知识的向量数据库,茴香豆建立接受和拒答两个向量数据库,用来在检索的过程中更加精确的判断提问的相关性,这两个数据库的来源分别是:

  • 接受问题列表,希望茴香豆助手回答的示例问题

    • 存储在 huixiangdou/resource/good_questions.json 中
      在这里插入图片描述
  • 拒绝问题列表,希望茴香豆助手拒答的示例问题

    • 存储在 huixiangdou/resource/bad_questions.json 中
    • 其中多为技术无关的主题或闲聊
    • 如:“nihui 是谁”, “具体在哪些位置进行修改?”, “你是谁?”, “1+1”
      在这里插入图片描述
      运行下面的命令,增加茴香豆相关的问题到接受问题示例中:
cd /root/huixiangdou
mv resource/good_questions.json resource/good_questions_bk.jsonecho '["mmpose中怎么调用mmyolo接口","mmpose实现姿态估计后怎么实现行为识别","mmpose执行提取关键点命令不是分为两步吗,一步是目标检测,另一步是关键点提取,我现在目标检测这部分的代码是demo/topdown_demo_with_mmdet.py demo/mmdetection_cfg/faster_rcnn_r50_fpn_coco.py checkpoints/faster_rcnn_r50_fpn_1x_coco_20200130-047c8118.pth   现在我想把这个mmdet的checkpoints换位yolo的,那么应该怎么操作","在mmdetection中,如何同时加载两个数据集,两个dataloader","如何将mmdetection2.28.2的retinanet配置文件改为单尺度的呢?","1.MMPose_Tutorial.ipynb、inferencer_demo.py、image_demo.py、bottomup_demo.py、body3d_pose_lifter_demo.py这几个文件和topdown_demo_with_mmdet.py的区别是什么,\n2.我如果要使用mmdet是不是就只能使用topdown_demo_with_mmdet.py文件,","mmpose 测试 map 一直是 0 怎么办?","如何使用mmpose检测人体关键点?","我使用的数据集是labelme标注的,我想知道mmpose的数据集都是什么样式的,全都是单目标的数据集标注,还是里边也有多目标然后进行标注","如何生成openmmpose的c++推理脚本","mmpose","mmpose的目标检测阶段调用的模型,一定要是demo文件夹下的文件吗,有没有其他路径下的文件","mmpose可以实现行为识别吗,如果要实现的话应该怎么做","我在mmyolo的v0.6.0 (15/8/2023)更新日志里看到了他新增了支持基于 MMPose 的 YOLOX-Pose,我现在是不是只需要在mmpose/project/yolox-Pose内做出一些设置就可以,换掉demo/mmdetection_cfg/faster_rcnn_r50_fpn_coco.py 改用mmyolo来进行目标检测了","mac m1从源码安装的mmpose是x86_64的","想请教一下mmpose有没有提供可以读取外接摄像头,做3d姿态并达到实时的项目呀?","huixiangdou 是什么?","使用科研仪器需要注意什么?","huixiangdou 是什么?","茴香豆 是什么?","茴香豆 能部署到微信吗?","茴香豆 怎么应用到飞书","茴香豆 能部署到微信群吗?","茴香豆 怎么应用到飞书群","huixiangdou 能部署到微信吗?","huixiangdou 怎么应用到飞书","huixiangdou 能部署到微信群吗?","huixiangdou 怎么应用到飞书群","huixiangdou","茴香豆","茴香豆 有哪些应用场景","huixiangdou 有什么用","huixiangdou 的优势有哪些?","茴香豆 已经应用的场景","huixiangdou 已经应用的场景","huixiangdou 怎么安装","茴香豆 怎么安装","茴香豆 最新版本是什么","茴香豆 支持哪些大模型","茴香豆 支持哪些通讯软件","config.ini 文件怎么配置","remote_llm_model 可以填哪些模型?"
]' > /root/huixiangdou/resource/good_questions.json

再创建一个测试用的问询列表,用来测试拒答流程是否起效:

cd /root/huixiangdouecho '[
"huixiangdou 是什么?",
"你好,介绍下自己"
]' > ./test_queries.json

在确定好语料来源后,运行下面的命令,创建 RAG 检索过程中使用的向量数据库:

# 创建向量数据库存储目录
cd /root/huixiangdou && mkdir workdir # 分别向量化知识语料、接受问题和拒绝问题中后保存到 workdir
python3 -m huixiangdou.service.feature_store --sample ./test_queries.json

向量数据库的创建需要等待一小段时间,过程约占用 1.6G 显存。

完成后,Huixiangdou 相关的新增知识就以向量数据库的形式存储在 workdir 文件夹下。

检索过程中,茴香豆会将输入问题与两个列表中的问题在向量空间进行相似性比较,判断该问题是否应该回答,避免群聊过程中的问答泛滥。确定的回答的问题会利用基础模型提取关键词,在知识库中检索 top K 相似的 chunk,综合问题和检索到的 chunk 生成答案。
运行截图:
在这里插入图片描述
拒答流程测试中,第一个问题“huixiangdou是什么?”顺利的通过了测试,检索模块也搜寻到了相关的语料。
在这里插入图片描述

第二个问题,被拒答模块成功的拒绝了:
但是我在跟着文档走的时候遇到了一个问题,提示
在这里插入图片描述
断言语句 assert (len(context) <= context_max_length) 用于确保上下文的长度(len(context))小于或等于允许的最大上下文长度(context_max_length)。如果条件不满足,就会引发 AssertionError。
我把retriver.py中的context_max_length变长了,之后可以实现和视频中一样的运行流程。
在这里插入图片描述
在这里插入图片描述

运行茴香豆知识助手

我们已经提取了知识库特征,并创建了对应的向量数据库。现在,让我们来测试一下效果:

命令行运行:

# 填入问题
sed -i '74s/.*/    queries = ["huixiangdou 是什么?", "茴香豆怎么部署到微信群", "今天天气怎么样?"]/' /root/huixiangdou/huixiangdou/main.py# 运行茴香豆
cd /root/huixiangdou/
python3 -m huixiangdou.main --standalone

RAG 技术的优势就是非参数化的模型调优,这里使用的仍然是基础模型 InternLM2-Chat-7B, 没有任何额外数据的训练。面对同样的问题,我们的茴香豆技术助理能够根据我们提供的数据库生成准确的答案。

  1. 首先,通过命令 python3 -m huixiangdou.main --standalone 启动茴香豆程序。--standalone 参数表示以独立模式运行。

  2. 程序开始加载各种模型和配置:

    • 加载了一些自然语言处理的模型,如 SentenceTransformer 和 BCEmbedding 的 RerankerModel。
    • 加载了一些配置文件,如 config.ini,其中包含了模型路径、数据路径和日志路径等设置。
  3. 程序启动了一个 HTTP 服务,监听在 0.0.0.0:8888,等待客户端的请求。

在这里插入图片描述

  1. 收到一个问题 “huixiangdou 是什么?”,程序开始处理(使用Prompt和internlm2-7b进行交互):
    • 首先判断这是一个有主题的疑问句,得分(这里打分好像失败了,模型回复无法进行打分)。
    • 然后提取出问题的主题是 “huixiangdou 的含义或定义”。
    • 在知识库中搜索相关的材料,找到了 README.md 文件,判断问题和材料的相关度为8分。
    • 使用 InternLM2-chat-7b 模型根据材料生成了一个回答,解释了 HuixiangDou 的定义和特点。
    • 将问题、回答和相关材料返回给客户端。
      在这里插入图片描述
      在这里插入图片描述

最后,这是茴香豆返回的最终答案:
在这里插入图片描述

  1. 收到另一个问题 “茴香豆怎么部署到微信群”,程序再次处理:
    • 判断这是一个得分为8分的疑问句,主题是 “茴香豆的微信部署”。
    • 在知识库中找到了相关的 README_zh.md 文件,问题和材料的相关度为8分。
    • 使用 InternLM2-chat-7b 模型根据材料生成了一个详细的部署步骤说明。
    • 将问题、回答和相关材料返回给客户端。
      在这里插入图片描述
      在这里插入图片描述

在这里插入图片描述

茴香豆返回的最终答案:
在这里插入图片描述

  1. 收到第三个问题 “今天天气怎么样?”,程序判断这个问题与知识库无关,直接返回空答案。
    (这里判断主题相似度的prompt好像缺失了,直接就返回了空答案。)
    在这里插入图片描述

这篇关于书生浦语训练营二期第三次作业的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/884883

相关文章

作业提交过程之HDFSMapReduce

作业提交全过程详解 (1)作业提交 第1步:Client调用job.waitForCompletion方法,向整个集群提交MapReduce作业。 第2步:Client向RM申请一个作业id。 第3步:RM给Client返回该job资源的提交路径和作业id。 第4步:Client提交jar包、切片信息和配置文件到指定的资源提交路径。 第5步:Client提交完资源后,向RM申请运行MrAp

代码训练营 Day26 | 47.排序II | 51. N-皇后 |

47.排序II 1.跟46题一样只不过加一个树层去重 class Solution(object):def backtracking(self,nums,path,result,used):# recursion stopif len(path) == len(nums):# collect our setresult.append(path[:])return for i in range(

代码随想录训练营day37|52. 携带研究材料,518.零钱兑换II,377. 组合总和 Ⅳ,70. 爬楼梯

52. 携带研究材料 这是一个完全背包问题,就是每个物品可以无限放。 在一维滚动数组的时候规定了遍历顺序是要从后往前的,就是因为不能多次放物体。 所以这里能多次放物体只需要把遍历顺序改改就好了 # include<iostream># include<vector>using namespace std;int main(){int n,m;cin>>n>>m;std::vector<i

代码随想录算法训练营Day37|完全背包问题、518.零钱兑换II、377. 组合总和 Ⅳ、70. 爬楼梯(进阶版)

完全背包问题                  和01背包最大区别就是一个物品可以重复放多次,因此遍历空间时可以从前往后。 import java.util.*;public class Main{public static void main (String[] args) {Scanner sc = new Scanner(System.in);int m = sc.nextInt

【代码随想录训练营第42期 续Day52打卡 - 图论Part3 - 卡码网 103. 水流问题 104. 建造最大岛屿

目录 一、做题心得 二、题目与题解 题目一:卡码网 103. 水流问题 题目链接 题解:DFS 题目二:卡码网 104. 建造最大岛屿 题目链接 题解:DFS  三、小结 一、做题心得 也是成功补上昨天的打卡了。 这里继续图论章节,还是选择使用 DFS 来解决这类搜索问题(单纯因为我更熟悉 DFS 一点),今天补卡的是水流问题和岛屿问题。个人感觉这一章节题对于刚

Java高级Day38-网络编程作业

112.网络编程作业 //1.使用字符流的方式,编写一个客户端程序和服务器端程序//2.客户端发送"name",服务器端接收到后,返回"我是nova"//3.客户端发送"hobby",服务器端接收到后,返回"编写java程序"//4.不是这两个问题,回复"你说啥呢"​​===============//客户端//===============public class SocketT

0906作业+思维导图梳理

一、作业: 1、创捷一个类似于qq登录的界面 1)源代码 #include "widget.h"#include "ui_widget.h"Widget::Widget(QWidget *parent): QWidget(parent), ui(new Ui::Widget){ui->setupUi(this);//QPushbutton:登录、退出this->join = new QP

代码随想录八股训练营第三十七天| C++

前言 一、map和unorder_map的区别? 1.1.内部实现: 1.2.排序: 1.3.查找效率: 1.4.内存使用: 1.5.迭代器: 1.6.键的唯一性: 1.7.使用场景: 二、C++11 新特性有哪些? 2.1.std::map: 总结 前言 在现代软件开发中,选择合适的数据结构如 C++ 标准库中的 std::map 和 std::unordered_

图论篇--代码随想录算法训练营第五十二天打卡| 101. 孤岛的总面积,102. 沉没孤岛,103. 水流问题,104.建造最大岛屿

101. 孤岛的总面积 题目链接:101. 孤岛的总面积 题目描述: 给定一个由 1(陆地)和 0(水)组成的矩阵,岛屿指的是由水平或垂直方向上相邻的陆地单元格组成的区域,且完全被水域单元格包围。孤岛是那些位于矩阵内部、所有单元格都不接触边缘的岛屿。 现在你需要计算所有孤岛的总面积,岛屿面积的计算方式为组成岛屿的陆地的总数。 解题思路: 从周边找到陆地,然后通过 dfs或者bfs 将

代码随想录八股训练营第三十六天| C++

前言 一、push_back()和emplace_back()的区别? 1.1.push_back(): 1.2.emplace_back(): 1.3.区别总结: 1.4.使用场景: 二、map dequeu list 的实现原理? 2.1.std::map: 2.2. std::deque: 2.3. std::list: 2.4. 区别总结: 总结 前言 在C+