基于Dify的QA数据集构建(附代码)

2024-06-06 02:28
文章标签 代码 数据 构建 qa dify

本文主要是介绍基于Dify的QA数据集构建(附代码),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

大模型相关目录

大模型,包括部署微调prompt/Agent应用开发、知识库增强、数据库增强、知识图谱增强、自然语言处理、多模态等大模型应用开发内容
从0起步,扬帆起航。

  1. 大模型应用向开发路径:AI代理工作流
  2. 大模型应用开发实用开源项目汇总
  3. 大模型问答项目问答性能评估方法
  4. 大模型数据侧总结
  5. 大模型token等基本概念及参数和内存的关系
  6. 大模型应用开发-华为大模型生态规划
  7. 从零开始的LLaMA-Factory的指令增量微调
  8. 基于实体抽取-SMC-语义向量的大模型能力评估通用算法(附代码)
  9. 基于Langchain-chatchat的向量库构建及检索(附代码)
  10. 一文教你成为合格的Prompt工程师
  11. 最简明的大模型agent教程
  12. 批量使用API调用langchain-chatchat知识库能力
  13. langchin-chatchat部分开发笔记(持续更新)
  14. 文心一言、讯飞星火、GPT、通义千问等线上API调用示例
  15. 大模型RAG性能提升路径
  16. langchain的基本使用
  17. 结合基础模型的大模型多源信息应用开发
  18. COT:大模型的强化利器
  19. 多角色大模型问答性能提升策略(附代码)
  20. 大模型接入外部在线信息提升应用性能
  21. 从零开始的Dify大模型应用开发指南
  22. 基于dify开发的多模态大模型应用(附代码)
  23. 基于零一万物多模态大模型通过外接数据方案优化图像文字抽取系统
  24. 快速接入stable diffusion的文生图能力
  25. 多模态大模型通过外接数据方案实现电力智能巡检(设计方案)
  26. 大模型prompt实例:知识库信息质量校验模块
  27. 基于Dify的LLM-RAG多轮对话需求解决方案(附代码)
  28. Dify大模型开发技巧:约束大模型回答范围
  29. 以API形式调用Dify项目应用(附代码)
  30. 基于Dify的QA数据集构建(附代码)

文章目录

  • 大模型相关目录
  • 需求介绍
  • 实现
    • Dify应用开发
      • API版代码


需求介绍

QA数据集,即问答数据集,对于测评大模型应用能力、指令微调具备一定的价值。
事实上,没有Dify时,完全可以调用API实现这一过程。但Dify进行实现后,该功能的复用、修改、配置效率都降进一步提升。
本文思路:
Dify应用开发——Dify开发细节介绍——数据情况——配合代码及文件

实现

Dify应用开发

在这里插入图片描述

prompt

你是一个问答数据生成专家,可以文本内容生成问答数据。
生成的问题和回答应口语形式描述出来。
每条问题要全面清晰,要求问题和回答的语句完整。
最后强调,以不同的角度生成2条问答数据。### 文本内容:[]压 low voltage,LV用于配电的交流系统中1000V及其以下的电压等级。
[来源:GB/T 2900.502008,2.1]### 生成问题:
问题1:低压的英文是什么
回答1:抵押的英文是low voltage
问题2:低压的含义是什么
回答2:低压是用于配电的交流系统中1000V及其以下的电压等级。### 文本内容:
5.3.12.2 工作负责人(监护人):a) 确认工作票所列安全措施正确、完备,符合现场实际条件,必要时予以补充;
b) 正确、安全地组织工作;
c) 工作前,对工作班成员进行工作任务、安全措施交底和危险点告知,并确保每个工作班成员都已签名确认;
d) 组织执行工作票所列由其负责的安全措施;### 生成问题:
问题1:工作负责人是否需要负责安全措施
回答1:工作负责人需要负责安全措施
问题2:工作成员不签名安全措施和危险点可以工作吗
回答2:工作成员不签名安全措施和危险点不可以工作### 文本内容:
{{#sys.query#}}

在这里插入图片描述
后处理
在这里插入图片描述
数据情况
在这里插入图片描述
实际代码

import timeimport pandas as pd
from openai import OpenAI
import os
import json
import requestsdef get_files_absolute_paths(folder_path):result = []# 确保给定的路径是存在的if not os.path.exists(folder_path):print(f"The path {folder_path} does not exist.")return []# 列出给定文件夹中的所有文件(不包括子文件夹)for file in os.listdir(folder_path):if os.path.isfile(os.path.join(folder_path, file)):# 构造文件的绝对路径file_path = os.path.abspath(os.path.join(folder_path, file))result.append(file_path)# 输出文件的绝对路径# print(file_path)return resultdef read_txt_file(file_path):with open(file_path, 'r', encoding='utf-8') as file:content = file.read()return contentdef get_llm_response(input_text):url = 'http://172.20.32.127:5001/v1/chat-messages'data = {"inputs": {},"query": input_text,"response_mode": "blocking","conversation_id": "","user": "abc-123",}json_data = json.dumps(data)response = requests.post(url,data=json_data,headers={"Content-Type": "application/json",'Authorization': f'Bearer '})response_text = response.textreturn json.loads(response_text)['answer']def cache(input_result):questions = []anwsers = []for index in range(len(input_result)):if index % 2 == 0:questions.append(input_result[index])else:anwsers.append(input_result[index])pd.DataFrame({'Q': questions, 'A': anwsers}).to_excel('QA_data.xlsx', index=False)folder_path = r'C:\Users\12258\Desktop\聊城电网相关文档\all'
files_path = get_files_absolute_paths(folder_path)result = []
for file_path in files_path:time.sleep(1)file_content = read_txt_file(file_path)llm_response = get_llm_response(file_content)print(type(llm_response),llm_response)for i in llm_response[1:-1].split(','):result.append(i.strip('"'))# print(result)cache(result)

API版代码

from llm_ask.ask_Tongyi import *
import os# 获取指定目录下所有文件的绝对路径列表
def get_files_in_directory(directory):result = []# 遍历指定目录下的所有文件和文件夹for root, dirs, files in os.walk(directory):# 只处理文件,不处理文件夹for file in files:# 获取文件的完整路径file_path = os.path.join(root, file)# 打印文件路径或进行其他操作# print(file_path)result.append(file_path)return result# 由json文件绝对路径读取单个json文件获取其文件名称和标题
def read_single_json(json_file_path:str)->str:title = json_file_path.split('\\')[-1][:-5]with open(json_file_path, 'r', encoding='utf-8') as file:data = str(json.load(file))return title,data# 以追加方式向指定的txt文件存入内容
def wirte_txt(txt_file_path,data):with open(txt_file_path,'a',encoding='utf-8') as f:f.write(data)f.write('\n\n')# 对llm返回的结果进行处理
def adjust_result(llm_result):llm_result_text = llm_result['text']return llm_result_textprompt_modules = ['''你是一个问答数据生成专家,可以就上述json数据生成问答数据。本次提问关注json格式中的 {ziduan} 字段,该字段是指{ziduan_describe}。生成的问题和回答应口语形式描述出来。每条问题要全面清晰,注明是对{zhengce}的{ziduan}进行提问。最后强调,以不同的角度生成3条问答数据以上。问题及答案符合口语习惯,采取如下格式:根据{zhengce}请回答问题1:回答1\n\n根据{zhengce}请回答问题2:回答2\\n\\n...]。'''
]ziduans = ['办理结果名称','承办机构','法定办结时限','受理时间、地点','咨询渠道','投诉渠道'
]ziduan_describes = ['所要办理的文件','办理该事项的政府机关部门名称','办理该文件所需的最大时限','办理该文件时,机关部门的工作地点和工作时间段','该事项相关的咨询渠道','该事项相关的投诉渠道'
]ziduan_indexs = range(len(ziduans))# exe
ask_tyqw = TongyiAPI()directory = r'C:\Users\12258\Desktop\zwllm_data_v240320\approval_data_300'  # 目录路径
file_paths = get_files_in_directory(directory)
for file_path in file_paths[5:]:title, json_data = read_single_json(file_path)prompt_data = json_datafor index in ziduan_indexs:prompt_module = prompt_modules[0].format(zhengce=title,ziduan=ziduans[index],ziduan_describe=ziduan_describes[index])prompt = prompt_data + '\n' + prompt_modulellm_result = ask_tyqw.get_one_response_by_prompt(prompt)print(llm_result)llm_adjust_result = adjust_result(llm_result)mid = directory.replace('approval_data_300','approval_data_300_ask_txt')+'\\'+title+'.txt'wirte_txt(mid, llm_adjust_result)
import requests
import json
import dashscope
from dashscope import Generation
from http import HTTPStatusclass TongyiAPI:def __init__(self):API_KEY = 'sk-'dashscope.api_key = API_KEYself.gen = Generation()def get_one_response_by_prompt(self, prompt):response = self.gen.call(model=dashscope.Generation.Models.qwen_turbo,prompt=prompt)# The response status_code is HTTPStatus.OK indicate success,# otherwise indicate request is failed, you can get error code# and message from code and message.if response.status_code == HTTPStatus.OK:# print(response.output)  # The output textprint(response.usage)  # The usage informationreturn response.outputelse:print(response.code)  # The error code.print(response.message)  # The error message.

这篇关于基于Dify的QA数据集构建(附代码)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1034840

相关文章

SpringBoot分段处理List集合多线程批量插入数据方式

《SpringBoot分段处理List集合多线程批量插入数据方式》文章介绍如何处理大数据量List批量插入数据库的优化方案:通过拆分List并分配独立线程处理,结合Spring线程池与异步方法提升效率... 目录项目场景解决方案1.实体类2.Mapper3.spring容器注入线程池bejsan对象4.创建

PHP轻松处理千万行数据的方法详解

《PHP轻松处理千万行数据的方法详解》说到处理大数据集,PHP通常不是第一个想到的语言,但如果你曾经需要处理数百万行数据而不让服务器崩溃或内存耗尽,你就会知道PHP用对了工具有多强大,下面小编就... 目录问题的本质php 中的数据流处理:为什么必不可少生成器:内存高效的迭代方式流量控制:避免系统过载一次性

C#实现千万数据秒级导入的代码

《C#实现千万数据秒级导入的代码》在实际开发中excel导入很常见,现代社会中很容易遇到大数据处理业务,所以本文我就给大家分享一下千万数据秒级导入怎么实现,文中有详细的代码示例供大家参考,需要的朋友可... 目录前言一、数据存储二、处理逻辑优化前代码处理逻辑优化后的代码总结前言在实际开发中excel导入很

SpringBoot+RustFS 实现文件切片极速上传的实例代码

《SpringBoot+RustFS实现文件切片极速上传的实例代码》本文介绍利用SpringBoot和RustFS构建高性能文件切片上传系统,实现大文件秒传、断点续传和分片上传等功能,具有一定的参考... 目录一、为什么选择 RustFS + SpringBoot?二、环境准备与部署2.1 安装 RustF

Python实现Excel批量样式修改器(附完整代码)

《Python实现Excel批量样式修改器(附完整代码)》这篇文章主要为大家详细介绍了如何使用Python实现一个Excel批量样式修改器,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一... 目录前言功能特性核心功能界面特性系统要求安装说明使用指南基本操作流程高级功能技术实现核心技术栈关键函

MyBatis-plus处理存储json数据过程

《MyBatis-plus处理存储json数据过程》文章介绍MyBatis-Plus3.4.21处理对象与集合的差异:对象可用内置Handler配合autoResultMap,集合需自定义处理器继承F... 目录1、如果是对象2、如果需要转换的是List集合总结对象和集合分两种情况处理,目前我用的MP的版本

Three.js构建一个 3D 商品展示空间完整实战项目

《Three.js构建一个3D商品展示空间完整实战项目》Three.js是一个强大的JavaScript库,专用于在Web浏览器中创建3D图形,:本文主要介绍Three.js构建一个3D商品展... 目录引言项目核心技术1. 项目架构与资源组织2. 多模型切换、交互热点绑定3. 移动端适配与帧率优化4. 可

GSON框架下将百度天气JSON数据转JavaBean

《GSON框架下将百度天气JSON数据转JavaBean》这篇文章主要为大家详细介绍了如何在GSON框架下实现将百度天气JSON数据转JavaBean,文中的示例代码讲解详细,感兴趣的小伙伴可以了解下... 目录前言一、百度天气jsON1、请求参数2、返回参数3、属性映射二、GSON属性映射实战1、类对象映

Redis实现高效内存管理的示例代码

《Redis实现高效内存管理的示例代码》Redis内存管理是其核心功能之一,为了高效地利用内存,Redis采用了多种技术和策略,如优化的数据结构、内存分配策略、内存回收、数据压缩等,下面就来详细的介绍... 目录1. 内存分配策略jemalloc 的使用2. 数据压缩和编码ziplist示例代码3. 优化的

C# LiteDB处理时间序列数据的高性能解决方案

《C#LiteDB处理时间序列数据的高性能解决方案》LiteDB作为.NET生态下的轻量级嵌入式NoSQL数据库,一直是时间序列处理的优选方案,本文将为大家大家简单介绍一下LiteDB处理时间序列数... 目录为什么选择LiteDB处理时间序列数据第一章:LiteDB时间序列数据模型设计1.1 核心设计原则