如何创建训练数据集

2024-09-08 00:36
文章标签 数据 训练 创建

本文主要是介绍如何创建训练数据集,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在 HuggingFace 上创建数据集非常方便,创建完成之后,通过 API 可以方便的下载并使用数据集,在 Google Colab 上进行模型调优,下载数据集速度非常快,本文通过 Dataset 库创建一个简单的训练数据集。

首先安装数据集依赖

  1. HuggingFace
datasets
huggingface_hub

创建数据集

替换为自己的 HuggingFace API key,运行一下数据集就生成了。Dataset 类提供了多种格式数据的上传,API 比较简单,例如list、dict、pandas 等等。

def upload():training_data = [[{"from": "user", "value": "hi"},{"from": "gpt", "value": "hello"}],[{"from": "user", "value": "how are you?"},{"from": "gpt", "value": "I am doing well, thank you."}],[{"from": "user", "value": "what is your name?"},{"from": "gpt", "value": "I am zidk2"}],[{"from": "user", "value": "who are you?"},{"from": "gpt", "value": "I am zidk2, your assistant."}],[{"from": "user", "value": "can you tell me your name?"},{"from": "gpt", "value": "I am zidk2."}],[{"from": "user", "value": "please tell me your name"},{"from": "gpt", "value": "I am zidk2."}],[{"from": "user", "value": "hello, what is your name?"},{"from": "gpt", "value": "I am zidk2."}],[{"from": "user", "value": "name?"},{"from": "gpt", "value": "I am zidk2."}],[{"from": "user", "value": "hi, who are you?"},{"from": "gpt", "value": "I am zidk2."}],[{"from": "user", "value": "what can I call you?"},{"from": "gpt", "value": "You can call me zidk2."}]]dataset = Dataset.from_dict({"conversations": training_data })# Set up Hugging Face APIhf_api = HfApi()# Provide your Hugging Face tokentoken = os.getenv("HF_KEY")  # Replace with your Hugging Face tokenHfFolder.save_token(token)# Create a new dataset repository on Hugging Facerepo_name = "test-data"  # Replace with your desired dataset nameusername = hf_api.whoami(token)['name']repo_id = f"{username}/{repo_name}"# Create the dataset repository on Hugging Facehf_api.create_repo(repo_id, repo_type="dataset", exist_ok=True)# Push the dataset to Hugging Face Hubdataset.push_to_hub(repo_id)print(f"Dataset uploaded to Hugging Face Hub: https://huggingface.co/datasets/{repo_id}")

登录 HuggingFace 进行查看
在这里插入图片描述

总结

在 HuggingFace 上创建数据集的好处是,可以方便的在云平台上获取数据并进行训练,如果使用阿里云,可以上将数据集上传到魔搭进行使用。

这篇关于如何创建训练数据集的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1146615

相关文章

SpringBoot集成Milvus实现数据增删改查功能

《SpringBoot集成Milvus实现数据增删改查功能》milvus支持的语言比较多,支持python,Java,Go,node等开发语言,本文主要介绍如何使用Java语言,采用springboo... 目录1、Milvus基本概念2、添加maven依赖3、配置yml文件4、创建MilvusClient

SpringValidation数据校验之约束注解与分组校验方式

《SpringValidation数据校验之约束注解与分组校验方式》本文将深入探讨SpringValidation的核心功能,帮助开发者掌握约束注解的使用技巧和分组校验的高级应用,从而构建更加健壮和可... 目录引言一、Spring Validation基础架构1.1 jsR-380标准与Spring整合1

MySQL 中查询 VARCHAR 类型 JSON 数据的问题记录

《MySQL中查询VARCHAR类型JSON数据的问题记录》在数据库设计中,有时我们会将JSON数据存储在VARCHAR或TEXT类型字段中,本文将详细介绍如何在MySQL中有效查询存储为V... 目录一、问题背景二、mysql jsON 函数2.1 常用 JSON 函数三、查询示例3.1 基本查询3.2

SpringBatch数据写入实现

《SpringBatch数据写入实现》SpringBatch通过ItemWriter接口及其丰富的实现,提供了强大的数据写入能力,本文主要介绍了SpringBatch数据写入实现,具有一定的参考价值,... 目录python引言一、ItemWriter核心概念二、数据库写入实现三、文件写入实现四、多目标写入

使用Python将JSON,XML和YAML数据写入Excel文件

《使用Python将JSON,XML和YAML数据写入Excel文件》JSON、XML和YAML作为主流结构化数据格式,因其层次化表达能力和跨平台兼容性,已成为系统间数据交换的通用载体,本文将介绍如何... 目录如何使用python写入数据到Excel工作表用Python导入jsON数据到Excel工作表用

Mysql如何将数据按照年月分组的统计

《Mysql如何将数据按照年月分组的统计》:本文主要介绍Mysql如何将数据按照年月分组的统计方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录mysql将数据按照年月分组的统计要的效果方案总结Mysql将数据按照年月分组的统计要的效果方案① 使用 DA

鸿蒙中Axios数据请求的封装和配置方法

《鸿蒙中Axios数据请求的封装和配置方法》:本文主要介绍鸿蒙中Axios数据请求的封装和配置方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录1.配置权限 应用级权限和系统级权限2.配置网络请求的代码3.下载在Entry中 下载AxIOS4.封装Htt

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

idea中创建新类时自动添加注释的实现

《idea中创建新类时自动添加注释的实现》在每次使用idea创建一个新类时,过了一段时间发现看不懂这个类是用来干嘛的,为了解决这个问题,我们可以设置在创建一个新类时自动添加注释,帮助我们理解这个类的用... 目录前言:详细操作:步骤一:点击上方的 文件(File),点击&nbmyHIgsp;设置(Setti