如何创建训练数据集

2024-09-08 00:36
文章标签 数据 训练 创建

本文主要是介绍如何创建训练数据集,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在 HuggingFace 上创建数据集非常方便,创建完成之后,通过 API 可以方便的下载并使用数据集,在 Google Colab 上进行模型调优,下载数据集速度非常快,本文通过 Dataset 库创建一个简单的训练数据集。

首先安装数据集依赖

  1. HuggingFace
datasets
huggingface_hub

创建数据集

替换为自己的 HuggingFace API key,运行一下数据集就生成了。Dataset 类提供了多种格式数据的上传,API 比较简单,例如list、dict、pandas 等等。

def upload():training_data = [[{"from": "user", "value": "hi"},{"from": "gpt", "value": "hello"}],[{"from": "user", "value": "how are you?"},{"from": "gpt", "value": "I am doing well, thank you."}],[{"from": "user", "value": "what is your name?"},{"from": "gpt", "value": "I am zidk2"}],[{"from": "user", "value": "who are you?"},{"from": "gpt", "value": "I am zidk2, your assistant."}],[{"from": "user", "value": "can you tell me your name?"},{"from": "gpt", "value": "I am zidk2."}],[{"from": "user", "value": "please tell me your name"},{"from": "gpt", "value": "I am zidk2."}],[{"from": "user", "value": "hello, what is your name?"},{"from": "gpt", "value": "I am zidk2."}],[{"from": "user", "value": "name?"},{"from": "gpt", "value": "I am zidk2."}],[{"from": "user", "value": "hi, who are you?"},{"from": "gpt", "value": "I am zidk2."}],[{"from": "user", "value": "what can I call you?"},{"from": "gpt", "value": "You can call me zidk2."}]]dataset = Dataset.from_dict({"conversations": training_data })# Set up Hugging Face APIhf_api = HfApi()# Provide your Hugging Face tokentoken = os.getenv("HF_KEY")  # Replace with your Hugging Face tokenHfFolder.save_token(token)# Create a new dataset repository on Hugging Facerepo_name = "test-data"  # Replace with your desired dataset nameusername = hf_api.whoami(token)['name']repo_id = f"{username}/{repo_name}"# Create the dataset repository on Hugging Facehf_api.create_repo(repo_id, repo_type="dataset", exist_ok=True)# Push the dataset to Hugging Face Hubdataset.push_to_hub(repo_id)print(f"Dataset uploaded to Hugging Face Hub: https://huggingface.co/datasets/{repo_id}")

登录 HuggingFace 进行查看
在这里插入图片描述

总结

在 HuggingFace 上创建数据集的好处是,可以方便的在云平台上获取数据并进行训练,如果使用阿里云,可以上将数据集上传到魔搭进行使用。

这篇关于如何创建训练数据集的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1146615

相关文章

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1

Redis 中的热点键和数据倾斜示例详解

《Redis中的热点键和数据倾斜示例详解》热点键是指在Redis中被频繁访问的特定键,这些键由于其高访问频率,可能导致Redis服务器的性能问题,尤其是在高并发场景下,本文给大家介绍Redis中的热... 目录Redis 中的热点键和数据倾斜热点键(Hot Key)定义特点应对策略示例数据倾斜(Data S

Python实现将MySQL中所有表的数据都导出为CSV文件并压缩

《Python实现将MySQL中所有表的数据都导出为CSV文件并压缩》这篇文章主要为大家详细介绍了如何使用Python将MySQL数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到... python将mysql数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到另一个

SpringBoot整合jasypt实现重要数据加密

《SpringBoot整合jasypt实现重要数据加密》Jasypt是一个专注于简化Java加密操作的开源工具,:本文主要介绍详细介绍了如何使用jasypt实现重要数据加密,感兴趣的小伙伴可... 目录jasypt简介 jasypt的优点SpringBoot使用jasypt创建mapper接口配置文件加密

使用Python高效获取网络数据的操作指南

《使用Python高效获取网络数据的操作指南》网络爬虫是一种自动化程序,用于访问和提取网站上的数据,Python是进行网络爬虫开发的理想语言,拥有丰富的库和工具,使得编写和维护爬虫变得简单高效,本文将... 目录网络爬虫的基本概念常用库介绍安装库Requests和BeautifulSoup爬虫开发发送请求解

Oracle存储过程里操作BLOB的字节数据的办法

《Oracle存储过程里操作BLOB的字节数据的办法》该篇文章介绍了如何在Oracle存储过程中操作BLOB的字节数据,作者研究了如何获取BLOB的字节长度、如何使用DBMS_LOB包进行BLOB操作... 目录一、缘由二、办法2.1 基本操作2.2 DBMS_LOB包2.3 字节级操作与RAW数据类型2.

MySQL使用binlog2sql工具实现在线恢复数据功能

《MySQL使用binlog2sql工具实现在线恢复数据功能》binlog2sql是大众点评开源的一款用于解析MySQLbinlog的工具,根据不同选项,可以得到原始SQL、回滚SQL等,下面我们就来... 目录背景目标步骤准备工作恢复数据结果验证结论背景生产数据库执行 SQL 脚本,一般会经过正规的审批

Spring 中使用反射创建 Bean 实例的几种方式

《Spring中使用反射创建Bean实例的几种方式》文章介绍了在Spring框架中如何使用反射来创建Bean实例,包括使用Class.newInstance()、Constructor.newI... 目录1. 使用 Class.newInstance() (仅限无参构造函数):2. 使用 Construc

kotlin中的数据转换方法(示例详解)

《kotlin中的数据转换方法(示例详解)》这篇文章介绍了Kotlin中将数字转换为字符串和字符串转换为数字的多种方法,包括使用`toString()`、字符串模板、格式化字符串、处理可空类型等,同时... 目录1. 直接使用 toString() 方法2. 字符串模板(自动转换)3. 格式化字符串(控制输

Python如何查看数据的类型

《Python如何查看数据的类型》:本文主要介绍Python如何查看数据的类型方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录python查看数据的类型1. 使用 type()2. 使用 isinstance()3. 检查对象的 __class__ 属性4.