transformers datasets

2024-06-23 16:28
文章标签 datasets transformers

本文主要是介绍transformers datasets,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

☆ 问题描述

在进行自然语言处理项目时,经常需要加载和处理不同的数据集。为了简化这一过程,我们可以使用datasets库来方便地加载、切分、查看和处理数据。本解决方案提供了如何使用datasets库加载、查看和处理数据的详细示例,包括如何加载在线数据集、切分数据集、选择和过滤数据、数据映射和保存等操作。

★ 解决方案

# load online datasets
datasets = load_dataset("madao33/new-title-chinese")
datasets
#>>>DatasetDict({
#>>>    train: Dataset({
#>>>        features: ['title', 'content'],
#>>>        num_rows: 5850
#>>>    })
#>>>    validation: Dataset({
#>>>        features: ['title', 'content'],
#>>>        num_rows: 1679
#>>>    })
#>>>})# load a task in the datasets
boolq_dataset = load_dataset("super_glue", "boolq")# load according to datasets partitioning
dataset = load_dataset("madao33/new-title-chinese", split="train")# load slices of the dataset
dataset = load_dataset("madao33/new-title-chinese", split="train[10:100]")
#or 
dataset = load_dataset("madao33/new-title-chinese", split="train[:50%]")# load datasets as a list
dataset = load_dataset("madao33/new-title-chinese", split=["train[:50%]", "train[50%:]"])
#>>>[Dataset({
#>>>     features: ['title', 'content'],
#>>>     num_rows: 2925
#>>> }),
#>>> Dataset({
#>>>     features: ['title', 'content'],
#>>>     num_rows: 2925
#>>> })]# View a piece of train data
datasets["train"][0]# View some pieces of train data
datasets["train"][:2]# View some pieces of train title data
datasets["train"]["title"][:5]# view cols of train data
datasets["train"].column_names# dataset split
dataset = datasets["train"]
dataset.train_test_split(test_size=0.1)# 
dataset.train_test_split(test_size=0.1, stratify_by_column="label")   # data select
datasets["train"].select([0, 1])# data filter
filter_dataset = datasets["train"].filter(lambda example: "中国" in example["title"])# data mapping 
def add_prefix(example):example["title"] = 'Prefix: ' + example["title"]return example
prefix_dataset = datasets.map(add_prefix)
prefix_dataset["train"][:10]["title"]# data save 
processed_datasets.save_to_disk("./processed_data")# data load
processed_datasets = load_from_disk("./processed_data")# load datasets from csv
dataset = load_dataset("csv", data_files="./ChnSentiCorp_htl_all.csv", split="train")# Other data loading methods
import pandas as pd
data = pd.read_csv("./ChnSentiCorp_htl_all.csv")
dataset = Dataset.from_pandas(data)#
load_dataset("json", data_files="./cmrc2018_trial.json", field="data")#
dataset = load_dataset("./load_script.py", split="train")

这篇关于transformers datasets的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1087672

相关文章

[论文笔记]LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

引言 今天带来第一篇量化论文LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale笔记。 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 大语言模型已被广泛采用,但推理时需要大量的GPU内存。我们开发了一种Int8矩阵乘法的过程,用于Transformer中的前馈和注意力投影层,这可以将推理所需

【人工智能】Transformers之Pipeline(十五):总结(summarization)

​​​​​​​ 目录 一、引言  二、总结(summarization) 2.1 概述 2.2 BERT与GPT的结合—BART 2.3 应用场景​​​​​​​ 2.4 pipeline参数 2.4.1 pipeline对象实例化参数 2.4.2 pipeline对象使用参数 ​​​​​​​ 2.4.3 pipeline返回参数 ​​​​​​​​​​​​​​ 2.5 pipe

HOW DO VISION TRANSFORMERS WORK

HOW DO VISION TRANSFORMERS WORK Namuk Park1,2, Songkuk Kim1 1Yonsei University, 2NAVER AI Lab{namuk.park,songkuk}@yonsei.ac.kr 总结 MSA 改善模型泛化能力: MSA 不仅提高了模型的准确性,还通过平滑损失景观来提高泛化能力。损失景观的平坦化使得模型更容易优化,表现

【HuggingFace Transformers】LlamaMLP源码解析

LlamaMLP源码解析 1. LlamaMLP 介绍2. LlamaMLP类 源码解析 1. LlamaMLP 介绍 LlamaMLP 是 LLaMA 模型中的 MLP 层,主要用于对输入特征进行非线性变换。在分片预训练模式下,线性层的权重被切分,分步处理后再进行拼接和求和,而在常规模式下,直接应用线性变换和激活函数处理输入数据。其计算公式为: o u t p u t = W

NLP-文本摘要:利用预训练模型进行文本摘要任务【transformers:pipeline、T5、BART、Pegasus】

一、pipeline 可以使用pipeline快速实现文本摘要 from transformers import pipelinesummarizer = pipeline(task="summarization", model='t5-small')text = """summarize: (CNN)For the second time during his papacy, Pope Fr

论文泛读: TransNeXt: Robust Foveal Visual Perception for Vision Transformers

文章目录 TransNeXt: Robust Foveal Visual Perception for Vision Transformers论文中的知识补充非QKV注意力变体仿生视觉建模 动机现状问题 贡献方法 TransNeXt: Robust Foveal Visual Perception for Vision Transformers 论文链接: https://o

【HuggingFace Transformers】LlamaModel源码解析

LlamaModel源码解析 1. LlamaModel 介绍2. LlamaModel类 源码解析3. 4维因果注意力掩码生成 1. LlamaModel 介绍 LlamaModel 是一个基于 Transformer 架构的解码器模型,用于自然语言处理任务。它是 Meta 的 LLaMA (Large Language Model Meta AI) 系列的一部分,设计用于生成

Behavior Retrieval: Few-Shot Imitation Learning by Querying Unlabeled Datasets

发表时间:13 May 2023 论文链接:https://readpaper.com/pdf-annotate/note?pdfId=1900983943467731200&noteId=2446646993511259136 作者单位:Stanford University Motivation:使机器人能够以数据有效的方式学习新的视觉运动技能仍然是一个未解决的问题,有无数的挑战。解决这

【HuggingFace Transformers】BertSelfOutput 和 BertOutput源码解析

BertSelfOutput 和 BertOutput源码解析 1. 介绍1.1 共同点(1) 残差连接 (Residual Connection)(2) 层归一化 (Layer Normalization)(3) Dropout(4) 线性变换 (Linear Transformation) 1.2 不同点(1) 处理的输入类型(2) 线性变换的作用(3) 输入的特征大小 2. 源码解析

【HuggingFace Transformers】BertIntermediate 和 BertPooler源码解析

BertIntermediate 和 BertPooler源码解析 1. 介绍1.1 位置与功能1.2 相似点与不同点 2. 源码解析2.1 BertIntermediate 源码解析2.2 BertPooler 源码解析 1. 介绍 1.1 位置与功能 (1) BertIntermediate 位置:位于 BertLayer 的注意力层(BertSelfAttention