本文主要是介绍深度学习-Pytorch数据集构造和分批加载,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
深度学习-Pytorch数据集构造和分批加载
pytorch 目前在深度学习具有重要的地位,比起早先的caffe,tensorflow,keras越来越受到欢迎,其他的深度学习框架越来越显得小众。
数据分析
数据分析-Pandas如何转换产生新列
数据分析-Pandas如何统计数据概况
数据分析-Pandas如何轻松处理时间序列数据
数据分析-Pandas如何选择数据子集
数据分析-Pandas如何重塑数据表-CSDN博客
经典算法
经典算法-遗传算法的python实现
经典算法-模拟退火算法的python实现
经典算法-粒子群算法的python实现-CSDN博客
LLM应用
大模型查询工具助手之股票免费查询接口
Python技巧-终端屏幕打印光标和文字控制
导入模块
import torch
from torch import nn
from torch.utils.data import DataLoader
from torchvision import datasets
from torchvision.transforms import ToTensor
pytorch 有两个处理数据的核心模块,torch.utils.data.DataLoader 和 torch.utils.data.Dataset 。
数据集 Dataset 存储样本和对应的标签,而DataLoader 则按设定数据包的大小把数据集迭代进行打包。
构造数据集
针对文本,视觉和音频数据,Pytorch还提供特定数据的模块,例如 TorchText, TorchVision, and TorchAudio, 包括样例数据集。为了方便起见,在此使用视觉数据集举例。
torchvision.datasets 模块的Dataset对象,就包含真实世界的很多图像数据,比如CIFAR, COCO。而常用举例的数据包括MNIST手写体,FashionMNIST 等等。
对于每个图像数据集而言,很关键的是有两个参数,方便大家使用,达到事半功倍的效果。它们是
transform 和 target_transform, 提供原始的图像数据转化功能,例如 转为tensor 的函数ToTensor:
# Download training data from open datasets.
training_data = datasets.FashionMNIST(root="data",train=True,download=True,transform=ToTensor(),
)# Download test data from open datasets.
test_data = datasets.FashionMNIST(root="data",train=False,download=True,transform=ToTensor(),
)
分批加载数据
深度学习训练数据集都很大,几乎不可能把所有数据一次加载进行训练,通常需要分批次进行加载。pytorch封装数据加载函数,把数据集作为参数,调用DataLoader函数。要把数据打包,一次次分批返回数据包。函数支持自动分批次,抽样,随机打乱,多次加载等功能。下面定义每批数据共有64个样本:
batch_size = 64# Create data loaders.
train_dataloader = DataLoader(training_data, batch_size=batch_size)
test_dataloader = DataLoader(test_data, batch_size=batch_size)for X, y in test_dataloader:print(f"Shape of X [N, C, H, W]: {X.shape}")print(f"Shape of y: {y.shape} {y.dtype}")break
Shape of X [N, C, H, W]: torch.Size([64, 1, 28, 28])
Shape of y: torch.Size([64]) torch.int64
很简单吧,里面把数据按批次加载了,每批64个样本,样本为单通道数据,长和宽分别为28像素。
以上代码只是一个简单示例,示例代码中的表达式可以根据实际问题进行修改。
觉得有用 收藏 收藏 收藏
点个赞 点个赞 点个赞
End
GPT专栏文章:
GPT实战系列-ChatGLM3本地部署CUDA11+1080Ti+显卡24G实战方案
GPT实战系列-LangChain + ChatGLM3构建天气查询助手
大模型查询工具助手之股票免费查询接口
GPT实战系列-简单聊聊LangChain
GPT实战系列-大模型为我所用之借用ChatGLM3构建查询助手
GPT实战系列-P-Tuning本地化训练ChatGLM2等LLM模型,到底做了什么?(二)
GPT实战系列-P-Tuning本地化训练ChatGLM2等LLM模型,到底做了什么?(一)
GPT实战系列-ChatGLM2模型的微调训练参数解读
GPT实战系列-如何用自己数据微调ChatGLM2模型训练
GPT实战系列-ChatGLM2部署Ubuntu+Cuda11+显存24G实战方案
GPT实战系列-Baichuan2本地化部署实战方案
GPT实战系列-Baichuan2等大模型的计算精度与量化
GPT实战系列-GPT训练的Pretraining,SFT,Reward Modeling,RLHF
GPT实战系列-探究GPT等大模型的文本生成-CSDN博客
这篇关于深度学习-Pytorch数据集构造和分批加载的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!