PyTorch数据处理工具箱utils.data、torchvision、tensorboardX

本文主要是介绍PyTorch数据处理工具箱utils.data、torchvision、tensorboardX，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

utils.data包括Dataset和DataLoader。torch.utils.data.DataLoader为抽象类。自定义数据集需要继承这个类，并实现两个函数，__len__,__getitem__,前者能让我们获取数据集的大小，后者通过索引获取data和label。__getitem__一次只能获取一个数据，所以需要DataLoader定义一个迭代器，实现batch（批）读取。

示例如下：

#1）导入所需模块
import torch
from torch.utils import data
import numpy as np
#2）定义获取数据的类，继承Dataset
class TestDataset(data.Dataset):def __init__(self):self.Data = np.asarray([1,2],[3,4],[2,1],[3,4],[4,5])#以作数据self.Label = np.asarray([0,1,0,1,2])def __getitem__(self,index):#numpy转换为tensordata=torch.from_numpy(self.Data[index])label=torch.tensor(self.Label[index])return data,labeldef __len__(self):return len(self.Data)Test = TestDataset()
print(Test[2])#调用getitem
print(Test.__len__())

以上Dataset只能一次返回一个样本，因此在实际应用中，只负责数据的抽取。如果希望批量处理等操作，可选用DataLoader。

data.DataLoader(dataset,#加载数据集batch_size=1,#一次批量处理的大小shuffle=False,#是否将数据打乱sampler=None,#样本抽样batch_sampler=None,num_workers=0,#使用多进程加载的进程数，0代表不使用多线程collate_fn=<function default_collate at 0x7f108ee01620>,#样本数据的拼接方式，一般使用默认拼接方式即可pin_memory=False,#是否将数据保存在pin_memory区，它传入到GPU会较快drop_last=False,#将不足一个batch的数据丢弃timeout=0,work_init_fn=None,
}

一般使用Dataset处理同一个目录下的数据。如果数据不在同一目录下，因为不同的目录代表不同的类别（普遍情况），使用Dataset来处理很不方便。但可以使用另一种可视化工具（torchvision）就极为方便。

3、torchvision

torchvision有四个功能模块：model、datasets、transform和utils。

1、transforms

transforms提供了对PIL Image对象和Tensor对象的常用操作。

2、ImageFolder

当文件依据标签处于不同文件下时,我们可以利用torchvision.datasets.ImageFolder来构造出dataset，如下：

loader = datasets.ImageFolder(path)
loader = data.DataLoader(dataset)

ImageFolder会将目录中文件夹名自动转化成序列，当DataLoader载入时，标签自动成整数数列了。

4、tensorboardX（可视化工具）

1）安装tensorboardX：

pip install tensorboardX

2）导入tensorboardX,实例化Summary Writer类，指明记录日志路径等信息。

from tensorboardX import SummaryWriter
#实例化Summary Writer，并指明日志存放路径。在当前目录没有logs则自动创建
writer = SummaryWriter(log_dir='logs')#画一个y=sin(x)
for i in range(100):writer.add_scalar("y=sinx",sin(i),i)writer.close()

在python命令行下输入

#读入文件夹数据，接口默认为6006
#点击6006打开网页，即可出现可视化数据
tensorboard --logdir=logs --port 6006

出现如下图像：

显然tensorboardX可在可视化loss等数据方面应用。

下一期我们介绍tensorboardX在可视化神经网络与可视化图像方面的应用。

这篇关于PyTorch数据处理工具箱utils.data、torchvision、tensorboardX的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

PyTorch数据处理工具箱utils.data、torchvision、tensorboardX

目录：

1、Pytorch相关数据处理箱概要

2、utils.data

3、torchvision

4、tensorboardX（可视化工具）

相关文章

使用PyTorch实现手写数字识别功能

Pytorch微调BERT实现命名实体识别

pytorch+torchvision+python版本对应及环境安装

HTML5 data-*自定义数据属性的示例代码

从零教你安装pytorch并在pycharm中使用

pycharm远程连接服务器运行pytorch的过程详解

Python xmltodict实现简化XML数据处理

PyTorch使用教程之Tensor包详解

Python数据处理之导入导出Excel数据方式

论文翻译：arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey