PyTorch数据处理工具箱utils.data、torchvision、tensorboardX

本文主要是介绍PyTorch数据处理工具箱utils.data、torchvision、tensorboardX,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录:

目录

目录:

        1、Pytorch相关数据处理箱概要

        2、utils.data

        3、torchvision

        4、tensorboardX

        PyTorch为我们提供了专门的数据下载、数据处理包,使用这些包可以极大提高我们的开发效率及质量。在数据预处理,数据加载模块使用。 

 1、Pytorch相关数据处理箱概要

                

 1、  左侧为torch.utils.data工具包,主要包括以下四个类:

  1)Dataset:是一个抽象类,其他数据需要继承这个类,并且覆写其中的两个方法(__getitem__、__len__)。

  2)DataLoader:定义一个新的迭代器,实现批量(batch)读取,打乱数据(shuffle)并提供并行加速等功能。

 3)random_splist:把数据集随机拆分为给定长度的非重叠的新数据集。

 4)*Sample:多种采样函数。

2、中间为PyTorch的可视化工具(Torchvision),其是PyTorch的一个视觉处理工具包,独立于Torch需要自主安装。用pip、conda均可安装:

在python命令行输入以下代码
#用pip
pip install torchvision
#用conda
conda install torchvision

        Torchvision包含如下四个类:

1)datasets:设计上继承自torch.utils.data.Dataaset。提供MINIST、CIFAR10/100、ImageNet和COCO等数据集。

2)models:提供深度学习各种经典的网络结构以及训练好的模型。

3)transforms:常用的数据集处理操作,主要是对Tensor和PIL Image的操作。

4)utils:包含两个函数,一个是make_grid,它能将多张图片拼接在一个网格中;另一个是save_img,它能将Tensor保存为图片。

 2、utils.data

        utils.data包括Dataset和DataLoader。torch.utils.data.DataLoader为抽象类。自定义数据集需要继承这个类,并实现两个函数,__len__,__getitem__,前者能让我们获取数据集的大小,后者通过索引获取data和label。__getitem__一次只能获取一个数据,所以需要DataLoader定义一个迭代器,实现batch(批)读取。

        示例如下:

#1)导入所需模块
import torch
from torch.utils import data
import numpy as np
#2)定义获取数据的类,继承Dataset
class TestDataset(data.Dataset):def __init__(self):self.Data = np.asarray([1,2],[3,4],[2,1],[3,4],[4,5])#以作数据self.Label = np.asarray([0,1,0,1,2])def __getitem__(self,index):#numpy转换为tensordata=torch.from_numpy(self.Data[index])label=torch.tensor(self.Label[index])return data,labeldef __len__(self):return len(self.Data)Test = TestDataset()
print(Test[2])#调用getitem
print(Test.__len__())

        以上Dataset只能一次返回一个样本,因此在实际应用中,只负责数据的抽取。如果希望批量处理等操作,可选用DataLoader。

data.DataLoader(dataset,#加载数据集batch_size=1,#一次批量处理的大小shuffle=False,#是否将数据打乱sampler=None,#样本抽样batch_sampler=None,num_workers=0,#使用多进程加载的进程数,0代表不使用多线程collate_fn=<function default_collate at 0x7f108ee01620>,#样本数据的拼接方式,一般使用默认拼接方式即可pin_memory=False,#是否将数据保存在pin_memory区,它传入到GPU会较快drop_last=False,#将不足一个batch的数据丢弃timeout=0,work_init_fn=None,
}

        一般使用Dataset处理同一个目录下的数据。如果数据不在同一目录下,因为不同的目录代表不同的类别(普遍情况),使用Dataset来处理很不方便。但可以使用另一种可视化工具(torchvision)就极为方便。

3、torchvision

        torchvision有四个功能模块:model、datasets、transform和utils。

1、transforms        

        transforms提供了对PIL Image对象和Tensor对象的常用操作。

2、ImageFolder

        当文件依据标签处于不同文件下时,我们可以利用torchvision.datasets.ImageFolder来构造出dataset,如下:

loader = datasets.ImageFolder(path)
loader = data.DataLoader(dataset)

        ImageFolder会将目录中文件夹名自动转化成序列,当DataLoader载入时,标签自动成整数数列了。

4、tensorboardX(可视化工具)

        1)安装tensorboardX:

pip install tensorboardX

        2)导入tensorboardX,实例化Summary Writer类,指明记录日志路径等信息。

from tensorboardX import SummaryWriter
#实例化Summary Writer,并指明日志存放路径。在当前目录没有logs则自动创建
writer = SummaryWriter(log_dir='logs')#画一个y=sin(x)
for i in range(100):writer.add_scalar("y=sinx",sin(i),i)writer.close()

在python命令行下输入

#读入文件夹数据,接口默认为6006
#点击6006打开网页,即可出现可视化数据
tensorboard --logdir=logs --port 6006

出现如下图像:

 显然tensorboardX可在可视化loss等数据方面应用。

下一期我们介绍tensorboardX在可视化神经网络与可视化图像方面的应用。

这篇关于PyTorch数据处理工具箱utils.data、torchvision、tensorboardX的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/581106

相关文章

Python xmltodict实现简化XML数据处理

《Pythonxmltodict实现简化XML数据处理》Python社区为提供了xmltodict库,它专为简化XML与Python数据结构的转换而设计,本文主要来为大家介绍一下如何使用xmltod... 目录一、引言二、XMLtodict介绍设计理念适用场景三、功能参数与属性1、parse函数2、unpa

PyTorch使用教程之Tensor包详解

《PyTorch使用教程之Tensor包详解》这篇文章介绍了PyTorch中的张量(Tensor)数据结构,包括张量的数据类型、初始化、常用操作、属性等,张量是PyTorch框架中的核心数据结构,支持... 目录1、张量Tensor2、数据类型3、初始化(构造张量)4、常用操作5、常用属性5.1 存储(st

Python数据处理之导入导出Excel数据方式

《Python数据处理之导入导出Excel数据方式》Python是Excel数据处理的绝佳工具,通过Pandas和Openpyxl等库可以实现数据的导入、导出和自动化处理,从基础的数据读取和清洗到复杂... 目录python导入导出Excel数据开启数据之旅:为什么Python是Excel数据处理的最佳拍档

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

Python:豆瓣电影商业数据分析-爬取全数据【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】

**爬取豆瓣电影信息,分析近年电影行业的发展情况** 本文是完整的数据分析展现,代码有完整版,包含豆瓣电影爬取的具体方式【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】   最近MBA在学习《商业数据分析》,大实训作业给了数据要进行数据分析,所以先拿豆瓣电影练练手,网络上爬取豆瓣电影TOP250较多,但对于豆瓣电影全数据的爬取教程很少,所以我自己做一版。 目

CentOS下mysql数据库data目录迁移

https://my.oschina.net/u/873762/blog/180388        公司新上线一个资讯网站,独立主机,raid5,lamp架构。由于资讯网是面向小行业,初步估计一两年内访问量压力不大,故,在做服务器系统搭建的时候,只是简单分出一个独立的data区作为数据库和网站程序的专区,其他按照linux的默认分区。apache,mysql,php均使用yum安装(也尝试

使用Spring Boot集成Spring Data JPA和单例模式构建库存管理系统

引言 在企业级应用开发中,数据库操作是非常重要的一环。Spring Data JPA提供了一种简化的方式来进行数据库交互,它使得开发者无需编写复杂的JPA代码就可以完成常见的CRUD操作。此外,设计模式如单例模式可以帮助我们更好地管理和控制对象的创建过程,从而提高系统的性能和可维护性。本文将展示如何结合Spring Boot、Spring Data JPA以及单例模式来构建一个基本的库存管理系统

安卓玩机工具------小米工具箱扩展工具 小米机型功能拓展

小米工具箱扩展版                     小米工具箱扩展版 iO_Box_Mi_Ext是由@晨钟酱开发的一款适用于小米(MIUI)、多亲(2、2Pro)、多看(多看电纸书)的多功能工具箱。该工具所有功能均可以免root实现,使用前,请打开开发者选项中的“USB调试”  功能特点 【小米工具箱】 1:冻结MIUI全家桶,隐藏状态栏图标,修改下拉通知栏图块数量;冻结

15 组件的切换和对组件的data的使用

划重点 a 标签的使用事件修饰符组件的定义组件的切换:登录 / 注册 泡椒鱼头 :微辣 <!DOCTYPE html><html lang="en"><head><meta charset="UTF-8"><meta name="viewport" content="width=device-width, initial-scale=1.0"><meta http-equiv="X-UA-

12C 新特性,MOVE DATAFILE 在线移动 包括system, 附带改名 NID ,cdb_data_files视图坏了

ALTER DATABASE MOVE DATAFILE  可以改名 可以move file,全部一个命令。 resue 可以重用,keep好像不生效!!! system照移动不误-------- SQL> select file_name, status, online_status from dba_data_files where tablespace_name='SYSTEM'