pytorch sampler对数据进行采样

本文主要是介绍pytorch sampler对数据进行采样，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

PyTorch中还单独提供了一个sampler模块，用来对数据进行采样。常用的有随机采样器：RandomSampler，当dataloader的shuffle参数为True时，系统会自动调用这个采样器，实现打乱数据。默认的是采用SequentialSampler，它会按顺序一个一个进行采样。这里介绍另外一个很有用的采样方法： WeightedRandomSampler，它会根据每个样本的权重选取数据，在样本比例不均衡的问题中，可用它来进行重采样。

构建WeightedRandomSampler时需提供两个参数：每个样本的权重weights、共选取的样本总数num_samples，以及一个可选参数replacement。权重越大的样本被选中的概率越大，待选取的样本数目一般小于全部的样本数目。replacement用于指定是否可以重复选取某一个样本，默认为True，即允许在一个epoch中重复采样某一个数据。如果设为False，则当某一类的样本被全部选取完，但其样本数目仍未达到num_samples时，sampler将不会再从该类中选择数据，此时可能导致weights参数失效。下面举例说明。

from dataSet import *
dataset = DogCat('data/dogcat/', transform=transform)from torch.utils.data import DataLoader
# 狗的图片被取出的概率是猫的概率的两倍
# 两类图片被取出的概率与weights的绝对大小无关，只和比值有关
weights = [2 if label == 1 else 1 for data, label in dataset]print(weights)from torch.utils.data.sampler import  WeightedRandomSampler
sampler = WeightedRandomSampler(weights,\num_samples=9,\replacement=True)
dataloader = DataLoader(dataset,batch_size=3,sampler=sampler)
for datas, labels in dataloader:print(labels.tolist())

输出：

[2, 2, 1, 1, 2, 1, 1, 2]
[1, 1, 0]
[1, 0, 0]
[0, 0, 1]

github 地址：
https://github.com/WebLearning17/CommonTool

这篇关于pytorch sampler对数据进行采样的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

pytorch sampler对数据进行采样

相关文章

QT进行CSV文件初始化与读写操作

pytorch自动求梯度autograd的实现

SpringBoot集成Milvus实现数据增删改查功能

SpringValidation数据校验之约束注解与分组校验方式

在PyCharm中安装PyTorch、torchvision和OpenCV详解

通过Spring层面进行事务回滚的实现

MySQL 中查询 VARCHAR 类型 JSON 数据的问题记录

SpringBatch数据写入实现

Java中使用Hutool进行AES加密解密的方法举例

使用Python将JSON,XML和YAML数据写入Excel文件