玩转Kaggle:CIFAR-10图像分类

2024-02-02 23:30

本文主要是介绍玩转Kaggle:CIFAR-10图像分类,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

    • 1. CIFAR-10简介
    • 2. 获取并组织数据集
    • 3. 图像增广
    • 4. 数据读取
    • 5. 模型定义
    • 6. 训练模型
    • 7. 测试生成提交结果

1. CIFAR-10简介

(比赛网址 https://www.kaggle.com/c/cifar-10)

数据集描述:

  比赛数据集分为训练集和测试集,其中训练集包含 50000 张、测试集包含 300000 张图像。在测试集中,10000 张图像将被用于评估,而剩下的 290000 张图像将不会被进行评估,包含它们只是为了防止手动标记测试集并提交标记结果。
  两个数据集中的图像都是 png 格式,高度和宽度均为 32 像素并有三个颜色通道(RGB)。这些图片共涵盖 10 个类别:飞机、汽车、鸟类、猫、鹿、狗、青蛙、马、船和卡车。

2. 获取并组织数据集

两种数据测试的方案:

  1. 使用李沐老师课程中提供的小批数据,从训练数据中每一类中抽取出来一部分,然后随机选择测试数据中的5张(包含前 1000 个训练图像和 5 个随机测试图像的数据集的小规模样本)
  2. 使用原始数据

我是晚上训练的模型,所以时间比较充裕,使用了全部数据进行模型训练。

import collections 
import math 
import os 
import shutil 
import pandas as pd 
import torch 
import torchvision 
from torch import nn 
from d2l import torch as d2l 
'''数据下载'''
d2l.DATA_HUB['cifar10_tiny'] = (d2l.DATA_URL + 'kaggle_cifar10_tiny.zip','2068874e4b9a9f0fb07ebe0ad2b29754449ccacd')# 如果你使用完整的Kaggle竞赛的数据集,设置`demo`为 False
demo = Falseif demo:data_dir = d2l.download_extract('cifar10_tiny')
else:data_dir = '../data/cifar-10/'

看一下我们的数据格式:

train_data_initial = pd.read_csv(os.path.join(data_dir, 'trainLabels.csv'))
train_data_initial.head()
idlabel
01frog
12truck
23truck
34deer
45automobile

这里需要强调说明一下:
CIFAR-10完整数据集的大小大概800M,对于我的电脑而言,将其复制为三份没什么影响;但是如果数据集特别大,我建议不改变数据的保存位置,作一个索引映射比这种方法划算。(不过这样给分类一下也很香,很方便我们查看一下某一类的数据)

'''
数据整理:这里是将数据复制了两份:从原始数据中copy一份到train_valid之中,再将这个数据分别放到train data和test data之中
'''
# 读取CSV文件中对应的label
def read_csv_labels(fname):with open(fname,'r') as f:lines = f.readlines()[1:]tokens = [l.rstrip().split(',') for l in lines]return dict(((name,label) for name,label in tokens))# 将文件复制到目标目录。
def copyfile(filename, target_dir):os.makedirs(target_dir, exist_ok=True)shutil.copy(filename, target_dir)# 将验证数据从原始的数据集中拆分出来
def reorg_train_valid(data_dir, labels, valid_ratio):# 训练数据集中示例最少的类别中的示例数n = collections.Counter(labels.values()).most_common()[-1][1]# 验证集中每个类别的示例数n_valid_per_label = max(1, math.floor(n * valid_ratio))label_count = {}for train_file in os.listdir(os.path.join(data_dir, 'train')):label = labels[train_file.split('.')[0]]fname = os.path.join(data_dir, 'train', train_file)copyfile(fname,os.path.join(data_dir, 'train_valid_test', 'train_valid', label))if label not in label_count or label_count[label] < n_valid_per_label:copyfile(fname,os.path.join(data_dir, 'train_valid_test', 'valid', label))label_count[label] = label_count.get(label, 0) + 1else:copyfile(fname,os.path.join(data_dir, 'train_valid_test', 'train', label))return n_valid_per_label# 在预测期间进行数据整理和测试集划分,方便读取
def reorg_test(data_dir):for test_file in os.listdir(os.path.join(data_dir,'test')):copyfile(os.path.join(data_dir, 'test', test_file),os.path.join(data_dir, 'train_valid_test', 'test', 'unknown'))# 调用上面定义的数据整理函数 
def reorg_cifar10_data(data_dir, valid_ratio):labels = read_csv_labels(os.path.join(data_dir, 'trainLabels.csv'))reorg_train_valid(data_dir, labels, valid_ratio)reorg_test(data_dir)

查看一下我们的数据有多少训练集和其类别

labels = read_csv_labels(os.path.join(data_dir, 'trainLabels.csv'))
print('# 训练示例 :', len(labels))
print('# 类别 :', len(set(labels.values())))
# 训练示例 : 50000
# 类别 : 10

最后调用上面定义的函数进行数据整理

'''
如果是示例数据,将样本数据集的批量大小设置为 32。 
在实际训练和测试中,应该使用 Kaggle 竞赛的完整数据集,并将 batch_size 设置为更大的整数,例如 128。
我们将 10% 的训练示例作为调整超参数的验证集。
'''
batch_size = 32 if demo else 128
valid_ratio = 0.1
reorg_cifar10_data(data_dir,valid_ratio)

3. 图像增广

数据增广的基础知识可以参考我之前写的Blog:动手学深度学习(二十六)——图像增广(一生二,二生三,三生万物?)

"""训练数据中:图片切割+随机水平翻转+对RGB三个通道进行标准化"""
transform_train = torchvision.transforms.Compose([# 在高度和宽度上将图像放大到40像素的正方形torchvision.transforms.Resize(40),# 随机裁剪出一个高度和宽度均为40像素的正方形图像,# 生成一个面积为原始图像面积0.64到1倍的小正方形,# 然后将其缩放为高度和宽度均为32像素的正方形torchvision.transforms.RandomResizedCrop(32, scale=(0.64, 1.0),ratio=(1.0, 1.0)),# 水平翻转torchvision.transforms.RandomHorizontalFlip(),torchvision.transforms.ToTensor(),# 标准化图像的每个通道torchvision.transforms.Normalize([0.4914, 0.4822, 0.4465],[0.2023, 0.1994, 0.2010])])
"""测试数据中:只对图片进行通道标准化,消除评估结果中的随机性"""
transform_test = torchvision.transforms.Compose([torchvision.transforms.ToTensor(),torchvision.transforms.Normalize([0.4914, 0.4822, 0.4465],[0.2023, 0.1994, 0.2010])])

4. 数据读取

利用torchvisionImageFolder加载数据,利用pytorchDataLoader进行数据整合成可以用于网络训练的格式

train_ds, train_valid_ds = [torchvision.datasets.ImageFolder(os.path.join(data_dir, 'train_valid_test', folder),transform=transform_train) for folder in ['train', 'train_valid']]valid_ds, test_ds = [torchvision.datasets.ImageFolder(os.path.join(data_dir, 'train_valid_test', folder),transform=transform_test) for folder in ['valid', 'test']]
train_iter, train_valid_iter = [torch.utils.data.DataLoader(dataset, batch_size, shuffle=True,drop_last=True)for dataset in (train_ds, train_valid_ds)]# drop_last 表示如果最后一个batch不够就丢掉 
valid_iter = torch.utils.data.DataLoader(valid_ds, batch_size, shuffle=False,drop_last=True)test_iter = torch.utils.data.DataLoader(test_ds, batch_size, shuffle=False,drop_last=False)

5. 模型定义

使用resnet18作为网络,关于ResNet的详细代码参考:动手学深度学习(二十四)——公式详解ResNet

def get_net():num_classes = 10net = d2l.resnet18(num_classes,3)return net

6. 训练模型

这里我学到了很多炼丹(调参)的经验,顺便记录一下:

  1. 学习率的调整:太大的学习率会导致收敛不了;太小的学习率又会导致陷入局部最小。使用torch.optim.lr_scheduler.StepLR可以一定程度上优化学习率的调整
  2. nn.CrossEntropyLoss()的参数reduction=“none”表示返回一个损失值向量,里面是每一个输入的损失值;而默认的是求这些值的平均值;也可以指定为求和。
  3. weight_decay,权重衰退可以缓解过拟合,但是这个值不能太大了。如果过拟合严重,调整一下这个参数试一下。
  4. loss直接归零,看一下是不是值太大已经为了nan值。如果是可以尝试设置一下网络的初始化值,可以使用xavier等方法

不写太多了,太多以后不方便查找

def train_batch(net, X, y, loss, trainer, devices):if isinstance(X,list):#微调BERT中所需(稍后讨论)X=[x.to(devices[0]) for x in X]else:X=X.to(devices[0])y = y.to(devices[0])net.train()trainer.zero_grad()pred = net(X)l = loss(pred, y)l.sum().backward()trainer.step()train_loss_sum = l.sum()train_acc_sum = d2l.accuracy(pred, y)/len(y)return train_loss_sum, train_acc_sum
# lr_period lr_decay 学习率下降方法(每隔多少个epoch减少lr多少 )
def train(net, train_iter, valid_iter, num_epochs, lr, wd, devices, lr_period,lr_decay):trainer = torch.optim.SGD(net.parameters(), lr=lr, momentum=0.9,weight_decay=wd)scheduler = torch.optim.lr_scheduler.StepLR(trainer, lr_period, lr_decay) # lr_scheduler学习率调整方法num_batches, timer = len(train_iter), d2l.Timer()legend = ['train loss', 'train acc']if valid_iter is not None:legend.append('valid acc')animator = d2l.Animator(xlabel='epoch', xlim=[1, num_epochs],legend=legend)net = nn.DataParallel(net, device_ids=devices).to(devices[0])# 这里如果使用reduction=“none”结果不收敛,使用默认的elementwise_mean可以'''测试发现,如果使用求和的方法,loss非常大,超过了float3的上限'''loss = nn.CrossEntropyLoss()for epoch in range(num_epochs):net.train()metric = d2l.Accumulator(3)for i, (features, labels) in enumerate(train_iter):timer.start()l, acc = train_batch(net, features, labels, loss, trainer, devices)if i<30:print(l)metric.add(l, acc,1)timer.stop()if (i + 1) % (num_batches // 5) == 0 or i == num_batches - 1:animator.add(epoch + (i + 1) / num_batches,(metric[0] / metric[2], metric[1] / metric[2], None))if valid_iter is not None:valid_acc = d2l.evaluate_accuracy_gpu(net, valid_iter)animator.add(epoch + 1, (None, None, valid_acc))scheduler.step() # 注意这里需要stepprint(metric[1]/metric[2])measures = (f'train loss {metric[0] / metric[2]:.3f}, 'f'train acc {metric[1] / metric[2]:.3f}')if valid_iter is not None:measures += f', valid acc {valid_acc:.3f}'print(measures + f'\n{metric[2] * num_epochs / timer.sum():.1f}'f' examples/sec on {str(devices)}')
# 定义参数:设备、epoch、学习率、权重衰退
devices, num_epochs, lr, wd = d2l.try_all_gpus(), 20, 0.1, 5e-4
lr_period, lr_decay, net = 10, 0.1, get_net()# 模型初始化,个人认为非常重要,特别是容易梯度爆炸和消失的情况中。或许在层中添加一个BN层也非常好
def init_weights(m):if type(m) in [nn.Linear, nn.Conv2d]:nn.init.xavier_uniform_(m.weight)
net.apply(init_weights)train(net, train_iter, valid_iter, num_epochs, lr, wd, devices, lr_period, lr_decay)
0.9290420227920227
train loss 0.202, train acc 0.929, valid acc 0.833
3.8 examples/sec on [device(type='cuda', index=0)]

7. 测试生成提交结果

preds = []
for X, _ in test_iter:y_hat = net(X.to(devices[0]))preds.extend(y_hat.argmax(dim=1).type(torch.int32).cpu().numpy())
sorted_ids = list(range(1, len(test_ds) + 1))
sorted_ids.sort(key=lambda x: str(x))
df = pd.DataFrame({'id': sorted_ids, 'label': preds})
df['label'] = df['label'].apply(lambda x: train_valid_ds.classes[x])
df.to_csv('./kaggle_submission/CIFAR-10/submission.csv', index=False)

最后看看我的成绩(只使用了ResNet-18模型,参数也调整不是特别仔细得到的结果):
在这里插入图片描述
这个排名在七年前大概40-50名左右,也还是不错了,仔细调参应该可以排到20名左右,精度达到90%?

这篇关于玩转Kaggle:CIFAR-10图像分类的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/672327

相关文章

基于人工智能的图像分类系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像分类是计算机视觉中的一个重要任务,目标是自动识别图像中的对象类别。通过卷积神经网络(CNN)等深度学习技术,我们可以构建高效的图像分类系统,广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统,包括环境

认识、理解、分类——acm之搜索

普通搜索方法有两种:1、广度优先搜索;2、深度优先搜索; 更多搜索方法: 3、双向广度优先搜索; 4、启发式搜索(包括A*算法等); 搜索通常会用到的知识点:状态压缩(位压缩,利用hash思想压缩)。

秒变高手:玩转CentOS 7软件更换的方法大全

在 CentOS 7 中更换软件源可以通过以下步骤完成。更换源可以加快软件包的下载速度,特别是当默认源速度较慢时。以下是详细步骤: 前言 为了帮助您解决在使用CentOS 7安装不了软件速度慢的问题,我们推出了这份由浪浪云赞助的教程——“CentOS7如何更换软件源加快下载速度”。 浪浪云,以他们卓越的弹性计算、云存储和网络服务受到广泛好评,他们的支持和帮助使得我们可以将最前沿的技术知识分

Verybot之OpenCV应用一:安装与图像采集测试

在Verybot上安装OpenCV是很简单的,只需要执行:         sudo apt-get update         sudo apt-get install libopencv-dev         sudo apt-get install python-opencv         下面就对安装好的OpenCV进行一下测试,编写一个通过USB摄像头采

用Pytho解决分类问题_DBSCAN聚类算法模板

一:DBSCAN聚类算法的介绍 DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种基于密度的聚类算法,DBSCAN算法的核心思想是将具有足够高密度的区域划分为簇,并能够在具有噪声的空间数据库中发现任意形状的簇。 DBSCAN算法的主要特点包括: 1. 基于密度的聚类:DBSCAN算法通过识别被低密

PMP–一、二、三模–分类–14.敏捷–技巧–看板面板与燃尽图燃起图

文章目录 技巧一模14.敏捷--方法--看板(类似卡片)1、 [单选] 根据项目的特点,项目经理建议选择一种敏捷方法,该方法限制团队成员在任何给定时间执行的任务数。此方法还允许团队提高工作过程中问题和瓶颈的可见性。项目经理建议采用以下哪种方法? 易错14.敏捷--精益、敏捷、看板(类似卡片)--敏捷、精益和看板方法共同的重点在于交付价值、尊重人、减少浪费、透明化、适应变更以及持续改善等方面。

【python计算机视觉编程——7.图像搜索】

python计算机视觉编程——7.图像搜索 7.图像搜索7.1 基于内容的图像检索(CBIR)从文本挖掘中获取灵感——矢量空间模型(BOW表示模型)7.2 视觉单词**思想****特征提取**: 创建词汇7.3 图像索引7.3.1 建立数据库7.3.2 添加图像 7.4 在数据库中搜索图像7.4.1 利用索引获取获选图像7.4.2 用一幅图像进行查询7.4.3 确定对比基准并绘制结果 7.

【python计算机视觉编程——8.图像内容分类】

python计算机视觉编程——8.图像内容分类 8.图像内容分类8.1 K邻近分类法(KNN)8.1.1 一个简单的二维示例8.1.2 用稠密SIFT作为图像特征8.1.3 图像分类:手势识别 8.2贝叶斯分类器用PCA降维 8.3 支持向量机8.3.2 再论手势识别 8.4 光学字符识别8.4.2 选取特征8.4.3 多类支持向量机8.4.4 提取单元格并识别字符8.4.5 图像校正

PMP–一、二、三模–分类–14.敏捷–技巧–原型MVP

文章目录 技巧一模14.敏捷--原型法--项目生命周期--迭代型生命周期,通过连续的原型或概念验证来改进产品或成果。每个新的原型都能带来新的干系人新的反馈和团队见解。题目中明确提到需要反馈,因此原型法比较好用。23、 [单选] 一个敏捷团队的任务是开发一款机器人。项目经理希望确保在机器人被实际建造之前,团队能够收到关于需求的早期反馈并相应地调整设计。项目经理应该使用以下哪一项来实现这个目标?

HalconDotNet中的图像特征与提取详解

文章目录 简介一、边缘特征提取二、角点特征提取三、区域特征提取四、纹理特征提取五、形状特征提取 简介   图像特征提取是图像处理中的一个重要步骤,用于从图像中提取有意义的特征,以便进行进一步的分析和处理。HalconDotNet提供了多种图像特征提取方法,每种方法都有其特定的应用场景和优缺点。 一、边缘特征提取   边缘特征提取是图像处理中最基本的特征提取方法之一,通过检