CIFAR-10和CIFAR-100数据集说明

2023-10-17 02:40

文章标签 数据说明 100 cifar

本文主要是介绍CIFAR-10和CIFAR-100数据集说明，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

翻译自： http://www.cs.toronto.edu/~kriz/cifar.html

CIFAR-10和CIFAR-100是带有标签的数据集，它们是8000万个微小图像数据集的子集，他们由Alex Krizhevsky，Vinod Nair和Geoffrey Hinton收集。

CIFAR-10数据集

CIFAR-10数据集由10个类的60000个32x32彩色图像组成，每个类有6000个图像。有50000个训练图像和10000个测试图像。
数据集分为五个训练批次和一个测试批次，每个批次有10000个图像。测试批次包含来自每个类别的恰好1000个随机选择的图像。训练批次以随机顺序包含剩余图像，但一些训练批次可能包含来自一个类别的图像比另一个更多。总体来说，所有训练批组成的训练集，每一类都有5000张图。

以下是数据集中的类，以及来自每个类的10个随机图像：
在这里插入图片描述
这些类完全相互排斥。汽车和卡车之间没有重叠。“汽车”包括轿车，SUV，这类东西。“卡车”只包括大卡车。都不包括皮卡车。

CIFAR-10下载

共有三个版本

CIFAR-10 python版本  (http://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz)
CIFAR-10 Matlab版本  (http://www.cs.toronto.edu/~kriz/cifar-10-matlab.tar.gz
CIFAR-10二进制版本（适用于C程序）(http://www.cs.toronto.edu/~kriz/cifar-10-binary.tar.gz)

Baseline results (基线结果？还不是很懂)

你可以在cuda-convert的项目页面上找到此数据集上的一些基线可复制的结果。这个结果是由CNN卷积神经网络得到的。简要的说，在没有数据扩充的情况下，测试误差为18%，反之为11%。
（emmm这段感觉关系不大。。。）

数据集布局

Python/Matlab 版本
该数据集文件包含data_batch1……data_batch5，和test_batch。他们都是由cPickle库产生的序列化后的对象（关于pickle,移步https://docs.python.org/3/library/pickle.html）。这里给出python2和python3的例程，他可以打开这样的pkl文件，返回一个字典结构的数据：

python2: