本文主要是介绍深度学习领域语义分割常用数据集:PASCAL VOC 2007 ,2012 NYUDv2 SUNRGBD CityScapes CamVid SIFT-Flow 7大数据集介绍,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
目录
1.常用数据集适用场景
2.SUNRGBD 数据集
(1)数据集介绍
(2)数据集下载
(3)数据集类别
(4)数据集的标注
3.PASCAL VOC 2007数据集
(1)数据集介绍
(2)数据集下载http://host.robots.ox.ac.uk/pascal/VOC/voc2007/#testdata
(3)数据集包含类别
(4)数据集文件结构
4.PASCAL VOC 2012数据集
(1)数据集介绍
(2)数据集下载
编辑
(3)数据集包含类别
(4)数据集文件结构
5.CityScapes 数据集
(1)数据集介绍
(2)官网地址
(3)数据集的类别
6.CamVid数据集
(1)数据集介绍
(2)数据集下载
(3)数据集包含类别
类别细分
(4)数据集文件结构
7.SIFT-Flow数据集
(1)数据集介绍
(2)数据集下载
(3)数据集类别
8.NYUDv2 数据集
(1)数据集介绍
(2)数据集下载
(3)数据集类别
1.常用数据集适用场景
数据集 | 主题 | 类别 | 训练 | 验证 | 测试 | 总数 |
SUNRGBD | 室内场景 | 37 | 2666 | 2619 | 5050 | 10335 |
NYUDv2 | 室内场景 | 40 | 795 | 654 | - | 1449 |
PASCAL VOC 2007 | 综合场景 | 20 | 5011 | 5823 | 4952 | 15786 |
PASCAL VOC 2012 | 综合场景 | 20 | 1464 | 1449 | - | 2913 |
CityScapes | 道路场景 | 30 | 2975 | 500 | 1525 | 5000 |
CamVid | 道路场景 | 11 | 367 | 100 | 233 | 700 |
SIFT-Flow | 自然场景 | 33 | - | - | - | 2688 |
2.SUNRGBD 数据集
(1)数据集介绍
数据集由四个不同的传感器捕获,包含 10,000 张 RGB-D 图像,其规模与 PASCAL VOC 相似。整个数据集经过密集注释,包括 146,617 个 2D 多边形和 58,657 个具有准确对象方向的 3D 边界框,以及场景的 3D 房间布局和类别。
3D 对象检测是场景理解的一项基本任务。在这项任务中,主要专注于预测现实世界维度中的 3D 边界框,以包含对象的全部范围。测试数据由 2860 张新获取的 RGB-D 图像组成,这些图像的真实边界框不公开。我们使用现有的 SUNRGB-D 数据集作为训练数据。此挑战赛由 CVPR 中 的LSUN 挑战赛主办。
视频介绍:
http://rgbd.cs.princeton.edu/sunrgbd_comp.mp4
(2)数据集下载
http://rgbd.cs.princeton.edu/challenge.html
(3)数据集类别
wall 墙
floor 地板
cabinet 内阁
bed 床
chair 椅子
sofa 沙发
table 卓子
door 门
window 窗户
bookshelf 书架
picture 图片
counter 柜台
blinds 百叶窗
desk 书桌
shelves 货架
curtain 窗帘
dresser 梳妆台
pillow 枕头
mirror 镜子
floor_mat 地板垫
clothes 衣服
ceiling 天花板
books 书
fridge 冰箱
tv 电视
paper 纸张
towel 毛巾
shower_curtain 沐浴帘
box 盒子
whiteboard 白板
person 人
night_stand 夜间看台
toilet 坐便器
sink 下沉
lamp 灯
bathtub 浴盆
bag 纸袋
(4)数据集的标注
三维对象方向:
三维对象边框:
场景分类:
语义分割:
3.PASCAL VOC 2007数据集
(1)数据集介绍
PASCAL VOC挑战赛 (The PASCAL Visual Object Classes )是一个世界级的计算机视觉挑战赛,PASCAL全称:Pattern Analysis, Statical Modeling and Computational Learning,是一个由欧盟资助的网络组织。PASCAL VOC挑战赛主要包括以下几类:图像分类(Object Classification),目标检测(Object Detection),目标分割(Object Segmentation),行为识别(Action Classification) 等。
PASCAL VOC数据集为图像识别和分类提供了一整套标准化的优秀的数据集,从2005年到2012年每一年都会举行一场图像识别Challenge.
PASCAL 2007作为标准的数据集,是衡量图片分类识别能力的基准。Faster-RCNN,YOLO系列都是以此数据集为样式样例。包含了20个类别数。
(2)数据集下载
http://host.robots.ox.ac.uk/pascal/VOC/voc2007/#testdata
(3)数据集包含类别
aeroplane 飞机
bicycle 自行车
bird 鸟
boat 船
bottle 瓶
bus 公交车
car 汽车
cat 猫
chair 椅子
cow 母牛
dining table 餐桌
dog 狗
horse 马
motorbike 摩托车
person 人
potte dplant 盆栽植物
sheep 羊
sofa 沙发
train 火车
tv monitor 电视显示器
图像的目标统计
(4)数据集文件结构
和下面介绍的PASCAL VOC 2012数据集文件结构差不多的。
4.PASCAL VOC 2012数据集
(1)数据集介绍
PASCAL VOC挑战赛 (The PASCAL Visual Object Classes )是一个世界级的计算机视觉挑战赛,PASCAL全称:Pattern Analysis, Statical Modeling and Computational Learning,是一个由欧盟资助的网络组织。PASCAL VOC挑战赛主要包括以下几类:图像分类(Object Classification),目标检测(Object Detection),目标分割(Object Segmentation),行为识别(Action Classification) 等。
(2)数据集下载
http://host.robots.ox.ac.uk/pascal/VOC/voc2012/#devkit
(3)数据集包含类别
aeroplane 飞机
bicycle 自行车
bird 鸟
boat 船
bottle 瓶
bus 公交车
car 汽车
cat 猫
chair 椅子
cow 母牛
dining table 餐桌
dog 狗
horse 马
motorbike 摩托车
person 人
potte dplant 盆栽植物
sheep 羊
sofa 沙发
train 火车
tv monitor 电视显示器
图像包含目标统计
(4)数据集文件结构
Annotations文件中的.XML文件信息:
图片分割的信息
图片信息:
图片分割信息:
5.CityScapes 数据集
(1)数据集介绍
Cityscapes拥有5000张在城市环境中驾驶场景的图像(2975train,500 val,1525test)。它具有19个类别的密集像素标注(97%coverage),其中8个具有实例级分割。Cityscapes数据集,即城市景观数据集,这是一个新的大规模数据集,其中包含一组不同的立体视频序列,记录在50个不同城市的街道场景。
城市景观数据集中于对城市街道场景的语义理解图片数据集,该大型数据集包含来自50个不同城市的街道场景中记录的多种立体视频序列,除了20000个弱注释帧以外,还包含5000帧高质量像素级注释。因此,数据集的数量级要比以前的数据集大的多。Cityscapes数据集共有fine和coarse两套评测标准,前者提供5000张精细标注的图像,后者提供5000张精细标注外加20000张粗糙标注的图像。
该数据集主要是:
(1)评价视觉算法在城市场景语义理解的主要任务中的性能:像素级、实例级、全景语义标注任务;
(2)支持旨在利用大量(弱)注释数据的研究,例如用于训练深度神经网络。
标签任务:https://www.cityscapes-dataset.com/benchmarks/#scene-labeling-task
特征(数据集的整体结构)
多边形注释
- 密集语义分割
- 车辆和人的实例分割
复杂
- 30个类别
- 有关所有类的列表,以下已给出数据集的类别名称。
多样性
- 50个城市
- 几个月(春、夏、秋)
- 白天
- 良好/中等天气条件
- 手动选择的帧
- 大量动态对象
- 多变的场景布局
- 变化的背景体积
- 5 000 张带有精细注释的注释图像,如下图
- 20 000 张带有粗略注释的带注释图像,如下图
https://www.cityscapes-dataset.com/examples/#videos
第一个视频包含大约 1000 张带有高质量注释的图像。第二个视频使用相应的右立体视图可视化预先计算的深度图。最后一个视频是从长视频记录中提取的,并将 GPS 位置可视化为数据集元数据的一部分。
元数据
- 前面和后面的视频帧。每个带注释的图像是30 帧视频片段(1.8 秒)中的第 20个图像
- 对应的右立体视图
- GPS坐标
- 来自车辆里程计的自我运动数据
- 来自车辆传感器的外部温度
其他研究人员的扩展
- 人的边界框注释
- 增加了雾和雨的图像
基准套件和评估服务器
- 像素级语义标注
- 实例级语义标注
- 全景语义标注
标注原则:
* 标记的前景对象绝不能有孔洞,即,如果有一些“透过”某个前景对象可见的背景,则它被认为是前景的一部分。这也适用于与两个或更多类高度混合的区域:它们被标记为前景类。示例:房屋或天空前的树叶(所有的树)、透明的车窗(所有的汽车)。
(2)官网地址
https://www.cityscapes-dataset.com/
(3)数据集的类别
对应中文名称:
分组 | 类别名称 |
flat-平地 | 路,人行道,停车场+,轨道+ |
human-人 | 人*,骑手* |
vehicle-交通工具 | 汽车*,卡车*,公交车*,在轨车*,摩托车*,自行车*,大篷车*+,拖车*+ |
construction-建筑 | 建筑物,墙,栅栏,护栏+,桥+,隧道+ |
object-物体 | 电线杆,杆组+,交通标志,交通灯 |
nature-自然 | 植被,地形 |
sky-天空 | 天空 |
void-空的 | 地面+,动态+,静止+ |
注:
- * 单实例注释可用。但是,如果不能清楚地看到这些实例之间的边界,则将整个人群/组标记在一起并注释为组,例如汽车组。
- + 此标签不包括在任何评估中并被视为无效(或在车牌作为车辆安装的情况下)。
关于CityScapes 数据集文件结构,读者可自行到官网下载(有点大)。
6.CamVid数据集
(1)数据集介绍
CamVid(The Cambridge-driving Labeled Video Database)数据集由剑桥大学工程系于2008年发布,相关论文介绍《Segmentation and Recognition Using Structure from Motion Point Clouds》,是第一个具有目标类别语义标签的视频集合。数据库提供了32个ground truth语义标签,将每个像素与语义类别之一相关联。该数据库解决了对实验数据的需求,以定量评估新兴算法。数据是从驾驶汽车的角度拍摄的,驾驶场景增加了观察目标的数量和异质性。
(2)数据集下载
来自视频的类别标签图片:
http://mi.eng.cam.ac.uk/research/projects/VideoRec/CamVid/data/LabeledApproved_full.zip
https://pan.baidu.com/s/1E50QplXMcZISlFV5RN4CLg
(3)数据集包含类别
数据集包 括 700 张精准标注的图片用于强监督学习,可分为训练集、验证集、测试集。同时, 在 CamVid 数据集中通常使用 11 种常用的类别来进行分割精度的评估.
Group(组) | Classes(类别) |
Persons(人) | pedestrian(行人) |
Vehicals(交通工具) | car(汽车),bicyclist(自行车) |
Constructions(建筑物) | fence(围墙),building(建筑物) |
Sky(天空) | sky(天空) |
Object(目标) | pole(电线杆),symbol(交通标志) |
nature(自然) | tree(树木) |
flat(平地) | sidewalk(行人道),road(路) |
类别标签颜色:
64 128 64 Animal
192 0 128 Archway
0 128 192 Bicyclist
0 128 64 Bridge
128 0 0 Building
64 0 128 Car
64 0 192 CartLuggagePram
192 128 64 Child
192 192 128 Column_Pole
64 64 128 Fence
128 0 192 LaneMkgsDriv
192 0 64 LaneMkgsNonDriv
128 128 64 Misc_Text
192 0 192 MotorcycleScooter
128 64 64 OtherMoving
64 192 128 ParkingBlock
64 64 0 Pedestrian
128 64 128 Road
128 128 192 RoadShoulder
0 0 192 Sidewalk
192 128 128 SignSymbol
128 128 128 Sky
64 128 192 SUVPickupTruck
0 0 64 TrafficCone
0 64 64 TrafficLight
192 64 128 Train
128 128 0 Tree
192 128 192 Truck_Bus
64 0 64 Tunnel
192 192 0 VegetationMisc
0 0 0 Void
64 192 0 Wall
类别细分
类别数量分布:
(4)数据集文件结构
7.SIFT-Flow数据集
(1)数据集介绍
SIFT Flow是一个包含2688个图像的数据集,具有像素标签对于33个语义类别(“桥”、“山”、“太阳”),以及三个几何类别(“水平”、“垂直”和“天空”)。
(2)数据集下载
https://pan.baidu.com/s/1dFxaAtj
(3)数据集类别
awning 雨蓬
balcony 阳台
bird 鸟
boat 船
bridge 桥
building 建筑
bus 大巴车
car 小汽车
cow 牛
crosswalk 十字路口
desert 沙漠
door 门
fence 栅栏
field 牧场
grass 草
moon 月亮
mountain 山
person 人
plant 植物
pole 杆
river 河流
road 公路
rock 岩石
sand 沙滩
sea 海
sidewalk 人行道
sign 指示牌
sky 天空
staircase 楼梯
streetlight路灯
sun 太阳
tree 树
window 窗户
8.NYUDv2 数据集
(1)数据集介绍
NYU-Depth V2 数据集由来自各种室内场景的视频序列组成,这些视频序列由 Microsoft Kinect的 RGB 和深度相机记录。它的特点:
- 1449个密集标记的对齐 RGB 和深度图像对
- 来自3个城市的464个新场景
- 407,024 个新的未标记帧
- 每个对象都标有一个类和一个实例编号(cup1、cup2、cup3 等)
数据集有几个组成部分:
- 标签:视频数据的子集,伴随着密集的多类标签。该数据也经过预处理以填充缺失的深度标签。
- Raw:Kinect 提供的原始 rgb、深度和加速度计数据。
- 工具箱:用于操作数据和标签的有用功能。
(2)数据集下载
https://cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html
https://cs.nyu.edu/~silberman/datasets/
(3)数据集类别
wall 墙
floor 地板
cabinet 内阁
bed 床
chair 椅子
sofa 沙发
table 卓子
door 门
window 窗子
bookshelf 书架
picture 图片
counter 柜台
blinds 百叶窗
desk 书桌
shelves 货架
curtain 窗帘
dresser 梳妆台
pillow 枕头
mirror 镜子
floor mat 地板垫
clothes 衣服
ceiling 天花板
books 书
refridgerator 制冷剂发生器
television 电视机
paper 纸张
towel 毛巾
shower curtain 沐浴帘
box 盒子
whiteboard 白板
person 人
night stand 床头柜
toilet 坐便器
sink 下沉
lamp 灯
bathtub 浴盆
bag 纸袋
otherstructure 其他结构
otherfurniture 其他家具
otherprop 其他支柱
注:读者如果想要更多的了解上面的数据集,需要读者自己根据上面给出的官网连接去研究。
这篇关于深度学习领域语义分割常用数据集:PASCAL VOC 2007 ,2012 NYUDv2 SUNRGBD CityScapes CamVid SIFT-Flow 7大数据集介绍的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!