使用YOLOv10训练自定义数据集之二（数据集准备）

本文主要是介绍使用YOLOv10训练自定义数据集之二（数据集准备），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

0x00 前言

经过上一篇环境部署的介绍【传送门】，我们已经得到了一个基本可用的YOLOv10的运行环境，还需要我们再准备一些数据，用于模型训练。

0x01 准备数据集

1. 图像标注工具

数据集是训练模型基础素材。

对于小白来说，一般推荐从一些开放网站中下载直接使用，官方推荐了一个名为Roboflow的数据集网站。Roboflow是一个免费开源数据集管理平台，它不仅提供免费的数据集，还支持上传自己的数据集并进行格式转换，一键导出VOC、COCO、yolo、csv等格式。网站的数据下载方法和在线标注这里不过多表述。另外，还有一个知名的数据分析的竞赛平台：kaggle 也比较推荐，里面会有一些开源的数据集在注册之后可以使用。
在这里插入图片描述

还有一种方式，是使用离线工具自己标注数据，这里有两款工具推荐：labelImg和Labelme。这两款工具都不错。

labelImg在2021年10月份已经停止了github仓库更新，且不支持在python3.9以上环境安装。所以未来能走多远是个未知，新的项目label studio 融合了labelimg，有兴趣的可以装下label studio【传送门】。不过，这款工具在conda环境下，安装比较简单，使用操作简洁，易上手。还是不错的。
下载地址：
https://github.com/HumanSignal/labelImg

在这里插入图片描述

labelme也是一款python的标注工具，项目大约在2019年左右创建，目前已知在社区中活跃更新代码，截止到2024年9月，已经发布了200多个版本。支持很多功能，比如标注分类，多边形分割等等。这里是十分推荐使用的，后续LZ体验后，再与大家一起分享。
下载地址：
https://github.com/labelmeai/labelme
在这里插入图片描述

2. 标注数据格式

工具使用教程可以百度下，资料比较多。这里着重说些yolo的数据格式。楼主开始找了一些网上奇奇怪怪的数据集，导致要先转成COCO格式，再转成YOLO格式，中间几番曲折，最终还是放弃了自己标注。
放弃非标准数据集的原因有几个：

数据量较大，因为一个数据集有20w张图片，压缩后大小在12G左右；
格式转换繁琐，因为有标注数据该有对应关系，COCO格式是一个大json，转YOLO时一直提示内存错误(Memory error)。改了半天代码才转换成yolo格式；
本地算力不足，本来开开心心要训练20轮，结果第一轮的1%需要1个小时，等了10个小时才10%，土豪可以跳过这些细节。

唠叨了半天说下关键的数据格式。

2.1 YOLO 标注格式

2.1.1. yaml配置文件

说道YOLO标注格式，先说下数据集的配置文件，coco.yaml（名字可以随便起，代码中指定即可）。官方代码仓库中在ultralytics\cfg\datasets\coco.yaml。训练模型是可以指定这个路径。关键字段解释如下：

	字段名	解释
1	path	数据集的根目录（绝对路径或者相对路径）
2	train	训练集路径（绝对路径或者相对路径），必备
3	val	验证集路径（绝对路径或者相对路径），最好带上，不然训练完也不知道效果
4	test	测试集路径（绝对路径或者相对路径）
5	names	分类名字，也就是标签的列表

# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]
path: ../datasets/coco8  # dataset root dir
train: images/train  # train images (relative to 'path') 4 images
val: images/val  # val images (relative to 'path') 4 images
test:  # test images (optional)# Classes (80 COCO classes)
names:0: person1: bicycle2: car# ...77: teddy bear78: hair drier79: toothbrush

2.1.2. dataset数据集目录结构

train和valid数据集的结构是一样的，包含images和labels两个目录，分别用于存储图片文件和txt标注文件。
images目录结构如下：
在这里插入图片描述
labels目录结构如下：

2.1.3. txt标注文件格式

这里引用官网的一段描述：
The *.txt file should be formatted with one row per object in class x_center y_center width height format. Box coordinates must be in normalized xywh format (from 0 to 1). If your boxes are in pixels, you should divide x_center and width by image width, and y_center and height by image height. Class numbers should be zero-indexed (start with 0).
简而言之，就是所有的txt文件必须每行一个对象[class x y width height] 这个5元组，中间用空格分割的格式书写。如果有多个分类，就写多行。分类标签号必须从0开始。楼主试了下从15开始，训练时会报错。

xywh 格式说明
在这里插入图片描述

txt文件示例：
在这里插入图片描述

COCO 标注格式

COCO 数据集的标注格式是 JSON（JavaScript Object Notation）格式,该文件包含有关图像及其上的对象的详细信息。
json的主要结构示例如下：

{"info": info,"licenses": [license],"images": [image],"annotations": [annotation],"categories": [category]
}

info数据段部分，用处不大，可以空着。示例如下：

"info":{"description":"This is stable 1.0 version of the 2014 MS COCO dataset.","url":"http:\/\/mscoco.org","version":"1.0","year":2014,"contributor":"Microsoft COCO group","date_created":"2015-01-27 09:11:52.357475"
},

licenses是包含多个license实例的数组，用处不大，可以为空。这里放一个license类型的示例：

{"url":"http:\/\/creativecommons.org\/licenses\/by-nc-sa\/2.0\/","id":1,"name":"Attribution-NonCommercial-ShareAlike License"
},

Images是包含多个image实例的数组，对于一个image类型的实例：

{"license":3,"file_name":"COCO_val2014_000000391895.jpg","coco_url":"http:\/\/mscoco.org\/images\/391895","height":360,"width":640,"date_captured":"2013-11-14 11:18:45","flickr_url":"http:\/\/farm9.staticflickr.com\/8186\/8119368305_4e622c8349_z.jpg","id":391895
},

annotations记录了每一张图片的标注信息，是json中最重要的组成部分。segmentation是分割标注，bbox是目标框标注，image_id是对应的图片id，category_id是目标分类。需要注意的是，这里只介绍分类和分割的标注，COCO的关键点标注结果还会引入keypoints，这里也不赘述了。

"annotations": [{"segmentation": [[510.66,423.01,511.72,...423.01,510.45,423.01]],"area": 702.1057499999998,"iscrowd": 0,"image_id": 289343,"bbox": [473.07,395.93,38.65,28.67],"category_id": 18,"id": 1768},{"segmentation": [[289.74,443.39,302.29,...444.27,291.88,443.74]],"area": 27718.476299999995,"iscrowd": 0,"image_id": 61471,"bbox": [272.1,200.23,151.97,279.77],"category_id": 18,"id": 1773},......"segmentation": {"counts": [272,2,4,4,...16,228,8,10250],"size": [240,320]},"area": 18419,"iscrowd": 1,"image_id": 448263,"bbox": [1,0,276,122],"category_id": 1,"id": 900100448263},

categories是一个包含多个category实例的数组，数据量比较小。categories结构示例如下：

{"supercategory": "person","id": 1,"name": "person"
},
{"supercategory": "vehicle","id": 2,"name": "bicycle"
},

0x03 标注数据

楼主花了一个晚上标注了大约1000条左右，吐血+老眼昏花。用工具标注效率还是比较高的。加油，骚年，你也可以的。

0x04 训练模型的Tips

要训练好一个模型，总会有一些问题，比如我数据集要多大呀，框图的时候框多大呀。这个LZ也查了很多国内公开的资料，描述都不太详细。只是范范的说越多越好。其实答案已经在ultralytics官网写好了。传阅给诸君一起学习下。【传送门】

分割线================================

本指南介绍了如何使用YOLOv5 🚀 生成最佳 mAP 和训练效果。

大多数情况下，只要数据集足够大且标签齐全，无需更改模型或训练设置就能获得良好的结果。如果一开始效果不佳，您可以采取一些措施来改进，但我们始终建议用户在考虑任何更改之前，先使用所有默认设置进行训练。这有助于建立性能基线，发现需要改进的地方。

如果您对训练结果有疑问想找人咨询，我们建议您提供尽可能多的信息这样才能得到有用的回复。请提供结果图（train losses、val losses、P、R、mAP）、PR curve、confusion matrix、training mosaics、测试结果和数据集统计图像（如 labels.png）。所有这些都位于您的 project/name 目录，通常是 yolov5/runs/train/exp.

我们为希望在YOLOv5 培训中获得最佳效果的用户准备了一份完整的指南。

数据集

建议每类图片数量 ≥ 1500 张
建议每类实例数量≥ 10000 个（标记对象）
图像种类。必须能代表部署环境。对于真实世界的使用案例，我们建议使用不同时间、不同季节、不同天气、不同光线、不同角度、不同来源（网上搜索、本地收集、不同摄像头）等的图像。
标签一致性。所有图像中所有类别的所有实例都必须贴上标签。如果图像中有遗漏的标记对象（类）会影响效果。
标签准确性。标签必须紧密包围每个对象。对象与边界框之间不得有空隙。任何对象都不能缺少标签。
标签验证。查看 train_batch*.jpg 在火车启动时验证标签是否正确，即查看 example 。
背景图像。背景图片是没有物体的图像，添加到数据集中可以减少误报（FP）。我们建议使用约 0-10% 的背景图片来帮助减少误报率（COCO 有 1000 张背景图片供参考，占总数的 1%）。背景图片不需要标签。

参考文献

https://blog.csdn.net/u011119817/article/details/118532364
https://www.zhihu.com/column/p/29393415

使用YOLOv10训练自定义数据集之二（数据集准备）

0x00 前言

0x01 准备数据集

1. 图像标注工具

2. 标注数据格式

2.1 YOLO 标注格式

2.1.1. yaml配置文件

2.1.2. dataset数据集目录结构

2.1.3. txt标注文件格式

COCO 标注格式

0x03 标注数据

0x04 训练模型的Tips

参考文献

相关文章

Spring IoC 容器的使用详解(最新整理)

MySQL 删除数据详解(最新整理)

Python内置函数之classmethod函数使用详解

Linux中压缩、网络传输与系统监控工具的使用完整指南

使用Python实现可恢复式多线程下载器

Python中注释使用方法举例详解

Go语言数据库编程GORM 的基本使用详解

MyBatisPlus如何优化千万级数据的CRUD

python实现对数据公钥加密与私钥解密

mysql中的数据目录用法及说明