【Datawhale AI夏令营】从零上手CV竞赛Task3

2024-09-01 03:52

本文主要是介绍【Datawhale AI夏令营】从零上手CV竞赛Task3,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 前言
  • 一、数据集增强
  • 二、设置 YOLO 模型训练参数
  • 三、模型微调
  • 总结


前言

本文的Task3对Task1的baseline代码继续进行优化的过程。

在这里插入图片描述


一、数据集增强

数据增强是机器学习和深度学习中常用的技术,用于通过从现有数据集中生成新的训练样本来提高模型的泛化能力。

常见的增强技术包括翻转、旋转、缩放和颜色调整。例如 Albumentations、Imgaug 和 TensorFlow的 ImageDataGenerator等多个库可以生成这些增强。

数据增强方法描述
Mosaic Augmentation将四张训练图像组合成一张,增加物体尺度和位置的多样性。
Copy-Paste Augmentation复制一个图像的随机区域并粘贴到另一个图像上,生成新的训练样本。
Random Affine Transformations包括图像的随机旋转、缩放、平移和剪切,增加对几何变换的鲁棒性。
MixUp Augmentation通过线性组合两张图像及其标签创造合成图像,增加特征空间的泛化。
Albumentations一个支持多种增强技术的图像增强库,提供灵活的增强管道定义。
HSV Augmentation对图像的色相、饱和度和亮度进行随机变化,改变颜色属性。
Random Horizontal Flip沿水平轴随机翻转图像,增加对镜像变化的不变性。

如下图所示就是数据增强的例子:

在这里插入图片描述

参数名类型默认值取值范围描述
hsv_hfloat0.0150.0 - 1.0调整图像色调,引入颜色变异性,提高不同光照下的泛化能力。
hsv_sfloat0.70.0 - 1.0调整图像饱和度,改变颜色强度,模拟不同环境条件。
hsv_vfloat0.40.0 - 1.0调整图像亮度,帮助模型在不同光照下表现良好。
degreesfloat0-180 - +180随机旋转图像,提高识别不同方向物体的能力。
translatefloat0.10.0 - 1.0平移图像,帮助模型学习检测部分可见物体。
scalefloat0.5>=0.0缩放图像,模拟物体与相机之间的不同距离。
shearfloat0-180 - +180剪切图像,模拟从不同角度观察物体的效果。
perspectivefloat00.0 - 0.001应用随机透视变换,增强模型对3D空间物体的理解能力。
flipudfloat00.0 - 1.0上下翻转图像,增加数据变异性,不影响物体特征。
fliplrfloat0.50.0 - 1.0左右翻转图像,有助于学习对称物体和增加数据集多样性。
bgrfloat00.0 - 1.0翻转图像通道从RGB到BGR,提高对通道顺序错误的鲁棒性。
mosaicfloat10.0 - 1.0合成四张图像,模拟不同场景组合和物体交互,增强复杂场景理解。
mixupfloat00.0 - 1.0混合两张图像及标签,创建合成图像,增强泛化能力。
copy_pastefloat00.0 - 1.0复制物体并粘贴到另一图像,增加实例和学习遮挡。
auto_augmentstrrandaugment-自动应用预定义增强策略,优化分类任务。
erasingfloat0.40.0 - 0.9随机擦除图像部分,鼓励模型关注不明显特征。

二、设置 YOLO 模型训练参数

YOLO 模型的训练设置包括多种超参数和配置,这些设置会影响模型的性能、速度和准确性。

微调涉及采用预先训练的模型并调整其参数以提高特定任务或数据集的性能。该过程也称为模型再训练,使模型能够更好地理解和预测在实际应用中将遇到的特定数据的结果。

通常,在初始训练时期,学习率从低开始,逐渐增加以稳定训练过程。但是,由于预训练模型已经从以前的数据集中学习了一些特征,因此立即从更高的学习率开始可能更有益。在 YOLO 中绝大部分参数都可以使用默认值。

参数描述
imgsz训练时的目标图像尺寸,所有图像在此尺寸下缩放。
save_period保存模型检查点的频率(周期数),-1 表示禁用。
device用于训练的计算设备,可以是单个或多个 GPU,CPU 或苹果硅的 MPS。
optimizer训练中使用的优化器,如 SGD、Adam 等,或 ‘auto’ 以根据模型配置自动选择。
momentumSGD 的动量因子或 Adam 优化器的 beta1。
weight_decayL2 正则化项。
warmup_epochs学习率预热的周期数。
warmup_momentum预热阶段的初始动量。
warmup_bias_lr预热阶段偏置参数的学习率。
box边界框损失在损失函数中的权重。
cls分类损失在总损失函数中的权重。
dfl分布焦点损失的权重。

三、模型微调

在Task2的基础上,我仍然使用8张4090显卡进行yolov8x更多epoch的训练,同时修改了一些超参数。

在这里插入图片描述

results = model.train(data="/mnt/sdb1/yolo-dataset/yolo.yaml", epochs=10, imgsz=1280, batch=32, device="0,1,2,3,4,5,6,7", mixup=0.4, copy_paste=0.5, mosaic=0)
results = model(path, conf=0.25, imgsz=1280, verbose=False, augment=True)

但是令人遗憾的是,可能mosaic不能设置成0,因为可能需要增加物体位置和尺度的多样性。导致最后的提升比较微小,从0.132提升到了0.137。

在这里插入图片描述

类别目标数量检测数量精度(Precision)召回率(Recall)F1 分数mAP@0.5
all2595196580.7070.2370.330.233
非机动车违停2591126660.8290.6350.7440.447
机动车违停259157370.9990.3140.5640.484
垃圾桶满溢7917911.00.00.00.0
违法经营2324640.00.00.01340.00136

在这里插入图片描述
在这里插入图片描述

而且从训练来看,训练10个epoch过程中差别不是很大,说明可能存在过拟合的问题。

在这里插入图片描述

最后我查看群友们的建议,发现比赛的数据存在严重的数据集不均衡的问题,所以我重新使用一张4090,换用了另一种训练集:验证集为4:1比例的数据划分。

在这里插入图片描述

类别目标数量检测数量精度(Precision)召回率(Recall)F1 分数mAP@0.5
all9307355610.6340.6440.6510.485
非机动车违停9306241280.9040.9310.9570.681
机动车违停9211112221.01.00.9950.774
垃圾桶满溢2112110.00.00.00.0

在这里插入图片描述

在这里插入图片描述

此时的成绩提升到了0.175,提升比较大,说明数据集的标签均衡是非常重要的影响因素。


总结

本次城市治理的违规行为识别的比赛到此就完成所有步骤了,以后有机会还会在此基础上继续深入研究,挑战更多可能!

这篇关于【Datawhale AI夏令营】从零上手CV竞赛Task3的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1125865

相关文章

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》:本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应

Spring AI ectorStore的使用流程

《SpringAIectorStore的使用流程》SpringAI中的VectorStore是一种用于存储和检索高维向量数据的数据库或存储解决方案,它在AI应用中发挥着至关重要的作用,本文给大家介... 目录一、VectorStore的基本概念二、VectorStore的核心接口三、VectorStore的

Spring AI集成DeepSeek三步搞定Java智能应用的详细过程

《SpringAI集成DeepSeek三步搞定Java智能应用的详细过程》本文介绍了如何使用SpringAI集成DeepSeek,一个国内顶尖的多模态大模型,SpringAI提供了一套统一的接口,简... 目录DeepSeek 介绍Spring AI 是什么?Spring AI 的主要功能包括1、环境准备2

Spring AI集成DeepSeek实现流式输出的操作方法

《SpringAI集成DeepSeek实现流式输出的操作方法》本文介绍了如何在SpringBoot中使用Sse(Server-SentEvents)技术实现流式输出,后端使用SpringMVC中的S... 目录一、后端代码二、前端代码三、运行项目小天有话说题外话参考资料前面一篇文章我们实现了《Spring

Spring AI与DeepSeek实战一之快速打造智能对话应用

《SpringAI与DeepSeek实战一之快速打造智能对话应用》本文详细介绍了如何通过SpringAI框架集成DeepSeek大模型,实现普通对话和流式对话功能,步骤包括申请API-KEY、项目搭... 目录一、概述二、申请DeepSeek的API-KEY三、项目搭建3.1. 开发环境要求3.2. mav

C#集成DeepSeek模型实现AI私有化的流程步骤(本地部署与API调用教程)

《C#集成DeepSeek模型实现AI私有化的流程步骤(本地部署与API调用教程)》本文主要介绍了C#集成DeepSeek模型实现AI私有化的方法,包括搭建基础环境,如安装Ollama和下载DeepS... 目录前言搭建基础环境1、安装 Ollama2、下载 DeepSeek R1 模型客户端 ChatBo

Spring AI集成DeepSeek的详细步骤

《SpringAI集成DeepSeek的详细步骤》DeepSeek作为一款卓越的国产AI模型,越来越多的公司考虑在自己的应用中集成,对于Java应用来说,我们可以借助SpringAI集成DeepSe... 目录DeepSeek 介绍Spring AI 是什么?1、环境准备2、构建项目2.1、pom依赖2.2

Deepseek R1模型本地化部署+API接口调用详细教程(释放AI生产力)

《DeepseekR1模型本地化部署+API接口调用详细教程(释放AI生产力)》本文介绍了本地部署DeepSeekR1模型和通过API调用将其集成到VSCode中的过程,作者详细步骤展示了如何下载和... 目录前言一、deepseek R1模型与chatGPT o1系列模型对比二、本地部署步骤1.安装oll

Spring AI Alibaba接入大模型时的依赖问题小结

《SpringAIAlibaba接入大模型时的依赖问题小结》文章介绍了如何在pom.xml文件中配置SpringAIAlibaba依赖,并提供了一个示例pom.xml文件,同时,建议将Maven仓... 目录(一)pom.XML文件:(二)application.yml配置文件(一)pom.xml文件:首

SpringBoot整合DeepSeek实现AI对话功能

《SpringBoot整合DeepSeek实现AI对话功能》本文介绍了如何在SpringBoot项目中整合DeepSeekAPI和本地私有化部署DeepSeekR1模型,通过SpringAI框架简化了... 目录Spring AI版本依赖整合DeepSeek API key整合本地化部署的DeepSeek