YOLOv6-3.0-目标检测论文解读

2024-03-11 04:40

本文主要是介绍YOLOv6-3.0-目标检测论文解读,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 摘要
  • 算法
    • 2.1网络设计
    • 2.2Anchor辅助训练
    • 2.3自蒸馏
  • 实验
    • 消融实验
  • 结论

论文: 《YOLOv6 v3.0: A Full-Scale Reloading 》
github: https://github.com/meituan/YOLOv6
上版本参考 YOLOv6

摘要

YOLOv6 v3.0中YOLOv6-N达到37.5AP,1187FPS;
YOLOv6-S达到45AP,484FPS;
扩展backbone及neck,YOLOv6-M/L达到50/52.8AP,耗时基本不变;
YOLOv6-L6在实时目标检测达到SOTA;图1中YOLOv6与其他版本进行比较。
在这里插入图片描述
YOLOv6贡献总结如下:
1、更新neck为RepBi-PAN,引入SiC模块及SimCSPSPPF Block;
2、使用对耗时无影响的AAT(Anchor-Aided Training)策略;
3、YOLOv6在backbone和neck中增加一个stage,强化在高分辨率输入下的表现;
4、引入一种自监督策略提升YOLOv6小模型性能,训练时使用高参数量DFL分支辅助训练回归分支,推理时去除,避免耗时增加。

算法

2.1网络设计

作者基于PAN,提出Bi-directional Concatenation(BiC)模块,如图2,融合backbone Ci-1层及Pi层特征,更多精确位置信号被保留,有利于小目标定位。
作者简化SPPF block为SimCSPSPPF Block,增强表达能力。YOLOv6中neck定义为RepBi-PAN。
在这里插入图片描述

2.2Anchor辅助训练

作者发现基于anchor的YOLOv6-N优于anchor-free方案,如表1
在这里插入图片描述
作者提出anchor辅助训练方案 (AAT)结合anchor-based及anchor-free优势,如图3,训练时辅助分支与anchor-free分支独立计算损失,辅助分支可帮助优化anchor-free head,推理时除去辅助分支,提升性能,速度不变。
在这里插入图片描述

2.3自蒸馏

上个版本YOLOv6中自监督损失函数如式1,使用DFL进行蒸馏框回归分支。
在这里插入图片描述
蒸馏早期教师模型使用软标签,随着训练进行硬标签更合适,因此作者对蒸馏权重使用余弦weight decay,如式3,
在这里插入图片描述
DFL将影响模型推理速度,对此作者设计Decoupled Localization Distillation(DLD),蒸馏时,学生装备原始回归分支和与DFL结合的辅助分支,教师仅使用辅助分支,原始回归分支使用硬标签训练,辅助分支使用硬标签及教师模型更新;蒸馏后,移除辅助分支。

实验

作者使用FP16精度进行各个方案比较,结果如表2,图1所示,
在这里插入图片描述
YOLOv6-N超越YOLOv5-N/YOLOv7-Tiny 9.5%/4.2%;
YOLOv6-S超越YOLOX-S/PPYOLOE-S 3.5%/0.9%,且耗时更短;
YOLOv6- M超越YOLOv5-M 4.6;
YOLOv6-L超越YOLOX-L/PPYOLOE-L 3.1%/1.4%;
与YOLOv8系列相比,性能接近。

作者类似YOLOv5在backbone 增加C6层用于检测更大目标,neck相应做出调整, 分别命名为YOLOv6- N6/S6/M6/L6;实验结果如表2,
与YOLOv5相比,性能提升,推理速度基本不变;
与YOLOv7-E6E相比,YOLOv6-L6性能提升0.4,耗时缩短63%;

消融实验

消融实验如表3,BiC+SimCSPSPPF使得性能提升0.6%;AAT使得性能提升0.3%;DLD使得性能提升0.7%;
在这里插入图片描述
BiC模块影响实验如表4,在PAN top-down路径插入BiC,YOLOv6-S/L性能提升0.6%/0.4%;但插入bottom-up路径为带来增益,作者分析由于bottom-up路径中BiC将导致检测头易混淆不同尺度特征;
在这里插入图片描述
表5表示不同类型SPP block影响,SimSPPF*3表示P3, P4 and P5层使用SimSPPF blocks,SimSPPCSPC在 YOLOv6-N/S上超越SimSPPF 1.6%/0.3%,但耗时增加;
在YOLOv6- N/S/M上,SimCSPSPPF超越SimSPPF 1.1%/0.4%/0.1%;
考虑到性能与耗时均衡,作者在YOLOv6-N/S使用SimCSPSPPF,YOLOv6-M/L使用SimSPPF blocks;
在这里插入图片描述
如表6,anchor辅助训练(AAT)在YOLOv6-S/M/L上,带来0.3%/0.5%/0.5%性能提升;在YOLOv6-N/S/M上小目标性能显著提升;
在这里插入图片描述
表7表明在YOLOv6-L上weight decay使得性能提升0.6%;
在这里插入图片描述
表8表明在YOLOv6-S上DLD带来0.7%性能提升;
在这里插入图片描述

结论

作者将YOLOv6进一步提升,在实时目标检测领域达到SOTA。

这篇关于YOLOv6-3.0-目标检测论文解读的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/796672

相关文章

SpringBoot使用Apache Tika检测敏感信息

《SpringBoot使用ApacheTika检测敏感信息》ApacheTika是一个功能强大的内容分析工具,它能够从多种文件格式中提取文本、元数据以及其他结构化信息,下面我们来看看如何使用Ap... 目录Tika 主要特性1. 多格式支持2. 自动文件类型检测3. 文本和元数据提取4. 支持 OCR(光学

MySQL中时区参数time_zone解读

《MySQL中时区参数time_zone解读》MySQL时区参数time_zone用于控制系统函数和字段的DEFAULTCURRENT_TIMESTAMP属性,修改时区可能会影响timestamp类型... 目录前言1.时区参数影响2.如何设置3.字段类型选择总结前言mysql 时区参数 time_zon

MySQL中的锁和MVCC机制解读

《MySQL中的锁和MVCC机制解读》MySQL事务、锁和MVCC机制是确保数据库操作原子性、一致性和隔离性的关键,事务必须遵循ACID原则,锁的类型包括表级锁、行级锁和意向锁,MVCC通过非锁定读和... 目录mysql的锁和MVCC机制事务的概念与ACID特性锁的类型及其工作机制锁的粒度与性能影响多版本

Redis过期键删除策略解读

《Redis过期键删除策略解读》Redis通过惰性删除策略和定期删除策略来管理过期键,惰性删除策略在键被访问时检查是否过期并删除,节省CPU开销但可能导致过期键滞留,定期删除策略定期扫描并删除过期键,... 目录1.Redis使用两种不同的策略来删除过期键,分别是惰性删除策略和定期删除策略1.1惰性删除策略

Redis与缓存解读

《Redis与缓存解读》文章介绍了Redis作为缓存层的优势和缺点,并分析了六种缓存更新策略,包括超时剔除、先删缓存再更新数据库、旁路缓存、先更新数据库再删缓存、先更新数据库再更新缓存、读写穿透和异步... 目录缓存缓存优缺点缓存更新策略超时剔除先删缓存再更新数据库旁路缓存(先更新数据库,再删缓存)先更新数

如何用Java结合经纬度位置计算目标点的日出日落时间详解

《如何用Java结合经纬度位置计算目标点的日出日落时间详解》这篇文章主详细讲解了如何基于目标点的经纬度计算日出日落时间,提供了在线API和Java库两种计算方法,并通过实际案例展示了其应用,需要的朋友... 目录前言一、应用示例1、天安门升旗时间2、湖南省日出日落信息二、Java日出日落计算1、在线API2

C#反射编程之GetConstructor()方法解读

《C#反射编程之GetConstructor()方法解读》C#中Type类的GetConstructor()方法用于获取指定类型的构造函数,该方法有多个重载版本,可以根据不同的参数获取不同特性的构造函... 目录C# GetConstructor()方法有4个重载以GetConstructor(Type[]

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

4B参数秒杀GPT-3.5:MiniCPM 3.0惊艳登场!

​ 面壁智能 在 AI 的世界里,总有那么几个时刻让人惊叹不已。面壁智能推出的 MiniCPM 3.0,这个仅有4B参数的"小钢炮",正在以惊人的实力挑战着 GPT-3.5 这个曾经的AI巨人。 MiniCPM 3.0 MiniCPM 3.0 MiniCPM 3.0 目前的主要功能有: 长上下文功能:原生支持 32k 上下文长度,性能完美。我们引入了

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X