YOLOX: 无锚点机制 + 解耦头部设计 + 动态标签分配策略的高性能目标检测器 + Apache-2.0 开源可商用

本文主要是介绍YOLOX: 无锚点机制 + 解耦头部设计 + 动态标签分配策略的高性能目标检测器 + Apache-2.0 开源可商用,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

YOLOX: 无锚点机制 + 解耦头部设计 + 动态标签分配策略的高性能目标检测器 + Apache-2.0 开源可商用

      • 1. Decoupled Head 解耦头部的使用
      • 2. 强化数据增强策略
      • 3. 采用无锚点检测机制
      • 4. 多正样本策略
      • 5. SimOTA标签分配策略
      • 6. CSPDarkNet 网络结构
        • DarkNet53 的深度特征提取能力
          • DarkNet53 类比:图书馆系统
        • CSPNet 的高效计算方式
          • CSPNet 类比:文件存储系统
      • 7. PAFPN
      • 8. 损失函数
      • 9. 目标检测算法轻量化技巧

 


论文:https://arxiv.org/pdf/2107.08430

代码:https://github.com/Megvii-BaseDetection/YOLOX

YOLOX是YOLO对象检测算法系列的一个重要进展,这些算法以其有效性和效率而闻名。以下是YOLOX中突出的关键改进和特点:

  1. 无锚检测:YOLOX从以前的YOLO版本使用的传统基于锚的系统转变为无锚方式。这意味着它在没有预定义锚点的情况下预测边界框,简化了模型并可能减少了超参数。

  2. 解耦头部:模型在其架构中使用了一个解耦头部,这可能意味着它将边界框的预测和类别预测分离到不同的组件中。这可以提高学习和性能,因为每个部分都可以专注于更具体的任务。

  3. SimOTA标签分配:使用SimOTA(简化的最优运输分配)进行标签分配。这种先进的策略通过确保使用最相关的预测进行训练,优化了地面真实和预测对象之间的匹配,提高了精度。

  4. 不同规模的性能:YOLOX在各种模型大小上表现出强大的性能:

    • YOLO-Nano:尽管只有0.91百万参数和1.08亿FLOPs,它在COCO数据集上达到了25.3%的AP(平均精度),超过了NanoDet。
    • 增强的YOLOv3:将YOLOv3的性能提高到COCO上的47.3% AP。
    • YOLOX-L:该版本在Tesla V100 GPU上以68.9帧/秒(FPS)的速度达到了50.0%的AP,与其他高性能模型如YOLOv4-CSP和YOLOv5-L相当,但效率更高。
  5. 竞赛成功:YOLOX-L在CVPR 2021自动驾驶研讨会上的流媒体感知挑战中获得了第一名,表明了其在动态环境中的实用性和稳健性。

  6. 部署和支持:该模型支持使用各种框架(如ONNX、TensorRT、NCNN和OpenVINO)进行部署,使其能够适应不同的平台和设备。

  7. 开源可用性:源代码在GitHub上可用,为开发人员和研究人员提供了使用和适应YOLOX的可能性。

YOLOX代表了对象检测技术的一大飞跃,特别适用于需要实时环境中高性能的应用。其增强功能使其成为从自动驾驶到监控的广泛应用的强有力候选者。

 


1. Decoupled Head 解耦头部的使用

  • 子解法1: 引入解耦头部分别处理分类和定位任务。
  • 之所以使用解耦头部,是因为分类和定位任务在传统耦合头部中相互干扰,可能会导致性能下降。解耦头部可以让每个任务专注于其特定的功能,从而提高整体检测性能。例如,实验表明替换为解耦头部可以显著提高模型的收敛速度。

在这里插入图片描述

  1. YOLOv3的耦合头部

    • 使用了耦合头部,这意味着分类(Cls.)、回归(Reg.)、以及目标(Obj.)任务在同一神经网络层中处理。
    • 图中展示了从FPN(特征金字塔网络)特征分别经过1x1的卷积层,然后直接输出到一个混合输出层,这个输出层结合了不同的任务预测。
    • 输出维度为HxWxC(通道数乘以锚点数乘以(分类数 + 4个回归值 + 1个目标置信度))。
  2. YOLOX的解耦头部

    • YOLOX采用解耦头部设计,分开处理分类和回归任务,以及一个额外的IoU(交并比)分支。
    • 对每个FPN输出特征首先应用1x1的卷积层降低通道数至256,然后分为两个并行分支,每个分支包括两个3x3的卷积层,分别用于分类和回归任务。
    • 分类分支输出为HxWxC(每个位置的类别数),回归分支输出为HxWx4(每个位置的四个回归值),IoU分支输出为HxWx1(每个位置的IoU预测)。

这种设计的变化主要是为了改善模型的性能,通过分离任务以减少不同任务间的干扰,提高模型在分类和定位准确性上的效率。

解耦头部允许模型更加专注于每个特定任务的学习,从而在实际应用中提供更准确的预测。

2. 强化数据增强策略

  • 子解法1: 使用马赛克和MixUp策略。
  • 之所以使用马赛克和MixUp,是因为这些策略能有效地增加训练数据的多样性和复杂性,从而增强模型的泛化能力。特别是马赛克策略,它通过将多个训练图像拼接成一个大图来模拟更复杂的场景,而MixUp通过图像间的线性插值增加样本多样性。

3. 采用无锚点检测机制

  • 子解法1: 移除传统的锚点机制,直接预测边界框的尺寸和位置。
  • 之所以采用无锚点检测机制,是因为锚点机制需要在训练前通过聚类分析确定最佳锚点,这不仅增加了预训练的复杂性,而且锚点的设计往往是领域特定的,缺乏通用性。无锚点检测通过简化模型结构,减少了需要启发式调整的设计参数数量,使模型更简洁,训练和部署更高效。

4. 多正样本策略

  • 子解法1: 采用中心3×3区域的多个样本作为正样本。
  • 之所以采用多正样本策略,是因为在传统的单一正样本选择中,高质量的预测可能被忽视,从而导致训练不足。通过将中心区域内的多个预测都视为正样本,可以利用这些高质量预测带来的有益梯度,减轻训练中正/负样本极度不平衡的问题。

5. SimOTA标签分配策略

  • 子解法1: 实现基于全局视角的动态顶k正样本选择。
  • 之所以采用SimOTA标签分配策略,是因为传统的标签分配方法可能无法有效识别和优化最有潜力的预测框。SimOTA通过考虑损失和质量,动态选择对每个真实标签贡献最大的预测,从而优化训练过程并提高模型性能。这种方法通过减少计算复杂度,同时避免额外的求解器超参数,有效提升了训练效率和性能。

6. CSPDarkNet 网络结构

CSPDarkNet 代码地址:https://github.com/WongKinYiu/CrossStagePartialNetworks

CSPDarkNet主要建立在DarkNet神经网络架构的基础上,增加了Cross Stage Partial Network (CSPNet) 的设计,以改善模型的性能并减少计算成本。

  • DarkNet53 的深度特征提取能力
  • CSPNet 的高效计算方式
DarkNet53 的深度特征提取能力

DarkNet53是一个由53层卷积组成的深度神经网络,原本设计用作YOLOv3的主干网络。

这个网络是为了提取从简单到复杂的特征而精心设计的,具体包括:

  • 层级特征提取:DarkNet53通过多层卷积网络逐层提取图像特征,每一层都在前一层的基础上进一步抽象和提炼信息。这种分层方式允许网络捕捉从边缘和纹理到更复杂的对象部分的特征。
  • 残差连接:DarkNet53使用残差连接(Residual Connections)帮助解决深层网络中可能出现的梯度消失问题,确保即使在网络很深的情况下也能有效地训练。
  • 高效特征利用:通过这种深层次的特征提取,DarkNet53能够识别和处理图像中的各种对象,为后续的分类和定位任务提供了丰富的特征基础。
DarkNet53 类比:图书馆系统

想象DarkNet53像是一座大型图书馆系统,其中包括从基础文献到高级专业书籍的多层次收藏。

每个层次的书籍都建立在前一个层次的基础上,提供更深入、更专业的知识。

  • 层级特征提取:就像从图书馆的不同楼层逐层获取知识,每一层都提供更深入的信息。从简单的概念书籍到复杂的研究论文,读者(网络)可以逐步深入理解各种主题。
  • 残差连接:如果某个楼层的知识直接与另一个楼层链接,读者可以直接访问需要的资源而无需重复阅读基础材料,类似于跳过已知信息,直接获取新知识。
  • 高效特征利用:如同一个高效的图书管理员,DarkNet53可以准确快速地找到并处理所需的信息,无论是简单的查询还是复杂的研究问题。
CSPNet 的高效计算方式

CSPNet通过改变特征图的传递和处理方式,优化了计算过程,特别适用于在计算资源受限的环境下运行。

它的主要优势包括:

  • 特征分割和并行处理:CSPNet将来自前一层的特征图分为两部分,一部分直接传递到深层网络,而另一部分则通过额外的卷积层进行处理。这种结构减少了重复计算,使得整个网络的参数更有效地被利用。
  • 降低计算成本:通过分割特征图,CSPNet实际上减少了每层的参数数量,这直接降低了模型的训练和推理时的计算成本。
  • 增强的特征融合:在网络的后续部分,直接传递的特征与经过卷积处理的特征合并,这样的设计增加了网络在不同级别上特征的融合,提高了模型对复杂场景的适应能力。
CSPNet 类比:文件存储系统

将CSPNet想象为一个高效的文件存储系统,其中文件被划分为直接使用的部分和需要进一步处理的部分。

  • 特征分割和并行处理:类似于一个办公室环境,其中一些文件直接存档以备未来快速访问,而其他文件则由不同的团队成员加工和更新。这样做可以减少不必要的重复工作,提高整体效率。
  • 降低计算成本:就像将大文件拆分为更小的、更易于处理的部分一样,这使得文件系统更加高效,减少了处理大文件时的资源消耗。
  • 增强的特征融合:最终,所有处理过的文件和直接存档的文件会汇总到一起,这就像一个会议,各方信息汇总后提供了一个全面的决策基础。

两种不同的网络结构设计:传统的ResNe(X)t和CSPResNe(X)t。

(a) ResNe(X)t

  • Base layer:基础层,是网络的输入层,用于接收输入数据。
  • Res(X) Block with Bottleneck:包含瓶颈结构的残差块。这种设计通过使用1x1、3x3和再次1x1的卷积核,旨在减少特征维度,从而减少计算量,同时保持网络深度和复杂性。
  • 这些块被重复n次,以增加网络的深度,提高其学习复杂表示的能力。

(b) CSPResNe(X)t

  • Base layer:同样作为网络的输入层。
  • Part 1 and Part 2:在CSPResNe(X)t结构中,特征图在进入残差块之前被分割成两部分。这种分割有助于降低冗余计算,优化内存使用和计算效率。
  • Res(X) Block w/o Bottleneck:这里的残差块没有瓶颈设计,意味着它避免了减少特征维度的1x1卷积操作。这可能有助于保持更多的特征信息,虽然可能会增加一些计算负担。
  • Partial Transition:部分过渡层用于合并处理过的特征部分,这在网络中提供了一个更加丰富的特征集合,有助于提高最终的性能。

ResNe(X)t 结构致力于通过瓶颈设计减少参数和计算复杂性,而 CSPResNe(X)t 则通过分割特征图和部分过渡来优化训练过程的速度和效率。

CSPResNe(X)t结构尤其适用于需要处理大量数据和在硬件资源受限的环境中运行的应用。

对比ResNe(X)t和CSPResNe(X)t的架构可以通过一个现实生活中的类比来更形象地理解它们的设计差异和相应的优势:

想象一个工厂有两条产品装配线,每条装配线都设计用来制造相同的产品,但每条线的组织结构和流程不同。

  1. 传统的装配线(ResNe(X)t)
  • 像传统的装配线一样,每个工作站(残差块)负责完成产品的一个特定部分,并且在进入下一个工作站之前会通过一系列的精简步骤(瓶颈设计)来确保效率。 这种方法的目的是优化资源使用,通过减少每个工作站所需处理的材料数量(特征维度),从而减少整个生产过程的复杂性和成本。
  1. 分割任务装配线(CSPResNe(X)t)
  • 此装配线将原材料(输入特征)在进入流程前分成两部分。一部分直接进入最后的组装阶段,而另一部分则在多个工作站(残差块)中经过加工处理。 最后,这两部分在装配线的末端(部分过渡层)合并,以完成最终产品。这种结构允许工厂更灵活地管理资源,因为它可以并行处理多个任务,同时减少了因重复工序导致的时间和资源浪费。

优势与用途:

  • 传统装配线(ResNe(X)t):适用于资源有限但需要维持高质量输出的情况。通过瓶颈设计,它确保每一步都尽可能高效,适合在资源受限或成本敏感的生产环境中使用。
  • 分割任务装配线(CSPResNe(X)t):通过并行处理和优化工作流程的灵活性,这种方法可以更快地处理大量任务,特别适合需要快速响应和高效率的大规模生产环境。

 

当将DarkNet53的深度特征提取能力与CSPNet的高效计算方式结合时,CSPDarkNet53能够在确保深度和复杂特征提取的同时,保持网络的运行效率。

这种结合使得CSPDarkNet53特别适合用于需要实时处理的目标检测任务中,如视频监控和自动驾驶,因为它可以快速且准确地处理大量图像数据。

这种结构优化的目标是在不牺牲性能的情况下提供更高的速度和效率,使得CSPDarkNet53成为计算资源受限环境中的理想选择。

7. PAFPN

8. 损失函数

9. 目标检测算法轻量化技巧

 


这篇关于YOLOX: 无锚点机制 + 解耦头部设计 + 动态标签分配策略的高性能目标检测器 + Apache-2.0 开源可商用的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1061800

相关文章

JVM 的类初始化机制

前言 当你在 Java 程序中new对象时,有没有考虑过 JVM 是如何把静态的字节码(byte code)转化为运行时对象的呢,这个问题看似简单,但清楚的同学相信也不会太多,这篇文章首先介绍 JVM 类初始化的机制,然后给出几个易出错的实例来分析,帮助大家更好理解这个知识点。 JVM 将字节码转化为运行时对象分为三个阶段,分别是:loading 、Linking、initialization

不懂推荐算法也能设计推荐系统

本文以商业化应用推荐为例,告诉我们不懂推荐算法的产品,也能从产品侧出发, 设计出一款不错的推荐系统。 相信很多新手产品,看到算法二字,多是懵圈的。 什么排序算法、最短路径等都是相对传统的算法(注:传统是指科班出身的产品都会接触过)。但对于推荐算法,多数产品对着网上搜到的资源,都会无从下手。特别当某些推荐算法 和 “AI”扯上关系后,更是加大了理解的难度。 但,不了解推荐算法,就无法做推荐系

第10章 中断和动态时钟显示

第10章 中断和动态时钟显示 从本章开始,按照书籍的划分,第10章开始就进入保护模式(Protected Mode)部分了,感觉从这里开始难度突然就增加了。 书中介绍了为什么有中断(Interrupt)的设计,中断的几种方式:外部硬件中断、内部中断和软中断。通过中断做了一个会走的时钟和屏幕上输入字符的程序。 我自己理解中断的一些作用: 为了更好的利用处理器的性能。协同快速和慢速设备一起工作

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

动态规划---打家劫舍

题目: 你是一个专业的小偷,计划偷窃沿街的房屋。每间房内都藏有一定的现金,影响你偷窃的唯一制约因素就是相邻的房屋装有相互连通的防盗系统,如果两间相邻的房屋在同一晚上被小偷闯入,系统会自动报警。 给定一个代表每个房屋存放金额的非负整数数组,计算你 不触动警报装置的情况下 ,一夜之内能够偷窃到的最高金额。 思路: 动态规划五部曲: 1.确定dp数组及含义 dp数组是一维数组,dp[i]代表

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

在JS中的设计模式的单例模式、策略模式、代理模式、原型模式浅讲

1. 单例模式(Singleton Pattern) 确保一个类只有一个实例,并提供一个全局访问点。 示例代码: class Singleton {constructor() {if (Singleton.instance) {return Singleton.instance;}Singleton.instance = this;this.data = [];}addData(value)

MySQL高性能优化规范

前言:      笔者最近上班途中突然想丰富下自己的数据库优化技能。于是在查阅了多篇文章后,总结出了这篇! 数据库命令规范 所有数据库对象名称必须使用小写字母并用下划线分割 所有数据库对象名称禁止使用mysql保留关键字(如果表名中包含关键字查询时,需要将其用单引号括起来) 数据库对象的命名要能做到见名识意,并且最后不要超过32个字符 临时库表必须以tmp_为前缀并以日期为后缀,备份

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X

金融业开源技术 术语

金融业开源技术  术语 1  范围 本文件界定了金融业开源技术的常用术语。 本文件适用于金融业中涉及开源技术的相关标准及规范性文件制定和信息沟通等活动。