You only look once unified real-time object detection-实时目标检测yolo讲解

2024-01-03 09:30

本文主要是介绍You only look once unified real-time object detection-实时目标检测yolo讲解,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

作者: 18届cyl

时间:2021-08-08

论文:《You only look once unified real-time object detection》

期刊:CVPR

一、本文围绕的问题

  1. YOLO 为什么能检测目标?
  2. YOLO 长什么样子?
  3. YOLO 如何训练?

二、背景

对象识别这件事(一张图片仅包含一个对象,且基本占据图片的整个范围),最近几年基于CNN卷积神经网络的各种方法已经能达到不错的效果了。所以主要需要解决的问题是,对象在哪里。
最简单的想法,就是遍历图片中所有可能的位置,地毯式搜索不同大小,不同宽高比,不同位置的每个区域,逐一检测其中是否存在某个对象,挑选其中概率最大的结果作为输出。显然这种方法效率太低。RCNN开创性的提出了候选区(Region Proposals)的方法,先从图片中搜索出一些可能存在对象的候选区(Selective Search),大概2000个左右,然后对每个候选区进行对象识别。大幅提升了对象识别和定位的效率。
不过RCNN的速度依然很慢,其处理一张图片大概需要49秒。因此又有了后续的Fast RCNN 和 Faster RCNN,针对 RCNN的神经网络结构和候选区的算法不断改进,Faster RCNN已经可以达到一张图片约0.2秒的处理速度。
但总体来说,RCNN系列依然是两阶段处理模式two-stage:先提出候选区经过ALEXNET打一个标签,再用SVM识别候选区中的对象。
YOLO意思是You Only Look Once,创造性的将候选区和对象识别这两个阶段合二为一,看一眼图片就能知道有哪些对象以及它们的位置,直接一步到位。
RCNN虽然会找到一些候选区,但毕竟只是候选,等真正识别出其中的对象以后,还要对候选区进行微调,使之更接近真实的bounding box。这个过程就是边框回归:将候选区bounding box调整到更接近真实的bounding box。既然反正最后都是要调整的,干嘛还要先费劲去寻找候选区呢,大致有个区域范围就行了,YOLO就是这么干的。

下面具体看下YOLO的实现方案

  1. 结构
    去掉候选区这个步骤以后,YOLO的结构非常简单,就是单纯的卷积、池化最后加了两层全连接。单看网络结构的话,和普通的CNN对象分类网络几乎没有本质的区别,最大的差异是最后输出层用线性函数做激活函数,因为需要预测bounding box的位置(数值型),而不仅仅是对象的概率。所以粗略来说,YOLO的整个结构就是输入图片经过神经网络的变换得到一个输出的张量,如下图所示。
    在这里插入图片描述

因为只是一些常规的神经网络结构,所以,理解YOLO的设计的时候,重要的是理解输入和输出的映射关系。

2.输入和输出的映射关系
训练好的YOLO网络,输入一张图片,将输出一个 7* 7* 30 的张量(tensor)来表示图片中所有网格包含的对象(概率)以及该对象可能的2个位置(bounding box)和可信程度(置信度)。 为了从中提取出最有可能的那些对象和位置,YOLO采用NMS(Non-maximal suppression,非极大值抑制)算法。
3 .输入
参考图5,输入就是原始图像,唯一的要求是缩放到448 * 448的大小。主要是因为YOLO的网络中,卷积层最后接了两个全连接层,全连接层是要求固定大小的向量作为输入,所以倒推回去也就要求原始图像有固定的尺寸。那么YOLO设计的尺寸就是448 * 448。
4.输出
输出是一个 7* 7* 30 的张量。

三、原理

1、YOLO 为什么能检测目标?
YOLO 是 One-Stage (单阶段) 检测算法,它只需要看图片一次,就可以预测图片中所有的物体边框。我个人有一个形象的比喻,那就是撒渔网。一个渔网撒下去,所有的鱼儿都要捕获。
YOLO 把一张图片划分成了 SxS 个格子。这里的 S 不固定,可以根据实际情况由开发者自主决定。在这里插入图片描述
论文中,S 取值为 7,所以整张图片被分割成 7*7=49 个格子(Cell)。
这些 Cell 每个 Cell 都会预测 B 个 bbox。在论文中 B 取值为 2。
所以,一张图片经 YOLO 跑一遍,就会产生 98 个 bbox。如下图在这里插入图片描述
这么多 bbox,怎么选择呢?以上面的图片为例:
图片中有狗、自行车、汽车 3 个目标,但是预测到的 bbox 有 98 个之多,最终肯定只能从 98 个 bbox 中选择 3 个。那么,怎么操作呢?
首先,有选择的响应 cell。
总共有 49 个 cell,但是并不是每一个 cell 的预测都有意义,我们需要找出有意义的 cell。那么哪些 cell 算是有意义呢?引入 Confidence 可信度的概念。每个 Cell 预测 B 个 bbox(论文中取值2),还有每个 bbox 对应的 Confidence。
Confidence 公式定义如下:在这里插入图片描述
其中 Pr(Obj)取值只有 0 和 1 两种可能性,代表一个 cell 中是否存在物体,下面对这个概念详细解释一下。
假设:我们要检测的目标只有狗、汽车、自行车 3 种,那么其他的物体都被当成背景。
在这里插入图片描述
在上面的图片中,00,01,02 这些 cell 不包含任何的目标,所以它们的 Pr(Obj) 为0,所以 Confidence 也为 0。10 和 20 两个 cell 因为包含了自行车的一部分,所以它们的 Pr(Obj),它们的 Confidence 实质上就是 bbox 和 groundtruth 的 IOU。
另外怎么判断某个 cell 中有没有包含 Object 呢?这其实是通过 label 中的 groundtruth 在线算出来的。
因此,一张图片经过 YOLO 跑一遍后,除了预测出 98 个 bbox,还会给出 49 个 cell 的 confidence(98个)。
所以,那些 confidence 不为 0 的 cell 都算作有意义。

再往下走。每个 Cell 还会预测 C 个类别的概率。这是条件概率。在这里插入图片描述
如果一个 Cell 存在 Object,预测这个 Object 的 class 才有意义。
在测试阶段,这个条件概率还要与 Cell 的 Confidence 相乘。在这里插入图片描述
它的公式表达了两个思想:

  1. 类别的概率
  2. 预测的框距离 groudtruth 有多接近
    需要注意的是,每个 Cell 输出的是一组概率,代表了 C 个类别的概率,在论文中 YOLO 的 C 取值为 20。
    所以,YOLO 最终就是通过下图的方式来预测的。在这里插入图片描述

四、模型结构

在这里插入图片描述
原论文中说到,YOLO的模型结构受 GoogLeNet 启发。但是,有少许不同。YOLO 采用了 1x1 和 3x3 的序列组合替代 Inception 模块。总共 24 个卷积层加上 2 个全连接层。输出层正是前面提到过的 7x7x30 的 tensor,用来预测最终的结果。然后,需要注意的是 YOLO 将定位和目标分类统一成了一个回归问题。
30维向量
具体来看每个网格对应的30维向量中包含了哪些信息。
在这里插入图片描述
① 20个对象分类的概率
因为YOLO支持识别20种不同的对象(人、鸟、猫、汽车、椅子等),所以这里有20个值表示该网格位置存在任一种对象的概率。可以记为

之所以写成条件概率,意思是如果该网格存在一个对象Object,那么它是Ci的概率是
② 2个bounding box的位置

每个bounding box需要4个数值来表示其位置,(Center_x,Center_y,width,height),即(bounding box的中心点的x坐标,y坐标,bounding box的宽度,高度),2个bounding box共需要8个数值来表示其位置。
③ 2个bounding box的置信度
bounding box的置信度 = 该bounding box内存在对象的概率 * 该bounding box与该对象实际bounding box的IOU
用公式来表示就是在这里插入图片描述

五、训练方法

YOLO 的训练并不复杂,其中最重要的内容就是 Loss 的设定。
1.预训练
取 YOLO 模型前面的 20 个卷积加上 1 个全连接层在 ImageNet 上训练,也就是为了目标识别,目的是为了获取目标的特征表达能力。
2. 目标检测训练
在具体的图像识别中,一个 Object 可能覆盖很多个 Cell。我们还需要从中选择一个 Cell,作为代表,这个 Cell 就负责(responsible)此 Object 的预测。在这里插入图片描述
比如上面的图,狗的 groundtruth 覆盖了总共 15 个 Cell,那么哪个 cell 负责这条狗呢?
答案就是上图标示出来的 cell。为什么是它呢?
原则只有 1 个:Object 的中心落在哪个 cell,就决定了那个 cell 的核心地位。
目标检测训练在预训练的基础上增加了 4 个卷积层和 2 个全连接层。另外,为了归一化的效果,对于之前预测的 bbox,YOLO 也做了特别的处理。一般,我们讲 bbox 中的 4 个参数 (x,y,width,height) 指的是下图所示:
在这里插入图片描述
YOLO 做了调整。X,Y 在预测的 bbox 中代表框的中心点位置,并且是相对于 Cell 中心点的偏移比例,取值是 0 到 1 之间。可能难以理解,图例说明。在这里插入图片描述
上图中某个 cell 预测了一个 bbox。
黄色的原点代表 cell 的中心。
红色的圆圈代表 bbox 的中心。
那么 x,y 的取值就是两个中心的偏移量和 cell 本身宽高的比值。
另外 bbox 包含的 w,h 也是一个归一化的结果。是 bbox 的宽高和整张图片的宽高的比值。所以,w,h 同样取值为 0 到 1。
讲完 bbox 的 4 个参数,再回到训练上来。YOLO 的激活层除了最后一层外都是采用 ReLu。
YOLO 用误差平方和(SSE) 进行优化,论文作者说因为这样比较简单。
但是 YOLO 的 Loss 由 4 个子 Loss 构成,也是这部分比较难以理解的一部分。在这里插入图片描述
公式很长,慢慢分析其实也还行。
首先 Loss 要计算:

  • 中心点的 Loss
  • 宽高的 Loss
  • 置信度的 Loss(两个)
  • 目标类别的 Loss

前面讲到一张图片产生 49 个 cell,有些 cell 没有什么意义,因为它们不包含任何的 Object。
所以,计算 Loss 时就只考虑有 Object 存在的 cell。
在这里插入图片描述

下标 i 代表 cell 的序号,下标 j 代表这个 cell 的第 j 个 bbox。在这里插入图片描述
这行 Loss 就是所有的存在目标的 cell 中所预测的 bbox 中心点的 SSE。
前面的 λcoord是权重,为什么要加这个权重呢?
SSE 导致了 bbox 的定位和分类问题权重一样,并且那些没有包含物体的 cell ,它们的 confidence 是 0,这会导致训练过程中,梯度变化不平衡,整个模型变得不稳定。
为了解决这个问题,所以引入了两个λ 分别代表有 object 和没有 object 的权重。
这两个权重是惩罚项,代表不同的内容对于整个优化过程的贡献度。
另外注意到计算 bbox 宽高的 Loss 时。
在这里插入图片描述
为啥是平方根的差呢?
因为 bbox 对于尺寸敏感度很高。第2行宽度和高度先取了平方根,因为如果直接取差值的话,大的对象对差值的敏感度较低,小的对象对差值的敏感度较高,所以取平方根可以降低这种敏感度的差异,使得较大的对象和较小的对象在尺寸误差上有相似的权重。
所以,用平方根就是为了缩短这种差距。
为此,我们可以对 Loss 总结如下:

  • 计算有物体的 Cell 的 bbox 中心点、宽高、物体类别的 Loss
  • 计算所有 Cell 的 Confidence 的 Loss,但是无 Object 的 Cell 它的 Loss 权重很低
  • 相对于物体类别,bbox 定位的权重要更高。
    yolo就讲完了。

YOLO算法的优点: 1、YOLO的速度非常快。在Titan X GPU上的速度是45 fps(frames per second),加速版的YOLO差不多是150fps。2、YOLO是基于图像的全局信息进行预测的。这一点和基于sliding window以及region proposal等检测算法不一样。3、与Fast R-CNN相比,YOLO在误检测(将背景检测为物体)方面的错误率能降低一半多。4、准确率高,有实验证明。

YOLO算法的缺点: 因为一个 cell 只能预测一个类别,所以如果比较小的物体成群出现,会导致许多的 object 的中心点其实在一个 cell 中,那么就会出现漏检。

这篇关于You only look once unified real-time object detection-实时目标检测yolo讲解的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/565239

相关文章

SpringBoot使用Apache Tika检测敏感信息

《SpringBoot使用ApacheTika检测敏感信息》ApacheTika是一个功能强大的内容分析工具,它能够从多种文件格式中提取文本、元数据以及其他结构化信息,下面我们来看看如何使用Ap... 目录Tika 主要特性1. 多格式支持2. 自动文件类型检测3. 文本和元数据提取4. 支持 OCR(光学

MySQL中时区参数time_zone解读

《MySQL中时区参数time_zone解读》MySQL时区参数time_zone用于控制系统函数和字段的DEFAULTCURRENT_TIMESTAMP属性,修改时区可能会影响timestamp类型... 目录前言1.时区参数影响2.如何设置3.字段类型选择总结前言mysql 时区参数 time_zon

Python 标准库time时间的访问和转换问题小结

《Python标准库time时间的访问和转换问题小结》time模块为Python提供了处理时间和日期的多种功能,适用于多种与时间相关的场景,包括获取当前时间、格式化时间、暂停程序执行、计算程序运行时... 目录模块介绍使用场景主要类主要函数 - time()- sleep()- localtime()- g

如何用Java结合经纬度位置计算目标点的日出日落时间详解

《如何用Java结合经纬度位置计算目标点的日出日落时间详解》这篇文章主详细讲解了如何基于目标点的经纬度计算日出日落时间,提供了在线API和Java库两种计算方法,并通过实际案例展示了其应用,需要的朋友... 目录前言一、应用示例1、天安门升旗时间2、湖南省日出日落信息二、Java日出日落计算1、在线API2

深入探讨Java 中的 Object 类详解(一切类的根基)

《深入探讨Java中的Object类详解(一切类的根基)》本文详细介绍了Java中的Object类,作为所有类的根类,其重要性不言而喻,文章涵盖了Object类的主要方法,如toString()... 目录1. Object 类的基本概念1.1 Object 类的定义2. Object 类的主要方法3. O

如何使用 Bash 脚本中的time命令来统计命令执行时间(中英双语)

《如何使用Bash脚本中的time命令来统计命令执行时间(中英双语)》本文介绍了如何在Bash脚本中使用`time`命令来测量命令执行时间,包括`real`、`user`和`sys`三个时间指标,... 使用 Bash 脚本中的 time 命令来统计命令执行时间在日常的开发和运维过程中,性能监控和优化是不

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

C#实战|大乐透选号器[6]:实现实时显示已选择的红蓝球数量

哈喽,你好啊,我是雷工。 关于大乐透选号器在前面已经记录了5篇笔记,这是第6篇; 接下来实现实时显示当前选中红球数量,蓝球数量; 以下为练习笔记。 01 效果演示 当选择和取消选择红球或蓝球时,在对应的位置显示实时已选择的红球、蓝球的数量; 02 标签名称 分别设置Label标签名称为:lblRedCount、lblBlueCount

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X

计算机毕业设计 大学志愿填报系统 Java+SpringBoot+Vue 前后端分离 文档报告 代码讲解 安装调试

🍊作者:计算机编程-吉哥 🍊简介:专业从事JavaWeb程序开发,微信小程序开发,定制化项目、 源码、代码讲解、文档撰写、ppt制作。做自己喜欢的事,生活就是快乐的。 🍊心愿:点赞 👍 收藏 ⭐评论 📝 🍅 文末获取源码联系 👇🏻 精彩专栏推荐订阅 👇🏻 不然下次找不到哟~Java毕业设计项目~热门选题推荐《1000套》 目录 1.技术选型 2.开发工具 3.功能