本文主要是介绍《You Only Look Once: Unified, Real-Time Object Detection》YOLO一种实时目标检测方法 阅读笔记(未完成版),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
文章目录
- 1. one-stage与two-stage检测算法
- 1. 模型过程
- 1.1 grid cell
- 1.2 bounding box与confidence score
- 1.3 类别预测
- 1.4 预测目标
- 2. 网络的学习
- 2.1 网络输出的数据与预测集数据
- 2.2 损失函数
- 2.3 网络的设计
1. one-stage与two-stage检测算法
two-stage:
one-stage目标检测算法:一步到位,速度较快。
yolo_v1的基本思想:预测框的位置、大小和物体分类都通过CNN暴力predict出来。
1. 模型过程
yolo v1进行目标检测的过程如下图所示
就拿yolo如何检测出这只小狗的过程来说,引出yolo是如何进行目标检测和在这个过程中的相关概念。
1.1 grid cell
首先,将图片分为7*7的网格,每个网格叫做grid
或则和grid cell
。所以一张图片有49个grid。如果一个目标的中心位置落在某个格子,那么这个格子就负责检测出这个目标(If the center of an object falls into a grid cell, that grid cell is responsible for detecting that object.
)。比如下面狗的中心落在(5,2)grid,所以该grid负责预测狗。
1.2 bounding box与confidence score
上文中含有小狗中心的那个grid cell
会预测2个bounding boxes
(边界框)和这些框框的confidence scores
(置信度分数)。
这些confidence scores
反映了模型对框中包含对象的置信度,以及它认为框预测的准确性。也就是一个bounding box
对应一个confidences score
。
在这里,需要明确一点,一个grid cell
会有多个bounding box
,而每个bounding box
会有一个confidence score
。比如,下面的一个grid cell
就有三个bounding box
。每个bounding box
会对应一个confidences score
。
其中,confidences score
的定义公式为:
置 信 度 = P r ( O b j e c t ) ∗ I O U p r e d t r u t h 置信度=Pr(Object)*IOU^{truth}_{pred} 置信度=Pr(Object)∗IOUpred
这篇关于《You Only Look Once: Unified, Real-Time Object Detection》YOLO一种实时目标检测方法 阅读笔记(未完成版)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!