《You Only Look Once: Unified, Real-Time Object Detection》YOLO一种实时目标检测方法阅读笔记（未完成版）

本文主要是介绍《You Only Look Once: Unified, Real-Time Object Detection》YOLO一种实时目标检测方法阅读笔记（未完成版），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

文章目录

- - 1. one-stage与two-stage检测算法
  - 1. 模型过程
  - - 1.1 grid cell
    - 1.2 bounding box与confidence score
    - 1.3 类别预测
    - 1.4 预测目标
  - 2. 网络的学习
  - - 2.1 网络输出的数据与预测集数据
    - 2.2 损失函数
    - 2.3 网络的设计

1. one-stage与two-stage检测算法

two-stage：
one-stage目标检测算法：一步到位，速度较快。

yolo_v1的基本思想：预测框的位置、大小和物体分类都通过CNN暴力predict出来。

1. 模型过程

yolo v1进行目标检测的过程如下图所示
yolo的基本流程
就拿yolo如何检测出这只小狗的过程来说，引出yolo是如何进行目标检测和在这个过程中的相关概念。

1.1 grid cell

首先，将图片分为7*7的网格，每个网格叫做grid或则和grid cell。所以一张图片有49个grid。如果一个目标的中心位置落在某个格子，那么这个格子就负责检测出这个目标（If the center of an object falls into a grid cell, that grid cell is responsible for detecting that object.）。比如下面狗的中心落在（5，2）grid，所以该grid负责预测狗。
在这里插入图片描述

1.2 bounding box与confidence score

上文中含有小狗中心的那个grid cell会预测2个bounding boxes（边界框）和这些框框的confidence scores(置信度分数)。
这些confidence scores反映了模型对框中包含对象的置信度，以及它认为框预测的准确性。也就是一个bounding box对应一个confidences score。
在这里，需要明确一点，一个grid cell会有多个bounding box，而每个bounding box会有一个confidence score。比如，下面的一个grid cell就有三个bounding box。每个bounding box会对应一个confidences score。
在这里插入图片描述
其中，confidences score的定义公式为：
$置信度=Pr(Object)*IOU^{truth}_{pred}$