论文笔记：YOLOv1

2024-02-04 22:38

文章标签 笔记论文 yolov1

本文主要是介绍论文笔记：YOLOv1，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

针对当前目标检测速度慢而无法做到实时检测的问题，作者提出了YOLO。YOLO直接将目标检测转化到回归问题上，直接用一张图片得到bounding box和类别。

作者提出YOLO的优点：

1、YOLO检测物体非常快。
因为没有复杂的检测流程，只需要将图像输入到神经网络就可以得到检测结果，YOLO可以非常快的完成物体检测任务。标准版本的YOLO在Titan X 的 GPU 上能达到45 FPS。更快的Fast YOLO检测速度可以达到155 FPS。而且，YOLO的mAP是之前其他实时物体检测系统的两倍以上。

2、YOLO可以很好的避免背景错误，产生false positives。
不像其他物体检测系统使用了滑窗或region proposal，分类器只能得到图像的局部信息。YOLO在训练和测试时都能够看到一整张图像的信息，因此YOLO在检测物体时能很好的利用上下文信息，从而不容易在背景上预测出错误的物体信息。和Fast-R-CNN相比，YOLO的背景错误不到Fast-R-CNN的一半。

3、YOLO可以学到物体的泛化特征。
当YOLO在自然图像上做训练，在艺术作品上做测试时，YOLO表现的性能比DPM、R-CNN等之前的物体检测系统要好很多。因为YOLO可以学习到高度泛化的特征，从而迁移到其他领域。

算法如下：

对于一张图片，分为S*S个grid cell，如果物体的中心落入一个cell，则该cell负责检测物体。每一个cell预测B个bounding box和这些box的confidence score。定义confidence score为Pr(Object)∗ $IOU_{pred}^{truth}$ 。如果该单元格中不存在目标，则confidence score应为零。否则，我们希望confidence score等于预测框与ground truth之间的IOU。每个bounding box输出（x,y,w,h,confidence）。x，y为box中心在对应cell的位置。C代表着每个cell预测的类别数量，每个cell会对C个类别分别于测可能性。最后总预测为S*S*（B*5+C）的张量。

网络架构受GoogLeNet启发但没有使用inception module，共24层，前22层用来提取特征，后2层全连接层用来预测。

在ImageNet分类任务上以一半的分辨率（224×224）预训练卷积层，然后将分辨率加倍来进行检测。（不太懂为什么要分辨率减半来训练。。。）

训练时采用平方和误差，因为容易优化。考虑到大多数单元格不包含对象而confidence为0，会对梯度造成影响而使模型不稳定，因此做了一些修改。增加边界框坐标预测损失，并减少了不包含目标边界框的置信度预测损失。我们使用两个参数 $\lambda _{coord}$ 和 $\lambda _{noobj}$ 来完成这个工作。我们设置 $\lambda _{coord}=5$ 和 $\lambda _{noobj}=0.5$ 。平方和误差也可以在大盒子和小盒子中同样加权误差。我们的错误指标应该反映出，大盒子小偏差的重要性不如小盒子小偏差的重要性。为了部分解决这个问题，我们直接预测边界框宽度和高度的平方根，而不是宽度和高度。