目标检测之 Faster R-CNN

2024-06-10 05:48

文章标签 目标检测 cnn faster

本文主要是介绍目标检测之 Faster R-CNN，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

论文地址：Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

代码地址：ShaoqingRen/faster_rcnn

不论是R-CNN还是Fast R-CNN，在提取目标候选区域（region proposal）的时候采用的是同一种方法，即selective search方法，这个方法比较耗时，而且提取的候选区域比较多，完全是遍历图像的每个像素。而Faster R-CNN最大的贡献是提出了一种称之为RPN的网络，该网络就是用来提取候选区域（region proposal）的。Faster R-CNN的基本架构跟Fast R-CNN基本上是一致的，下面是Faster R-CNN的总体流程图：

图1 Faster R-CNN 网络架构

首先讲解一下图1中Faster R-CNN的目标检测流程，首先是读入一张图像，经过Shared Layers (CNN卷积网络)，输出feature maps，然后输出的feature maps送入两个分支，其中一路与Fast R-CNN的检测流程是一样的，另一路进入RPN网络，最终输出的是region proposals，这些region proposals同 R-CNN， Fast R-CNN的定义是一样的，均是通过四元组的坐标定义的一个窗口。值得注意的是，这里RPN输出的坐标均是以原图像的坐标系为参考的，最终还需要映射到feature maps上的坐标系，具体参考Fast R-CNN的讲解。有了RPN输出的region proposal 和Shared Layers输出的feature maps一起送入RoIPooling层，RoIPooling层输出固定大小的feature maps在经过CNN网络，最终输出类别标签概率分布与每类的边框回归坐标。

下面说一下Faster R-CNN网络的训练过程。论文中提到了几种训练方法，最终采用的是四步的交替训练：即先end-to-end训练一个RPN网络（因为不论是R-CNN还是Fast R-CNN都首先需要region proposals），由训练得到的RPN网络输出region proposals映射到feature maps进行RoIPooling。也因此在得到region proposals后，end-to-end训练一个Fast R-CNN网络，这是第二步。接着是第三步，即利用训练好的Fast R-CNN（图1中Shared Layers+Bounding Box Recognition Head），去初始化RPN网络（确切地说是初始化图1中Shared Layers），然后固定Shared Layers，也就是其参数不再更新。接下来是第四步，也就是最后一步，分别Fine-tuning RPN网络与Bounding Box Recognition Head网络，进行目标检测。

下面重点讲解RPN网络，如下图所示：

图2 Region Proposal Network (RPN)

在上图图2中，anchor boxes表示预定义的Bounding Box，可以认为是图像中目标的大致大小，如果图像中的目标都很大，比如目标为人，车辆，飞机，马等大型动物，anchor boxes面积（指的是widthxheight得到的像素数）与长宽比就相应的大一些，而如果读入的图像的目标均是小体型目标，如小鸟，小鱼等，anchor boxes的面积与长宽比就应该相应的设置小一点更有利于回归。anchor boxes的面积与长宽比均属于超参，只要网络够强，是不需要去谨慎设置的。其中anchor boxes的不同面积与长宽比相当于一种多尺度，这一点还是非常巧妙的。下图图3是Faster R-CNN定义的9种anchor boxes下回归的结果：

图3 RPN的9种预定义的anchor boxes输出的region proposals的矩形框的平均大小

上图图3中是利用ZF net，在输入的图像的短边缩放到s=600像素的结果。由上图可见，即使很小的anchor boxes也能具有很大的感受野（如第5，7，8,，10列），与之相反，很大的anchor boxes也能具有较小的感受野（如第4列）。在上图图3中，anchor boxes的三种面积，128的平方，256的平方和512的平方与三种长宽比，即2:1, 1:2和1:1均是预定义好的，都是超参数。在上图图2中RPN的reg layer对每个anchor boxes均回归一个边框，作为region proposal的窗口大小。cls layer对每个anchor boxes输出两个概率值，一个是含有目标的概率值，这个目标是与类别无关的，只分有目标和无目标（或背景）两个类别。该输出的含有目标的概率值也作为该anchor boxes的得分，在以后的处理中，会根据这个得分将此anchor box回归得到的region proposal判断为正样本或负样本。

在对RPN网络进行训练的时候，会在每张图像抽取256个anchors样本，其中正样本与负样本的比例为1:1。其中正样本是这样定义的：1. 如果一个anchor/anchors与一个Ground-truth box的IoU值最大或2. 一个anchor与任何一个Ground-truth的IoU≥0.7。负样本是这样定义的，即一个anchor与所有的Ground-truth box的IoU≤0.3，则为负样本，其它的anchors则表示既不是正样本也不是负样版本，则对训练时的目标函数不起作用。

这篇关于目标检测之 Faster R-CNN的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！