Faster-RCNN基本思想和网络结构

本文主要是介绍Faster-RCNN基本思想和网络结构，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

简单来说，Faster RCNN = RPN + Fast RCNN

RPN 是指 Region Proposal Network，建议区域生成网络。 Faster RCNN 中用 RPN 来代替了 Fast RCNN 中的SS算法。

算法流程：

（1）将图像输入CNN网络得到相应的特征图。

（2）使用RPN网络生成候选框，将RPN生成的候选框投影到特征图上获得ROI区域的特征矩阵。

（3）将每个ROI区域的特征矩阵通过 ROI pooling 层缩放到7×7大小的特征图，接着将特征图展平为vector，之后通过一系列全连接层得到预测结果。

Faster RCNN 网络的基本结构如下：

4.2 RPN网络
4.2.1 RPN网络结构

图中的 conv feature map 是图像输入网络得到相应的特征图，通过sliding window处理之后产生一个256d的一维向量。该向量通过两个全连接层，分别输出分类概率scores和边界框回归参数coordinates，其中k是指 k个 anchor boxes，2k个scores是每个 anchor box 分别为前景和背景的概率（注意这里只区分前景和背景，所有的类别都归为前景），4k个coordinates是因为每个anchor box 有四个参数。

4.2.2 anchor的定义
那么什么是 anchor呢？

首先要明确，anchor不是候选框（Proposal），后面会提到二者的区别。

我们在特征图中找一个点，就可以在原图中找到对应的一个像素点，以该像素点为中心，画出9个不同大小和长宽比的框，称为anchor 。如下图所示，这些anchor里面可能包含目标，也可能没有目标。因为我们在一张图中想找的的目标的大小和长宽比并不是固定的，所以这里用9个不同大小和长宽比的anchor来进行预测。

那么为什么是9个anchor呢？

论文中给出了每个anchor的面积和长宽比：