SPP-Net目标检测算法深度剖析

本文主要是介绍SPP-Net目标检测算法深度剖析，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

一、引入SPP-Net

二、SPP-Net简介

三、网络架构

四、总结

论文地址：https://arxiv.org/abs/1406.4729

一、引入SPP-Net

为何们猛然间对SPP-Net起了好奇之心呢？因为在学习R-CNN系列算法的时候，总有资料提到SPP-Net（Spatial Pyramid Pooling-Net）算法（其实是一种深度学习的网络架构），在处理完R-CNN系列算法之后，打算来看看，这个SPP-Net到底是个什么来头，如果大家对目标检测算法有点兴趣，可以逛逛我的R-CNN系列和YOLO系列算法的博客。

二、SPP-Net简介

首先要知道SPP-Net是一个解决目标检测问题的算法，其依旧属于two-stage的目标检测算法，也就是先找出候选区域（有相应的成熟的算法），之后在进行分类和回归问题。

在我学习完Fast R-CNN之后，我发现SPP-Net中的很多算法思想和Fast R-CNN好像，然后我就看了一下两篇论文的发布时间，SPP-Net：2014.6.8，Fast R-CNN：2015 4.30，然后我似乎明白了什么（吸取了SPP-Net的思想）。

三、网络架构

首先，讲解一下这个网络是干什么的，用来提取图像特征的，很多人会认为这个网络的结果直接出判断种类结果以及预测框，其实不是的，这个网路架构的输出是一个分类结果，然后我们提取其全连接层，来作为这个图像的特征向量来代替原图的，这个理解很重要。那么接下来就介绍一下这个网络的流程，首先得到一个图片，然后将图片经过一系列卷积操作然后得到feature maps，然后将feature maps进行三种尺度的池化，相当于将feature maps分割成1x1、2x2、4x4大小的网格，每个网格内的值是网格内所有单元的加和平均（这个就是ROI Pooling），以此来确保输入到全连接层的维度是固定的，然后将这些向量连接，但是不是说只有16+4+1维度，因为feature maps，这里我用的是复数，表明通道数不只是1，像图一中的通道数为256，所以拼接成的向量维度是（16+4+1）x 256。然后通过全连接层6、7，然后再连接一个softmax层，也就是分类层。这样一个图像的分类网络就建好了，那么我们需要这个网络中除了输出层以外的部分来代表一个图像的特征提取。

之后，在训练好这个特征提取器（ZF-5网络架构，文章用到的）之后就可以进行目标检测了，首先通过候选区域生成算法得到2000个候选区，然后将整张图片resize大小为MIN(w, h)，之后进入ZF-5生成feature maps，然后定义了4个等级的spatial pyramid分别是1x1、2x2、3x3、6x6（既然这里是四个等级的池化，那么在训练分类器的时候也要是四个，但是上面是为了举例设置了三种池化窗口），然后将候选区映射到feature maps上，之后将SPP应用在每个候选区中，并拼接成特征向量，之后通过全连接层，然后得到最终的特征向量。如下图二

然后我们需要训练多个（这里到底多少个需要根据物体到底有多少个种类来定义）个基于SVM的二分类器，用来判断这个区域到底是背景还是存在物体，数据集如何构建呢？

Ground Truth的区域经过特征提取之后形成特征向量推入SVM中，其标签为1（正例）
候选区域与Ground Truth的IoU小于30%的提取的特征，标记为0（负例）
在负样本中，如果一个新加入的负样本与已经加入的负样本的IoU大于70%则不将其加入到负样本中

这样我就训练好了多个SVM的二分类器，用来给每一个类别去打分，然后选取分数大于0.3的进入候选区进入到后面的NMS算法截断，当然在进入NMS之前需要预测一下回归框的位置，这个部分和R-CNN是一致的，就是说对候选框的中心进行一定比例的位移，将宽高进行一定比例的放缩，目标是为了和Ground Truth更加的贴近。论文中介绍了两种方法，图三是直接预测位置，图四是预测缩放平移比例。

四、总结

如果直接比较SPP-Net和R-CNN的话，我感觉可比性不大，但是Fast R-CNN和SPP-Net却可以擦出不少的火花，而且我感觉SPP-Net的很多思想被Fast R-CNN进行引用

对于使用成熟的卷积神经网络对图像进行特征提取，有一点不同，在训练之后的全连接层的时候，SPP-Net是没有微调特征提取的卷积层的，但是Fast R-CNN进行了微调，这也是为啥Faster R-CNN的独特的训练流程的原因（为了更好的融合RPN网络的Fast R-CNN网络）
当然Fast R-CNN和SPP-Net也有很多相似的部分，为了节省时间，对于候选区域没有在原图中直接选取而是在feature maps上进行选取
二者都使用了ROI Pooling，也就是说将一个区域通过网格的区域池化，进行特征长度的限定，进而更好的连接全连接层

这篇关于SPP-Net目标检测算法深度剖析的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！