SPP-Net目标检测算法深度剖析

2024-04-22 07:08

本文主要是介绍SPP-Net目标检测算法深度剖析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

一、引入SPP-Net

二、SPP-Net简介

三、网络架构

四、总结


论文地址 :https://arxiv.org/abs/1406.4729

一、引入SPP-Net

        为何们猛然间对SPP-Net起了好奇之心呢?因为在学习R-CNN系列算法的时候,总有资料提到SPP-Net(Spatial Pyramid Pooling-Net)算法(其实是一种深度学习的网络架构),在处理完R-CNN系列算法之后,打算来看看,这个SPP-Net到底是个什么来头,如果大家对目标检测算法有点兴趣,可以逛逛我的R-CNN系列和YOLO系列算法的博客。

二、SPP-Net简介

        首先要知道SPP-Net是一个解决目标检测问题的算法,其依旧属于two-stage的目标检测算法,也就是先找出候选区域(有相应的成熟的算法),之后在进行分类和回归问题。

        在我学习完Fast R-CNN之后,我发现SPP-Net中的很多算法思想和Fast R-CNN好像,然后我就看了一下两篇论文的发布时间,SPP-Net:2014.6.8,Fast R-CNN:2015 4.30,然后我似乎明白了什么(吸取了SPP-Net的思想)。

三、网络架构

这里写图片描述
图一:SPP-Net网络架构

        首先,讲解一下这个网络是干什么的,用来提取图像特征的,很多人会认为这个网络的结果直接出判断种类结果以及预测框,其实不是的,这个网路架构的输出是一个分类结果,然后我们提取其全连接层,来作为这个图像的特征向量来代替原图的,这个理解很重要。那么接下来就介绍一下这个网络的流程,首先得到一个图片, 然后将图片经过一系列卷积操作然后得到feature maps,然后将feature maps进行三种尺度的池化,相当于将feature maps分割成1x1、2x2、4x4大小的网格,每个网格内的值是网格内所有单元的加和平均(这个就是ROI Pooling),以此来确保输入到全连接层的维度是固定的,然后将这些向量连接,但是不是说只有16+4+1维度,因为feature maps,这里我用的是复数,表明通道数不只是1,像图一中的通道数为256,所以拼接成的向量维度是(16+4+1)x 256。然后通过全连接层6、7,然后再连接一个softmax层,也就是分类层。这样一个图像的分类网络就建好了,那么我们需要这个网络中除了输出层以外的部分来代表一个图像的特征提取。

        之后,在训练好这个特征提取器(ZF-5网络架构,文章用到的)之后就可以进行目标检测了,首先通过候选区域生成算法得到2000个候选区,然后将整张图片resize大小为MIN(w, h),之后进入ZF-5生成feature maps,然后定义了4个等级的spatial pyramid分别是1x1、2x2、3x3、6x6(既然这里是四个等级的池化,那么在训练分类器的时候也要是四个,但是上面是为了举例设置了三种池化窗口),然后将候选区映射到feature maps上,之后将SPP应用在每个候选区中,并拼接成特征向量,之后通过全连接层,然后得到最终的特征向量。如下图二

图二:SPP-Net用于目标检测

        然后我们需要训练多个(这里到底多少个需要根据物体到底有多少个种类来定义)个基于SVM的二分类器,用来判断这个区域到底是背景还是存在物体,数据集如何构建呢?

  • Ground Truth的区域经过特征提取之后形成特征向量推入SVM中,其标签为1(正例)
  • 候选区域与Ground Truth的IoU小于30%的提取的特征,标记为0(负例)
  • 在负样本中,如果一个新加入的负样本与已经加入的负样本的IoU大于70%则不将其加入到负样本中

         这样我就训练好了多个SVM的二分类器,用来给每一个类别去打分,然后选取分数大于0.3的进入候选区进入到后面的NMS算法截断,当然在进入NMS之前需要预测一下回归框的位置,这个部分和R-CNN是一致的,就是说对候选框的中心进行一定比例的位移,将宽高进行一定比例的放缩,目标是为了和Ground Truth更加的贴近。论文中介绍了两种方法,图三是直接预测位置,图四是预测缩放平移比例。

图三:方法一
图四:方法二

四、总结

        如果直接比较SPP-Net和R-CNN的话,我感觉可比性不大,但是Fast R-CNN和SPP-Net却可以擦出不少的火花,而且我感觉SPP-Net的很多思想被Fast R-CNN进行引用

  • 对于使用成熟的卷积神经网络对图像进行特征提取,有一点不同,在训练之后的全连接层的时候,SPP-Net是没有微调特征提取的卷积层的,但是Fast R-CNN进行了微调,这也是为啥Faster R-CNN的独特的训练流程的原因(为了更好的融合RPN网络的Fast R-CNN网络)
  • 当然Fast R-CNN和SPP-Net也有很多相似的部分,为了节省时间,对于候选区域没有在原图中直接选取而是在feature maps上进行选取
  • 二者都使用了ROI Pooling,也就是说将一个区域通过网格的区域池化,进行特征长度的限定,进而更好的连接全连接层

这篇关于SPP-Net目标检测算法深度剖析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/925112

相关文章

不懂推荐算法也能设计推荐系统

本文以商业化应用推荐为例,告诉我们不懂推荐算法的产品,也能从产品侧出发, 设计出一款不错的推荐系统。 相信很多新手产品,看到算法二字,多是懵圈的。 什么排序算法、最短路径等都是相对传统的算法(注:传统是指科班出身的产品都会接触过)。但对于推荐算法,多数产品对着网上搜到的资源,都会无从下手。特别当某些推荐算法 和 “AI”扯上关系后,更是加大了理解的难度。 但,不了解推荐算法,就无法做推荐系

康拓展开(hash算法中会用到)

康拓展开是一个全排列到一个自然数的双射(也就是某个全排列与某个自然数一一对应) 公式: X=a[n]*(n-1)!+a[n-1]*(n-2)!+...+a[i]*(i-1)!+...+a[1]*0! 其中,a[i]为整数,并且0<=a[i]<i,1<=i<=n。(a[i]在不同应用中的含义不同); 典型应用: 计算当前排列在所有由小到大全排列中的顺序,也就是说求当前排列是第

csu 1446 Problem J Modified LCS (扩展欧几里得算法的简单应用)

这是一道扩展欧几里得算法的简单应用题,这题是在湖南多校训练赛中队友ac的一道题,在比赛之后请教了队友,然后自己把它a掉 这也是自己独自做扩展欧几里得算法的题目 题意:把题意转变下就变成了:求d1*x - d2*y = f2 - f1的解,很明显用exgcd来解 下面介绍一下exgcd的一些知识点:求ax + by = c的解 一、首先求ax + by = gcd(a,b)的解 这个

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

【数据结构】——原来排序算法搞懂这些就行,轻松拿捏

前言:快速排序的实现最重要的是找基准值,下面让我们来了解如何实现找基准值 基准值的注释:在快排的过程中,每一次我们要取一个元素作为枢纽值,以这个数字来将序列划分为两部分。 在此我们采用三数取中法,也就是取左端、中间、右端三个数,然后进行排序,将中间数作为枢纽值。 快速排序实现主框架: //快速排序 void QuickSort(int* arr, int left, int rig

poj 3974 and hdu 3068 最长回文串的O(n)解法(Manacher算法)

求一段字符串中的最长回文串。 因为数据量比较大,用原来的O(n^2)会爆。 小白上的O(n^2)解法代码:TLE啦~ #include<stdio.h>#include<string.h>const int Maxn = 1000000;char s[Maxn];int main(){char e[] = {"END"};while(scanf("%s", s) != EO

poj 1258 Agri-Net(最小生成树模板代码)

感觉用这题来当模板更适合。 题意就是给你邻接矩阵求最小生成树啦。~ prim代码:效率很高。172k...0ms。 #include<stdio.h>#include<algorithm>using namespace std;const int MaxN = 101;const int INF = 0x3f3f3f3f;int g[MaxN][MaxN];int n

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

如何在Visual Studio中调试.NET源码

今天偶然在看别人代码时,发现在他的代码里使用了Any判断List<T>是否为空。 我一般的做法是先判断是否为null,再判断Count。 看了一下Count的源码如下: 1 [__DynamicallyInvokable]2 public int Count3 {4 [__DynamicallyInvokable]5 get