本文主要是介绍Rich feature hierarchies for accurate object detection and semantic segmentation Tech report(RCNN),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
Rich feature hierarchies for accurate object detection and semantic segmentation Tech report(RCNN)
文章目录
- Rich feature hierarchies for accurate object detection and semantic segmentation Tech report(RCNN)
- 总揽
- Object detection with RCNN
- model design
- test-time detection
- training
- 实验数据
- 附录A:Object proposal transformations
- 附录B:Positive vs. negative examples and softmax
- 附录C:Bounding-box regression
总揽
- 由上图可以看到,RCNN分为三个部分
- 1、提取候选区域(region proposals),它采取的方式是Selective Search,选取大约2k个
- 2、对候选区域进行直接resize,使之符合CNN网络的输入要求,然后,进入特征提取
- 3、在分类阶段使用SVM分类器进行分类
Object detection with RCNN
model design
- Region proposals
- Selective Search
- Feature Extraction
- resize成227x227的RGB image(三通道),无视候选区的尺寸、比例(附录A对此有讨论)
- 此外,在resize之前,还对候选区域进行拼接(扩张)
test-time detection
- 在测试阶段,仍然是上述流程,另外,作者特地强调了下RCNN的高效(就当时而言),主要有以下两点
- CNN参数全局共享
- 特征向量的计算是低维的(计算量小)
- 最后输出的特征向量矩阵是2000x4096,SVM则是4096xN,其中N表示类别数目
training
- 先把CNN扔到大号数据集里面训练(监督预训练,指ILSVRC2012)
- 然后再在VOC中做主要特征微调
- 然后使用SVM对每个区域的每类进行判断(分类)(附录B对此有讨论)
实验数据
-
在VOC2010上的结果
- RCNN BB是用了BB regression(框回归)的版本,可以看到mAP提了3个点
-
而在ILSVR2013上,大体趋势依然不变
-
然后对fine-tuning效果的测试(1-3):(4-6),7是6+用了BB regression的效果,顺手验证了BB regression的效果
-
不同backbone(CNN部分)的效果
附录A:Object proposal transformations
- 提供了两种方法:
- 1、短边+padding然后再resize,这样可以解决ratio不协调问题
- 2、暴力resize,也就是文中采用的方式(图简单?)
附录B:Positive vs. negative examples and softmax
- 首先给出定义
- 对于GT:positive if IOU>0.5 else background
- 对于SVM:
- if IOU>0.5 =>positive
- if IOU<0.3 =>negetive
- else 忽略
- 由于正负样本的不平衡,作者引入many “jittered” examples,使得positive扩大30倍
附录C:Bounding-box regression
- Bounding-box regression
这篇关于Rich feature hierarchies for accurate object detection and semantic segmentation Tech report(RCNN)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!