【论文快读】R-CNN（2013）

2024-03-26 16:48

文章标签 论文 cnn 2013 快读

本文主要是介绍【论文快读】R-CNN（2013），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

标题：Rich feature hierarchies for accurate object detection and semantic segmentation
链接：https://arxiv.org/abs/1311.2524
作者：Ross Girshick等
摘要：
这里写图片描述
传统的目标检测方法是通过集成系统把低级别的图像特征和高级别的文本相组合。CNN在经典的classification task上做的已经足够好了，但是在object detection上的工作依然是个空白。本文提出，CNN的表现依然可以优于传统的HOG等方法。
本文提出的R-CNN方法基于两点：１大容量的CNN可以用来自底向上地定位和分割区域。２当标签数据很稀疏时，有监督预训练+fine tuning可以达到很好的效果。
由classification到localization增加了检测边缘的部分，这可以视作一个回归问题，但精度很低。借助CNN构造滑窗detector（通常为2个卷积池化层）可以大大提高精度，作者经过各种优化尝试，最终将CNN定位问题作为“recognition using regions”来处理：
首先从input图片取出2000多个不同大小的框，每个框经过affine变换成相同的size后过一遍CNN，得到2000多个固定长度的特征，利用线性svm做2000多个分类。
对于scarce label的问题，首先在辅助数据集中做有监督预训练，然后在小数据集上做fine tunning，原因是图像特征的提取在卷积池化层中完成，但这些特征并不会因为数据集的变换而产生根本性的区别。这样做的结果比传统的HOG方法精确的多。