本文主要是介绍论文提要“Fast Feature Pyramids for Object Detection”,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
很多目标检测器需要对图像进行多尺度精细搜索,传统方法的瓶颈是对每个尺度分别计算特征,本文使用比较大的间隔octave计算特征,之后对octave之间的尺度特征进行推算,节省了多尺度特征计算的时间,将目标检测提到实时。
动机:目前的目标检测方法如DPM,通常需要使用多通道,精细尺度采样及增强的归一化方法提升准确率,导致计算量大大增加。自然场景图像存在碎片统计特征,可以用于不同尺度直接的结构预测。
多尺度梯度直方图对比实验
由一个问题引出,给定图像在某一尺度的梯度特征,能够估计临近尺度的梯度特征?
梯度直方图是图像梯度角度的分布,每个像素对梯度直方图投票,权值是梯度幅值。作者做了一个有趣的实验,将图像进行上采样和下采样2倍,统计重采样前后梯度直方图某个bin的幅值比例 rq=h′q/hq 的分布,统计结果如下图所示:
对于上采样,均值为2,即为上采样的倍数,对于下采样,均值为0.34,为常数,比采样倍数小的原因是损失了高频信息。对于归一化的直方图,下采样直方图幅值变化的比例均值为0.26。
多尺度特征统计学习
1. 特征尺度法则
用 Ω 表示低层位移不变函数, C=Ω(I) 表示图像的不同通道,定义 fΩ(I) 为所有通道的加权和,即 fΩ(I)=∑ijkwijkC(i,j,k) 。令 Is 表示I在s尺度的表示, Is 的维度 hs×ws 是I的s倍。 fΩ(Is) 如下定义:
根据Ruderman和Bialek提出的自然场景图像与尺度间的法则,并考虑将图像分成K个晓得图像块, fΩ(Is1) 和 fΩ(Is2) 存在如下关系:
fΩ(Is1)/fΩ(Is2)=(s1/s2)−λΩ+ε (4)
2. 估计 λ
为了估计给定不同通道 Ω 的 λΩ ,首先统计图像数据集特征随着尺度变换的均值:
μs=1N∑Ni=1fΩ(Iis)/fΩ(Ii1)
根据公式(4), μs=s−λΩ+E[ε]
则 μs 应与 log2(s) 存在线性关系,不同特征的 λ 如下图所示
3. 单一图像偏差的幅值 E[ε2] 随着尺度变换的比之 s1/s2 增加而增加
快速特征金字塔
1. 特征通道缩放
使用R(I,s)表示图像I使用尺度s重采样,给定图像I的特征 C=Ω(I) ,仅使用C预测新尺度s对应的特征图像 Cs=Ω(Is) 。传统的方法是先缩放图像,再计算缩放后图像的特征。本文使用下述公式预测:
Cs≈R(C,s)⋅s−λΩ (7)
下图显示了该方法的原理:
2. 快速特征金字塔
快速金字塔的原理如下图所示,传统的方法是先重采样图像,再计算每个尺度的特征。文中只在每个octave重采样图像计算特征,每个octave之间的尺度(4到12个尺度)对应的特征使用(7)式进行估计,使用octave进行估计的运算量是直接计算图像特征运算量的1/3。
目标检测器
1. Aggregated Channel Features(ACF)
给定一幅图像,计算几个通道 C=Ω(I) ,对C中的每个block求和,之后对低分辨率图像进行平滑处理。特征即是累积通道中单个像素的查找表。使用boosting组合决策树进行目标检测。具体流程如下图所示
2. Integral Channel Features(ICF)
ICF使用积分图像进行特征提取,ICF检测器及尺度金字塔如下图所示
3. DPM
直接贴出实验结果,使用本文的方法提升后VOC数据20类测试的mAP只降低2%。
这篇关于论文提要“Fast Feature Pyramids for Object Detection”的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!