关于Object Bank的几篇文章解析

本文主要是介绍关于Object Bank的几篇文章解析，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

1. Object Bank: A High-Level Image Representation for Scene Classification & Semantic Feature Sparsification.pdf

这是10年NIPS上的一篇文章，它指出了对于场景分类的一种新的方向。

文章在Abstract就提出了，尽管图片low-level的特征在场景分类以及物体识别中有着比较好的应用。但是它的特征是基于像素或是图片的某个部分区域的。这导致了其只含有很少量的semantic meanings。对于更高层次的视觉任务，这种low-level的特征就不是很好了。所以这篇文章就提出了Object Bank这个工作，其主要思想就是“an image is represented as a scale-invariant response map of a large number of pre-trained generic object detectors”.大概意思就是说，每一幅图片的特征已经训练好的那些object detectors共同表示的。不论这个图片是属于哪个数据集的，使用的object detector都是一样的。而且如果使用了稀疏算法，Object Bank对于规模较大的场景数据库能够有更有效的表示和更好的可扩展性。

在这个工作中，所遇到的最重要的问题就是维度灾难。因为Object Bank所提取出来的特征的维度通常都是很大的。但对于一般的数据集来说，一个类可能只有几十个或是几百个实例以供测试。所以我们需要“structural risk minimization via appropriate regularization of the predictive model is essential.”

其实可以将Object Bank视作“generalized object convolution”。Object Bank中使用了两种detector作为object detector。一种是“the latent SVM object detector”，用它来识别blobby objects。另一种是“texture classifier”，用来识别texture- and material- based object。

Object Bank在12个detection scales上使用了200个object detector，有3个spatial pyramid level（L=0，1，2）。这样就产生了No.Objects x No.scales x (1^2+2^2+4^2)个grid。对于每一个object中的每个grid，计算它的maximum response。对于每一个grid就产生了长度为No.objects的特征向量。将这些特征向量串联起来就得到了Object Bank对于一个图像的表示。

这篇关于关于Object Bank的几篇文章解析的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！