论文《A Convolutional Neural Network Cascade for Face Detection》笔记

本文主要是介绍论文《A Convolutional Neural Network Cascade for Face Detection》笔记，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

论文：A Convolutional Neural Network Cascade for Face Detection.pdf

实现：https://github.com/anson0910/CNN_face_detection

该论文发表于2015年CVPR上，作者提出了一种级连的CNN网络结构用于人脸识别，论文的主要贡献有以下四点：

提出了一种级连的CNN网络结构用于高速的人脸检测。
设计了一种边界校订网络用于更好的定位人脸位置。
提出了一种多分辨率的CNN网络结构，有着比单网络结构更强的识别能力，和一个微小的额外开销。
在FDDB上达到了当时最高的分数。

其实论文的主体框架依然是基于V-J的瀑布流思想，不同以往的是级连了CNN网络（由于论文阅读量有限，不知是否已有前人做出了此类贡献），整个网络的处理流程如下图所示：

可以看出，整个处理流程里包含了六个网络和三次NMS，六个网络按顺序分别是12-net，12-calibration-net，24-net，24-calibration-net，48-net，48-calibration-net。

包含三个二分类网络用于分类其是否为人脸，另外三个calibration网络用于矫正人脸框边界。

其中12-net，24-net和48-net的网络结构如下图所示：

这三个网络的结构大致相同，不同之处在于其读入的图片分辨率和网络的复杂度，其是逐级递增的，了解V－J框架不难理解其实现原理，前面的简单网络拒绝绝大部分非人脸区域，将难以分辨的交由下一级更复杂的网络以获得更准确的结果，这里着重讲其多分辨率的图片读入方式。

要想在CNN结构下实现V-J瀑布级连结构，就要保证瀑布的前端足够简单并有较高的召回率且能够拒绝大部分非人脸区域，将图片缩放可以满足需求，比例为12/F，24/F，48/F，F为检测人脸的最小尺寸，这样对于一张800*600的图片，检测尺寸为40*40的人脸，窗口移动步伐为4个像素，那么会产生（（800＊12/40－12）／4+1）＊（（600*12/40－12）／4＋1）＝2494个窗口。不仅使得窗口数量变少而且窗口的缩放也使前期的CNN结构更加简单，实现了级连的思想。

另外在24-net和48-net的全连接层还会连接该图像缩放后在前一层网络的全连接输出，这么做的目的是为了检测更小的人脸，虽然会带来额外开销，但总体来说，该开销可忽略不计，但是其可以较明显的提高识别率。

12-calibration-net，24-calibration-net，48-calibration-net的结构如下图所示：