基于深度学习的目标检测算法调研

本文主要是介绍基于深度学习的目标检测算法调研，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

0 目标检测的任务概述

如何从图像中解析出可供计算机理解的信息，是机器视觉的中心问题。理解图像，有三个主要的层次：

理解图像

一是分类（Classification），即是将图像结构化为某一类别的信息，用事先确定好的类别(string)来描述图片。这一任务是最简单、最基础的图像理解任务，也是深度学习模型最先取得突破和实现大规模应用的任务。
二是检测（Detection）。检测则关注特定的物体目标，要求同时获得这一目标的类别信息和位置信息。相比分类，检测需要从背景中分离出感兴趣的目标，并确定这一目标的类别和位置。
三是分割（Segmentation）。分割包括语义分割（semantic segmentation）和实例分割（instance segmentation），前者要求分离开具有不同语义的图像部分，而后者是检测任务的拓展，要求描述出目标的轮廓（相比检测框更为精细）。分割是对图像的像素级描述，它赋予每个像素类别意义，适用于理解要求较高的场景，如无人驾驶中对道路和非道路的分割。

深度学习时代来临后，「目标检测」算法大家族主要划分为两大派系，一个是 R-CNN 系两刀流派，另一个则是以 YOLO 为代表的一刀流派。下面分别解释一下 两刀流 和 一刀流:

两刀流

顾名思义，两刀解决问题。其实两刀流 更符合人们解决图像问题的思路：

这种流派的算法都离不开 Region Proposal（候选区域生成），即是优点也是缺点，主要代表人物就是 R-CNN 系。

一刀流

顾名思义，一刀解决问题，直接对预测的目标物体进行回归。
回归解决问题简单快速，主要代表人物是 YOLO 和 SSD 。

两种流派的不同：

无论 两刀流 还是 一刀流，他们都是在同一个天平下选取一个平衡点、或者选取一个极端—— 要么准，要么快。

R-CNN 其实是一个很大的家族，桃李满天下。在此，我们只探讨 R-CNN 直系亲属，他们的发展顺序如下：

R-CNN -> SPP Net -> Fast R-CNN -> Faster R-CNN -> Mask R-CNN`

下面对其分别简单介绍：

论文：Rich feature hierarchies for accurate object detection and semanti

这篇关于基于深度学习的目标检测算法调研的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！