目标检测之 Faster R-CNN

2024-06-10 05:48
文章标签 目标 检测 cnn faster

本文主要是介绍目标检测之 Faster R-CNN,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

论文地址:Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

代码地址:ShaoqingRen/faster_rcnn

不论是R-CNN还是Fast R-CNN,在提取目标候选区域(region proposal)的时候采用的是同一种方法,即selective search方法,这个方法比较耗时,而且提取的候选区域比较多,完全是遍历图像的每个像素。而Faster R-CNN最大的贡献是提出了一种称之为RPN的网络,该网络就是用来提取候选区域(region proposal)的。Faster R-CNN的基本架构跟Fast R-CNN基本上是一致的,下面是Faster R-CNN的总体流程图:


                                                              图1 Faster R-CNN 网络架构

首先讲解一下图1中Faster R-CNN的目标检测流程,首先是读入一张图像,经过Shared Layers (CNN卷积网络),输出feature maps,然后输出的feature maps送入两个分支,其中一路与Fast R-CNN的检测流程是一样的,另一路进入RPN网络,最终输出的是region proposals,这些region proposals同 R-CNN, Fast R-CNN的定义是一样的,均是通过四元组的坐标定义的一个窗口。值得注意的是,这里RPN输出的坐标均是以原图像的坐标系为参考的,最终还需要映射到feature maps上的坐标系,具体参考Fast R-CNN的讲解。有了RPN输出的region proposal 和Shared Layers输出的feature maps一起送入RoIPooling层,RoIPooling层输出固定大小的feature maps在经过CNN网络,最终输出类别标签概率分布与每类的边框回归坐标。

下面说一下Faster R-CNN网络的训练过程。论文中提到了几种训练方法,最终采用的是四步的交替训练:即先end-to-end训练一个RPN网络(因为不论是R-CNN还是Fast R-CNN都首先需要region proposals),由训练得到的RPN网络输出region proposals映射到feature maps进行RoIPooling。也因此在得到region proposals后,end-to-end训练一个Fast R-CNN网络,这是第二步。接着是第三步,即利用训练好的Fast R-CNN(图1中Shared Layers+Bounding Box Recognition Head),去初始化RPN网络(确切地说是初始化图1中Shared Layers),然后固定Shared Layers,也就是其参数不再更新。接下来是第四步,也就是最后一步,分别Fine-tuning RPN网络与Bounding Box Recognition Head网络,进行目标检测。

下面重点讲解RPN网络,如下图所示:


                                                           图2 Region Proposal Network (RPN)

在上图图2中,anchor boxes表示预定义的Bounding Box,可以认为是图像中目标的大致大小,如果图像中的目标都很大,比如目标为人,车辆,飞机,马等大型动物,anchor boxes面积(指的是widthxheight得到的像素数)与长宽比就相应的大一些,而如果读入的图像的目标均是小体型目标,如小鸟,小鱼等,anchor boxes的面积与长宽比就应该相应的设置小一点更有利于回归。anchor boxes的面积与长宽比均属于超参,只要网络够强,是不需要去谨慎设置的。其中anchor boxes的不同面积与长宽比相当于一种多尺度,这一点还是非常巧妙的。下图图3是Faster R-CNN定义的9种anchor boxes下回归的结果:


                                    图3 RPN的9种预定义的anchor boxes输出的region proposals的矩形框的平均大小

上图图3中是利用ZF net,在输入的图像的短边缩放到s=600像素的结果。由上图可见,即使很小的anchor boxes也能具有很大的感受野(如第5,7,8,,10列),与之相反,很大的anchor boxes也能具有较小的感受野(如第4列)。在上图图3中,anchor boxes的三种面积,128的平方,256的平方和512的平方与三种长宽比,即2:1, 1:2和1:1均是预定义好的,都是超参数。在上图图2中RPN的reg layer对每个anchor boxes均回归一个边框,作为region proposal的窗口大小。cls layer对每个anchor boxes输出两个概率值,一个是含有目标的概率值,这个目标是与类别无关的,只分有目标和无目标(或背景)两个类别。该输出的含有目标的概率值也作为该anchor boxes的得分,在以后的处理中,会根据这个得分将此anchor box回归得到的region proposal判断为正样本或负样本。

在对RPN网络进行训练的时候,会在每张图像抽取256个anchors样本,其中正样本与负样本的比例为1:1。其中正样本是这样定义的:1. 如果一个anchor/anchors与一个Ground-truth box的IoU值最大或2. 一个anchor与任何一个Ground-truth的IoU≥0.7。负样本是这样定义的,即一个anchor与所有的Ground-truth box的IoU≤0.3,则为负样本,其它的anchors则表示既不是正样本也不是负样版本,则对训练时的目标函数不起作用。

 

这篇关于目标检测之 Faster R-CNN的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1047361

相关文章

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X

基于 YOLOv5 的积水检测系统:打造高效智能的智慧城市应用

在城市发展中,积水问题日益严重,特别是在大雨过后,积水往往会影响交通甚至威胁人们的安全。通过现代计算机视觉技术,我们能够智能化地检测和识别积水区域,减少潜在危险。本文将介绍如何使用 YOLOv5 和 PyQt5 搭建一个积水检测系统,结合深度学习和直观的图形界面,为用户提供高效的解决方案。 源码地址: PyQt5+YoloV5 实现积水检测系统 预览: 项目背景

JavaFX应用更新检测功能(在线自动更新方案)

JavaFX开发的桌面应用属于C端,一般来说需要版本检测和自动更新功能,这里记录一下一种版本检测和自动更新的方法。 1. 整体方案 JavaFX.应用版本检测、自动更新主要涉及一下步骤: 读取本地应用版本拉取远程版本并比较两个版本如果需要升级,那么拉取更新历史弹出升级控制窗口用户选择升级时,拉取升级包解压,重启应用用户选择忽略时,本地版本标志为忽略版本用户选择取消时,隐藏升级控制窗口 2.

[数据集][目标检测]血细胞检测数据集VOC+YOLO格式2757张4类别

数据集格式:Pascal VOC格式+YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):2757 标注数量(xml文件个数):2757 标注数量(txt文件个数):2757 标注类别数:4 标注类别名称:["Platelets","RBC","WBC","sickle cell"] 每个类别标注的框数:

深度学习实战:如何利用CNN实现人脸识别考勤系统

1. 何为CNN及其在人脸识别中的应用 卷积神经网络(CNN)是深度学习中的核心技术之一,擅长处理图像数据。CNN通过卷积层提取图像的局部特征,在人脸识别领域尤其适用。CNN的多个层次可以逐步提取面部的特征,最终实现精确的身份识别。对于考勤系统而言,CNN可以自动从摄像头捕捉的视频流中检测并识别出员工的面部。 我们在该项目中采用了 RetinaFace 模型,它基于CNN的结构实现高效、精准的

Temu官方宣导务必将所有的点位材料进行检测-RSL资质检测

关于饰品类产品合规问题宣导: 产品法规RSL要求 RSL测试是根据REACH法规及附录17的要求进行测试。REACH法规是欧洲一项重要的法规,其中包含许多对化学物质进行限制的规定和高度关注物质。 为了确保珠宝首饰的安全性,欧盟REACH法规规定,珠宝首饰上架各大电商平台前必须进行RSLReport(欧盟禁限用化学物质检测报告)资质认证,以确保产品不含对人体有害的化学物质。 RSL-铅,

YOLOv8/v10+DeepSORT多目标车辆跟踪(车辆检测/跟踪/车辆计数/测速/禁停区域/绘制进出线/绘制禁停区域/车道车辆统计)

01:YOLOv8 + DeepSort 车辆跟踪 该项目利用YOLOv8作为目标检测模型,DeepSort用于多目标跟踪。YOLOv8负责从视频帧中检测出车辆的位置,而DeepSort则负责关联这些检测结果,从而实现车辆的持续跟踪。这种组合使得系统能够在视频流中准确地识别并跟随特定车辆。 02:YOLOv8 + DeepSort 车辆跟踪 + 任意绘制进出线 在此基础上增加了用户

独立按键单击检测(延时消抖+定时器扫描)

目录 独立按键简介 按键抖动 模块接线 延时消抖 Key.h Key.c 定时器扫描按键代码 Key.h Key.c main.c 思考  MultiButton按键驱动 独立按键简介 ​ 轻触按键相当于一种电子开关,按下时开关接通,松开时开关断开,实现原理是通过轻触按键内部的金属弹片受力弹动来实现接通与断开。  ​ 按键抖动 由于按键内部使用的是机

基于stm32的河流检测系统-单片机毕业设计

文章目录 前言资料获取设计介绍功能介绍具体实现截图参考文献设计获取 前言 💗博主介绍:✌全网粉丝10W+,CSDN特邀作者、博客专家、CSDN新星计划导师,一名热衷于单片机技术探索与分享的博主、专注于 精通51/STM32/MSP430/AVR等单片机设计 主要对象是咱们电子相关专业的大学生,希望您们都共创辉煌!✌💗 👇🏻 精彩专栏 推荐订阅👇🏻 单片机设计精品