(二十一)mmdetection源码解读:faster_rcnn_r50_fpn.py详解rpn_head

2023-10-20 03:10

本文主要是介绍(二十一)mmdetection源码解读:faster_rcnn_r50_fpn.py详解rpn_head,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

  • 一、model配置文件->rpn_head
  • 二、rpn_head详解
    • 1、anchor_generator->AnchorGenerator
    • 2、bbox_coder->DeltaXYWHBBoxCoder
    • 3、oss_cls->CrossEntropyLoss
    • 4、loss_bbox->L1Loss

一、model配置文件->rpn_head

model = dict(rpn_head=dict(type='RPNHead',                        # RPN网络类型in_channels=256,                       # RPN网络的输入通道数feat_channels=256,                   # 特征层的通道数anchor_generator=dict(			# 锚点(Anchor)生成器的配置type='AnchorGenerator',		# 大多数方法使用 AnchorGenerator 作为锚点生成器,# scales=[8],scales=[48],  # 锚点的基本比例,特征图某一位置的锚点面积为 scale * base_sizesratios=[0.5, 1.0, 2.0],  # 高度和宽度之间的比率strides=[4, 8, 16, 32, 64]),  # 锚生成器的步幅。这与 FPN 特征步幅一致。 如果未设置 base_sizes,则当前步幅值将被视为 base_sizesbbox_coder=dict(						 # 在训练和测试期间对框进行编码和解码type='DeltaXYWHBBoxCoder',# 框编码器的类别,'DeltaXYWHBBoxCoder' 是最常用的target_means=[.0, .0, .0, .0],	# 用于编码和解码框的目标均值target_stds=[1.0, 1.0, 1.0, 1.0]), # 用于编码和解码框的标准差loss_cls=dict(type='CrossEntropyLoss', use_sigmoid=True, loss_weight=1.0),loss_bbox=dict(type='L1Loss', loss_weight=1.0)),)

二、rpn_head详解

1、anchor_generator->AnchorGenerator

按照下面的配置文件到底会生成怎样的anchor?

 anchor_generator=dict(			# 锚点(Anchor)生成器的配置type='AnchorGenerator',		# 大多数方法使用 AnchorGenerator 作为锚点生成器,scales=[8] # 锚点的基本比例,特征图某一位置的锚点面积为 scale * base_sizesratios=[0.5, 1.0, 2.0],  # 高度和宽度之间的比率strides=[4, 8, 16, 32, 64]),  # 锚生成器的步幅。这与 FPN 特征步幅一致。 如果未设置 base_sizes,则当前步幅值将被视为 base_sizes

一共是五级特征图,每一级特征图对应生成3个尺寸anchor,一共生成15个尺寸的anchor
P2:([45.2,22.6],[32,32],[22.6,45.2])
P3:([90.5,45.2],[64,64],[45.2,90.5])
P4:([181,90.5],[128,128],[90.5,181])
P5([362,181],[256,256],[181,362])
P6:([724,362],[512,512],[362,724])
AnchorGenerator类借助gen_base_anchors方法产生了基础的15个anchor,这些anchor是原图上的anchor。

class AnchorGenerator:def gen_base_anchors(self):"""Generate base anchors.Returns:list(torch.Tensor): Base anchors of a feature grid in multiple \feature levels."""multi_level_base_anchors = []for i, base_size in enumerate(self.base_sizes):center = Noneif self.centers is not None:center = self.centers[i]multi_level_base_anchors.append(self.gen_single_level_base_anchors(base_size,scales=self.scales,ratios=self.ratios,center=center))return multi_level_base_anchors

[tensor([[-22.6274, -11.3137, 22.6274, 11.3137],
[-16.0000, -16.0000, 16.0000, 16.0000],
[-11.3137, -22.6274, 11.3137, 22.6274]]),
tensor([[-45.2548, -22.6274, 45.2548, 22.6274],
[-32.0000, -32.0000, 32.0000, 32.0000],
[-22.6274, -45.2548, 22.6274, 45.2548]]),
tensor([[-90.5097, -45.2548, 90.5097, 45.2548],
[-64.0000, -64.0000, 64.0000, 64.0000],
[-45.2548, -90.5097, 45.2548, 90.5097]]),
tensor([[-181.0193, -90.5097, 181.0193, 90.5097],
[-128.0000, -128.0000, 128.0000, 128.0000],
[ -90.5097, -181.0193, 90.5097, 181.0193]]),
tensor([[-362.0387, -181.0193, 362.0387, 181.0193],
[-256.0000, -256.0000, 256.0000, 256.0000],
[-181.0193, -362.0387, 181.0193, 362.0387]])]

设置完anchor的(h,w)后,中心点坐标都为(0,0)。所以我们还需要设置anchor的中心点坐标(x,y)。因为FPN的存在,要为不同的feature_map的anchor设置不同的中心点。通过下面函数来完成。

 def grid_anchors(self, featmap_sizes, device='cuda'):warnings.warn('``grid_anchors`` would be deprecated soon. ''Please use ``grid_priors`` ')assert self.num_levels == len(featmap_sizes)multi_level_anchors = []for i in range(self.num_levels):anchors = self.single_level_grid_anchors(self.base_anchors[i].to(device),featmap_sizes[i],self.strides[i],device=device)multi_level_anchors.append(anchors)return multi_level_anchors

2、bbox_coder->DeltaXYWHBBoxCoder

下面的配置文件会对矩形框进行怎样的编码解码?

        bbox_coder=dict(						 # 在训练和测试期间对框进行编码和解码type='DeltaXYWHBBoxCoder',# 框编码器的类别,'DeltaXYWHBBoxCoder' 是最常用的target_means=[.0, .0, .0, .0],	# 用于编码和解码框的目标均值target_stds=[1.0, 1.0, 1.0, 1.0]), # 用于编码和解码框的标准差

代码位置:/mmdetection/mmdet/core/bbox/coder/delta_xywh_bbox_coder.py
在目标检测算法中,为了利于网络的收敛,实际回归的是anchor和gt_bboxes之间的偏差。因此在训练过程中,需要计算gt_bboxes和anchor之间的偏差值。计算方式如下: [x,y,w,h] 表示gt_bboxes的中心,宽和高;[xa,ya,wa,ha] 表示anchor的中心,宽和高。[tx ,ty ,tw,th]表示二者之间的偏差。

在这里插入图片描述

下面编码函数实际调用的是bbox2delta

    def encode(self, bboxes, gt_bboxes):assert bboxes.size(0) == gt_bboxes.size(0)assert bboxes.size(-1) == gt_bboxes.size(-1) == 4encoded_bboxes = bbox2delta(bboxes, gt_bboxes, self.means, self.stds)return encoded_bboxes

函数bbox2delta就是按照上图中的公式进行编码的

@mmcv.jit(coderize=True)
def bbox2delta(proposals, gt, means=(0., 0., 0., 0.), stds=(1., 1., 1., 1.)):assert proposals.size() == gt.size()proposals = proposals.float()gt = gt.float()# proposals:px = (proposals[..., 0] + proposals[..., 2]) * 0.5py = (proposals[..., 1] + proposals[..., 3]) * 0.5pw = proposals[..., 2] - proposals[..., 0]ph = proposals[..., 3] - proposals[..., 1]# gt:gx = (gt[..., 0] + gt[..., 2]) * 0.5gy = (gt[..., 1] + gt[..., 3]) * 0.5gw = gt[..., 2] - gt[..., 0]gh = gt[..., 3] - gt[..., 1]# 计算偏差dx = (gx - px) / pwdy = (gy - py) / phdw = torch.log(gw / pw)dh = torch.log(gh / ph)deltas = torch.stack([dx, dy, dw, dh], dim=-1)
# 减均值除以标准差,其中means和stds是为了平衡bbox回归loss和分类loss,避免回归loss远小于分类loss。means = deltas.new_tensor(means).unsqueeze(0)stds = deltas.new_tensor(stds).unsqueeze(0)deltas = deltas.sub_(means).div_(stds)return deltas

解码过程类似,可在/mmdetection/mmdet/core/bbox/coder/delta_xywh_bbox_coder.py文件中查看

3、oss_cls->CrossEntropyLoss

交叉熵损失有些复杂,但其本质上就是 LogSoftmax 和 NLLLoss结合:

LogSoftmax:
在这里插入图片描述
NLLLoss:负对数似然(NLL)损失

c在范围 [0, C-1]中,C是类的数量 ,x 是输入, y 是目标,正确的分类, w 类的权重, and N 是 批次数量(batch size).xn,yn表示的是预测正确概率在这里插入图片描述如果reduction不等于 ‘none’,会对这批次(batch)的损失求和或者求均值在这里插入图片描述
CrossEntropyLoss:

在这里插入图片描述
在这里插入图片描述

4、loss_bbox->L1Loss

在这里插入图片描述

这篇关于(二十一)mmdetection源码解读:faster_rcnn_r50_fpn.py详解rpn_head的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/244219

相关文章

Oracle的to_date()函数详解

《Oracle的to_date()函数详解》Oracle的to_date()函数用于日期格式转换,需要注意Oracle中不区分大小写的MM和mm格式代码,应使用mi代替分钟,此外,Oracle还支持毫... 目录oracle的to_date()函数一.在使用Oracle的to_date函数来做日期转换二.日

Java实现任务管理器性能网络监控数据的方法详解

《Java实现任务管理器性能网络监控数据的方法详解》在现代操作系统中,任务管理器是一个非常重要的工具,用于监控和管理计算机的运行状态,包括CPU使用率、内存占用等,对于开发者和系统管理员来说,了解这些... 目录引言一、背景知识二、准备工作1. Maven依赖2. Gradle依赖三、代码实现四、代码详解五

Redis与缓存解读

《Redis与缓存解读》文章介绍了Redis作为缓存层的优势和缺点,并分析了六种缓存更新策略,包括超时剔除、先删缓存再更新数据库、旁路缓存、先更新数据库再删缓存、先更新数据库再更新缓存、读写穿透和异步... 目录缓存缓存优缺点缓存更新策略超时剔除先删缓存再更新数据库旁路缓存(先更新数据库,再删缓存)先更新数

Mysql 中的多表连接和连接类型详解

《Mysql中的多表连接和连接类型详解》这篇文章详细介绍了MySQL中的多表连接及其各种类型,包括内连接、左连接、右连接、全外连接、自连接和交叉连接,通过这些连接方式,可以将分散在不同表中的相关数据... 目录什么是多表连接?1. 内连接(INNER JOIN)2. 左连接(LEFT JOIN 或 LEFT

Java中switch-case结构的使用方法举例详解

《Java中switch-case结构的使用方法举例详解》:本文主要介绍Java中switch-case结构使用的相关资料,switch-case结构是Java中处理多个分支条件的一种有效方式,它... 目录前言一、switch-case结构的基本语法二、使用示例三、注意事项四、总结前言对于Java初学者

Linux内核之内核裁剪详解

《Linux内核之内核裁剪详解》Linux内核裁剪是通过移除不必要的功能和模块,调整配置参数来优化内核,以满足特定需求,裁剪的方法包括使用配置选项、模块化设计和优化配置参数,图形裁剪工具如makeme... 目录简介一、 裁剪的原因二、裁剪的方法三、图形裁剪工具四、操作说明五、make menuconfig

Java汇编源码如何查看环境搭建

《Java汇编源码如何查看环境搭建》:本文主要介绍如何在IntelliJIDEA开发环境中搭建字节码和汇编环境,以便更好地进行代码调优和JVM学习,首先,介绍了如何配置IntelliJIDEA以方... 目录一、简介二、在IDEA开发环境中搭建汇编环境2.1 在IDEA中搭建字节码查看环境2.1.1 搭建步

详解Java中的敏感信息处理

《详解Java中的敏感信息处理》平时开发中常常会遇到像用户的手机号、姓名、身份证等敏感信息需要处理,这篇文章主要为大家整理了一些常用的方法,希望对大家有所帮助... 目录前后端传输AES 对称加密RSA 非对称加密混合加密数据库加密MD5 + Salt/SHA + SaltAES 加密平时开发中遇到像用户的

Springboot使用RabbitMQ实现关闭超时订单(示例详解)

《Springboot使用RabbitMQ实现关闭超时订单(示例详解)》介绍了如何在SpringBoot项目中使用RabbitMQ实现订单的延时处理和超时关闭,通过配置RabbitMQ的交换机、队列和... 目录1.maven中引入rabbitmq的依赖:2.application.yml中进行rabbit

C语言线程池的常见实现方式详解

《C语言线程池的常见实现方式详解》本文介绍了如何使用C语言实现一个基本的线程池,线程池的实现包括工作线程、任务队列、任务调度、线程池的初始化、任务添加、销毁等步骤,感兴趣的朋友跟随小编一起看看吧... 目录1. 线程池的基本结构2. 线程池的实现步骤3. 线程池的核心数据结构4. 线程池的详细实现4.1 初