FasterRCNN源码解析（六）——RPN（中）Proposal的获取

本文主要是介绍FasterRCNN源码解析（六）——RPN（中）Proposal的获取，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

FasterRCNN源码解析（六）——RPN（中）Proposal的获取

利用生成的anchos以及RPNHead模块得到的预测分数以及目标边界框回归参数，获取proposal，然后再经过一系列算法滤除部分proposal，得到我们RPN模块输出的proposal。

文章目录

FasterRCNN源码解析（六）——RPN（中）Proposal的获取
一、RegionProposalNetwork
二、self.filter_proposals

一、RegionProposalNetwork

怎样去实例化RPN模型呢？

rpn = RegionProposalNetwork(rpn_anchor_generator, rpn_head, # FasterRCNN源码解析（五）所提到的rpn_fg_iou_thresh, rpn_bg_iou_thresh, # rpn计算损失时，采集正负样本设置的阈值   ， 在其之间直接舍去rpn_batch_size_per_image, rpn_positive_fraction, # 前者是rpn在计算损失时采用正负样本的总个数， 后者是正样本占用于计算损失所有样本rpn_pre_nms_top_n, rpn_post_nms_top_n, rpn_nms_thresh )

rpn_anchor_generator, rpn_head, : FasterRCNN源码解析（五）所提到的
rpn_fg_iou_thresh, rpn_bg_iou_thresh, : rpn计算损失时，采集正负样本设置的阈值，在其之间直接舍去
rpn_batch_size_per_image, rpn_positive_fraction,: 前者是rpn在计算损失时采用正负样本的总个数，后者是正样本占用于计算损失所有样本
rpn_pre_nms_top_n,:在nms处理之前针对每个预测特征层所保留的目标个数
rpn_post_nms_top_n,:在nms处理之后所剩余的目标个数即RPN输出的proposal的目标个数
rpn_nms_thresh :nms处理时所指定的一个阈值

二、self.filter_proposals

其作用为筛除小boxes框，nms处理，根据预测概率获取前post_nms_top_n个目标
传入的参数有
proposals: 预测的bbox坐标
objectness: 预测的目标概率
image_shapes: batch中每张图片的size信息
num_anchors_per_level: 每个预测特征层上预测anchors的数目
主要步骤有：

获取图片数量
对objectness变量进行resape处理，使其变为 $b a t c h * 预测的数值个数$
使用levels变量记录分隔不同预测特征层的索引信息（有多层预测特征层会生成多个tensor，每层tensor用该层的索引进行填充，然后进行拼接操作）目的是为了区分不同的特征层的anchor
将我们的tensor（levels变量）在第一个维度上进行复制，复制batch_size分
获取每张预测特征图上预测概率排前pre_nms_top_n的anchors索引值
最后输出为：（每张图片只剩下8768个proposal了）
根据每个预测特征层预测概率排前pre_nms_top_n的anchors索引值获取相应概率信息
预测概率排前pre_nms_top_n的anchors索引值获取相应bbox坐标信息
遍历每张图片的相关预测信息（滤除小目标，进行nms处理，按照我们目标类别分数进行排序输出的，取前top_n个boxes和 scores）

在这里插入图片描述

    def filter_proposals(self, proposals, objectness, image_shapes, num_anchors_per_level):# type: (Tensor, Tensor, List[Tuple[int, int]], List[int]) -> Tuple[List[Tensor], List[Tensor]]"""筛除小boxes框，nms处理，根据预测概率获取前post_nms_top_n个目标Args:proposals: 预测的bbox坐标objectness: 预测的目标概率image_shapes: batch中每张图片的size信息num_anchors_per_level: 每个预测特征层上预测anchors的数目Returns:"""num_images = proposals.shape[0]device = proposals.device# do not backprop throught objectnessobjectness = objectness.detach()objectness = objectness.reshape(num_images, -1)# Returns a tensor of size size filled with fill_value# levels负责记录分隔不同预测特征层上的anchors索引信息levels = [torch.full((n, ), idx, dtype=torch.int64, device=device)for idx, n in enumerate(num_anchors_per_level)]levels = torch.cat(levels, 0)# Expand this tensor to the same size as objectnesslevels = levels.reshape(1, -1).expand_as(objectness)# select top_n boxes independently per level before applying nms# 获取每张预测特征图上预测概率排前pre_nms_top_n的anchors索引值top_n_idx = self._get_top_n_idx(objectness, num_anchors_per_level)image_range = torch.arange(num_images, device=device)batch_idx = image_range[:, None]  # [batch_size, 1]# 根据每个预测特征层预测概率排前pre_nms_top_n的anchors索引值获取相应概率信息objectness = objectness[batch_idx, top_n_idx]levels = levels[batch_idx, top_n_idx]# 预测概率排前pre_nms_top_n的anchors索引值获取相应bbox坐标信息proposals = proposals[batch_idx, top_n_idx]final_boxes = []final_scores = []# 遍历每张图像的相关预测信息for boxes, scores, lvl, img_shape in zip(proposals, objectness, levels, image_shapes):# 调整预测的boxes信息，将越界的坐标调整到图片边界上boxes = box_ops.clip_boxes_to_image(boxes, img_shape)# 返回boxes满足宽，高都大于min_size的索引keep = box_ops.remove_small_boxes(boxes, self.min_size)boxes, scores, lvl = boxes[keep], scores[keep], lvl[keep]# non-maximum suppression, independently done per levelkeep = box_ops.batched_nms(boxes, scores, lvl, self.nms_thresh)# keep only topk scoring predictionskeep = keep[: self.post_nms_top_n()]boxes, scores = boxes[keep], scores[keep]final_boxes.append(boxes)final_scores.append(scores)return final_boxes, final_scores