H2RBox:HORIZONTAL BOX ANNOTATION IS ALL YOU NEED FOR ORIENTED OBJECT DETECTION（读论文）

本文主要是介绍H2RBox:HORIZONTAL BOX ANNOTATION IS ALL YOU NEED FOR ORIENTED OBJECT DETECTION（读论文），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

H2RBOX: HORIZONTAL BOX ANNOTATION IS ALL YOU NEED FOR ORIENTED OBJECT DETECTION

文章目录

H2RBOX: HORIZONTAL BOX ANNOTATION IS ALL YOU NEED FOR ORIENTED OBJECT DETECTION
- abstract
- intro
- related work
- proposed method
- experiment
- ablation studies
代码层面解读
- model.forwar_train(self,img,img_meta,gt_bboxes,gt_labels,gt_bboxes_ignore)
- losses=self.bbox_head.forward_train(x,x_aug,rot,img_metas,gt_bboxes,gt_labels,gt_bboxes_ignore)
- loss(outs,outs_aug,tf,gt_bboxes, gt_labels, img_metas)

训练旋转目标检测器使用水平框就够了

abstract

利用水平框标注训练旋转框能够节省标注成本，并且优化大量的现有数据集。
本文使用弱监督结合自监督训练了一个旋转框检测器，并与基于水平框的实例分割模型比较了性能。
代码：https://github.com/yangxue0827/h2rbox-mmrotate

intro

介绍了几个数据集：
DIOR-R
SKU110K-R
介绍了一些HBox-supervised instance segmentation方法：
BoxInst
BoxLevelSet

由于本任务第一次提出，本文的模型将与实例分割-外接矩形模型性能比较。

在这里插入图片描述
本文的贡献：

第一个HBox annotation-based oriented object detector，提出self-supervised angle prediction moule
与H2RBox实例分割-外接矩形模型BoxInst (Tian et al., 2021)比较，mAP50(67.9% vs 53.59%)，12 x faster（31.6fps vs 2.7fps），显存占用 (6.25 GB vs. 19.93 GB)
与经典旋转目标检测模型FCOS比较，
H2RBox is only 0.91% (74.40% vs. 75.31%) behind on DOTA-v1.0, and even surpasses it by 1.7% (34.90% vs. 33.20%) on DIOR-R ，29.1 FPS vs. 29.5 FPS on DOTA-v1.0.

related work

一些等看的论文：
SDI
MCG
BBTP
Mask R-CNN
BoxInst
CondInst
BoxLevelSet

proposed method

这一部分推荐结合论文看，毕竟方法是最重要的部分，作者在论文中阐述的已经是精简的版本了。
在这里插入图片描述

增强视角生成

文本最有趣的地方就是使用了自监督，保证预测旋转框的角度一致性，如示意图右边所示。注意：旋转后输入网络，要么需要裁剪，要么需要填充。
1：保留中心区域
2：填充（空白填充与反射填充）
（这里填充区域不参与回归损失，不必担心填充部分出现了目标）
在这里插入图片描述

弱监督分支

使用 resnet + FPN 结构，FCOS的头部网络用于regerssion
如何设置监督呢？
使用外接水平框作为监督，作者说明，这样会导致一个问题，即无法准确预测出RBox，导致如下情况出现
在这里插入图片描述

自监督分支

作为ws分支的补充，ss分支只包含回归，不包含分类，这意味着ss就是用来优化网络对于框回归的学习，即xywha
简单回忆一下旋转变换矩阵
在这里插入图片描述
回忆FCOS学习xl xr yl yr四个参数，结合centerness完成label assignment。由于外接水平框一定满足，中心与原始旋转框中心重合，故旋转框需要学习的参数有w h theta，显然当w h都准确时，为了外接矩形与gtH相等，theat只有两种情况。在这里插入图片描述
$B_{ss}^s = S(R\cdot B_{ws}^c)$
这里等式左边代表ss分支预测的镜像框，右侧S代表水平翻转变换（因为中心对称，称垂直翻转也可），R代表旋转矩阵（即，由 $\theta$ 得到的旋转矩阵，角度为ss的旋转角）， $B_{ws}^c$ 为ws分支预测的框coincident rbox

（下面几句话我不能理解）
The final SS learning consists of scale-consistent and spatial-location-consistent learning:
$\langle R\cdot B_{ws},B_{ss} \rangle$
Fig. 4(b) shows the visualization by using the SS loss, with accurate predictions. The appendix
shows visualizations of feasible solutions for different combinations of constraints.
（主要是我不认为这样就能确定出一个旋转框，让我们接着看吧）

label assignment

作者：ws分支与ss分支的一致性可以通过设置中心点损失和角度损失，来学习。
ws 分支预测的rb用于监督ss分支预测出来的rbox。并且图中每一个像素点的centerness category target GT Hbox应该保持一致。
1)一对一，每一个原图点对应到ss图点，用其rb对应的Hb作为监督
2)一对多，最接近中心点的rb用来监督ss分支rb
在这里插入图片描述
（说实话，这几句，我似懂非懂，也不知道自己理解的对不对，还是得从代码入一下）