本文主要是介绍Trans论文 | Proposal Learning用于半监督的目标检测,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
春暖
花开
今年的疫情给大家带来了很多的不便,但是我们“计算机视觉战队”依然坚守自己岗位,给关注我们的同学带来新的分享,今年我们大家一起加油!今天我们主要还是说一说目标检测的知识,这个框架主要来源于TRANS顶级期刊。
概要
这次分享的以半监督目标检测为研究对象,通过对有标签和无标签数据的训练,提高了基于候选的目标检测器(即two-stages目标检测器)的检测精度。然而,由于真值标签的不可用性,在未标记的数据上训练目标检测器是非常重要的。
为了解决这个问题,于是就提出了一个 proposal learning方法从标记和未标记的数据中学习候选的特征和预测。该方法由自监督候选学习模块和基于一致性的候选学习模块组成。在自监督候选学习模块中,分别提出了一个候选位置损失和一个对比损失来学习上下文感知和噪声鲁棒的候选特征;在基于一致性的候选学习模块中,将一致性损失应用于候选的边界框分类和回归预测,以学习噪声稳健的候选特征和预测。
最后,在COCO数据集上对所有可用的有标签和无标签数据进行了实验。结果表明,新方法一致地提高了全监督基线的精度。特别是在结合了数据蒸馏之后,新方法与全监督基线和数据蒸馏基线相比,平均提高AP约2.0%和0.9%。
新框架
Problem Definition
在半监督目标检测( Semi-Supervised Object Detec-
tion (SSOD) )中,一组标记数据D_l={(I,G)}和一组给出了未标记数据的D_u={I},其中I和G分别表示图像和真值标签。在目标检测中,G由一组具有位置和目标类的对象组成。SSOD的目标是训练目标检测器,包括标记数据D_l和未标记数据D_u。
The Overall Framework
对于每一个标记数据(I,G)∈D_l,根据标准的全监督损失定义训练目标检测器是简单的,如下公式:
其中第二项分别表示RPN损失和R-CNN损失。该损失在反向传播过程中优化θb、θrpn、θr-cnn、θcls、θreg去训练目标检测器。有关损失函数的更多详细信息,请参见:
Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster R-CNN: Towards real-time object detection with region proposal networks. IEEE transactions on pattern analysis and machine intelligence, 39(6):1137–1149, 2017
将上面公式中定义的标准全监督损失应用于标记数据dL,将自监督候选学习损失Lself和基于一致性的候选学习损失Lcons应用于未标记数据dU。通过优化反向传播过程中的损失方程中的θb,θrpn,θr-cnn,θcls,θreg,θself,对目标检测器进行了训练:
然后将总损失写成如下:
Self-Supervised Proposal Learning
为了计算对比损失,使用instance discrimination作为pretext task:
结合上面的两个公式中的候选位置损失以及对比损失,自监督的候选学习损失写为:
Consistency-Based Proposal Learning
为了进一步训练抗噪声目标检测器,应用一致性损失来确保噪声候选预测与其原始候选预测之间的一致性。更准确地说,将一致性损失应用于边界框分类和回归预测。对于边界框分类预测C的一致性损失,使用KL散度作为损失,以强制噪声候选的类预测及其原始候选一致。
为了进一步确保候选预测的一致性,在下列公式中计算一致性损失,以强制来自噪声候选的目标位置预测及其原始候选一致:
结合上面的两个公式,基于一致性的候选学习损失如下:
实验
如果想加入我们“计算机视觉战队”,请扫二维码加入学习群。计算机视觉战队主要涉及机器学习、深度学习等领域,由来自于各校的硕博研究生组成的团队,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。
这篇关于Trans论文 | Proposal Learning用于半监督的目标检测的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!