Trans论文 | Proposal Learning用于半监督的目标检测

2023-11-21 02:21

本文主要是介绍Trans论文 | Proposal Learning用于半监督的目标检测,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

春暖

花开

今年的疫情给大家带来了很多的不便,但是我们“计算机视觉战队”依然坚守自己岗位,给关注我们的同学带来新的分享,今年我们大家一起加油!今天我们主要还是说一说目标检测的知识,这个框架主要来源于TRANS顶级期刊。 

概要

这次分享的以半监督目标检测为研究对象,通过对有标签和无标签数据的训练,提高了基于候选的目标检测器(即two-stages目标检测器)的检测精度。然而,由于真值标签的不可用性,在未标记的数据上训练目标检测器是非常重要的。

为了解决这个问题,于是就提出了一个 proposal learning方法从标记和未标记的数据中学习候选的特征和预测。该方法由自监督候选学习模块和基于一致性的候选学习模块组成。在自监督候选学习模块中,分别提出了一个候选位置损失和一个对比损失来学习上下文感知和噪声鲁棒的候选特征;在基于一致性的候选学习模块中,将一致性损失应用于候选的边界框分类和回归预测,以学习噪声稳健的候选特征和预测。

最后,在COCO数据集上对所有可用的有标签和无标签数据进行了实验。结果表明,新方法一致地提高了全监督基线的精度。特别是在结合了数据蒸馏之后,新方法与全监督基线和数据蒸馏基线相比,平均提高AP约2.0%和0.9%。

新框架

 Problem Definition

在半监督目标检测( Semi-Supervised Object Detec-

tion (SSOD) )中,一组标记数据D_l={(I,G)}和一组给出了未标记数据的D_u={I},其中I和G分别表示图像和真值标签。在目标检测中,G由一组具有位置和目标类的对象组成。SSOD的目标是训练目标检测器,包括标记数据D_l和未标记数据D_u。

The Overall Framework

对于每一个标记数据(I,G)∈D_l,根据标准的全监督损失定义训练目标检测器是简单的,如下公式:

其中第二项分别表示RPN损失和R-CNN损失。该损失在反向传播过程中优化θb、θrpn、θr-cnn、θcls、θreg去训练目标检测器。有关损失函数的更多详细信息,请参见:

Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster R-CNN: Towards real-time object detection with region proposal networks. IEEE transactions on pattern analysis and machine intelligence, 39(6):1137–1149, 2017

将上面公式中定义的标准全监督损失应用于标记数据dL,将自监督候选学习损失Lself和基于一致性的候选学习损失Lcons应用于未标记数据dU。通过优化反向传播过程中的损失方程中的θb,θrpn,θr-cnn,θcls,θreg,θself,对目标检测器进行了训练:

然后将总损失写成如下:

 Self-Supervised Proposal Learning

为了计算对比损失,使用instance discrimination作为pretext task:

结合上面的两个公式中的候选位置损失以及对比损失,自监督的候选学习损失写为:

 Consistency-Based Proposal Learning

为了进一步训练抗噪声目标检测器,应用一致性损失来确保噪声候选预测与其原始候选预测之间的一致性。更准确地说,将一致性损失应用于边界框分类和回归预测。对于边界框分类预测C的一致性损失,使用KL散度作为损失,以强制噪声候选的类预测及其原始候选一致。

为了进一步确保候选预测的一致性,在下列公式中计算一致性损失,以强制来自噪声候选的目标位置预测及其原始候选一致:

结合上面的两个公式,基于一致性的候选学习损失如下:

实验

如果想加入我们“计算机视觉战队”,请扫二维码加入学习群。计算机视觉战队主要涉及机器学习、深度学习等领域,由来自于各校的硕博研究生组成的团队,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。

这篇关于Trans论文 | Proposal Learning用于半监督的目标检测的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/399174

相关文章

时间服务器中,适用于国内的 NTP 服务器地址,可用于时间同步或 Android 加速 GPS 定位

NTP 是什么?   NTP 是网络时间协议(Network Time Protocol),它用来同步网络设备【如计算机、手机】的时间的协议。 NTP 实现什么目的?   目的很简单,就是为了提供准确时间。因为我们的手表、设备等,经常会时间跑着跑着就有误差,或快或慢的少几秒,时间长了甚至误差过分钟。 NTP 服务器列表 最常见、熟知的就是 www.pool.ntp.org/zo

基于CTPN(tensorflow)+CRNN(pytorch)+CTC的不定长文本检测和识别

转发来源:https://swift.ctolib.com/ooooverflow-chinese-ocr.html chinese-ocr 基于CTPN(tensorflow)+CRNN(pytorch)+CTC的不定长文本检测和识别 环境部署 sh setup.sh 使用环境: python 3.6 + tensorflow 1.10 +pytorch 0.4.1 注:CPU环境

3月份目标——刷完乙级真题

https://www.patest.cn/contests/pat-b-practisePAT (Basic Level) Practice (中文) 标号标题通过提交通过率1001害死人不偿命的(3n+1)猜想 (15)31858792260.41002写出这个数 (20)21702664840.331003我要通过!(20)11071447060.251004成绩排名 (20)159644

【机器学习】半监督学习可以实现什么功能?

目录 一、什么是机器学习二、半监督学习算法介绍三、半监督学习算法的应用场景四、半监督学习可以实现什么功能? 一、什么是机器学习 机器学习是一种人工智能技术,它使计算机系统能够从数据中学习并做出预测或决策,而无需明确编程。它涉及到使用算法和统计模型来分析大量数据,识别其中的模式和关系,并利用这些信息来预测未来事件或做出决策。机器学习可以应用于各种领域,包括图像识别、自然语言

Deep Learning复习笔记0

Key Concept: Embedding: learned dense, continuous, low-dimensional representations of object 【将难以表示的对象(如图片,文本等)用连续的低维度的方式表示】 RNN: Recurrent Neural Network -> for processing sequential data (time se

基于深度学习的轮廓检测

基于深度学习的轮廓检测 轮廓检测是计算机视觉中的一项关键任务,旨在识别图像中物体的边界或轮廓。传统的轮廓检测方法如Canny边缘检测和Sobel算子依赖于梯度计算和阈值分割。而基于深度学习的方法通过训练神经网络来自动学习图像中的轮廓特征,能够在复杂背景和噪声条件下实现更精确和鲁棒的检测效果。 深度学习在轮廓检测中的优势 自动特征提取:深度学习模型能够自动从数据中学习多层次的特征表示,而不需要

自动驾驶---Perception之Lidar点云3D检测

1 背景         Lidar点云技术的出现是基于摄影测量技术的发展、计算机及高新技术的推动以及全球定位系统和惯性导航系统的发展,使得通过激光束获取高精度的三维数据成为可能。随着技术的不断进步和应用领域的拓展,Lidar点云技术将在测绘、遥感、环境监测、机器人等领域发挥越来越重要的作用。         目前全球范围内纯视觉方案的车企主要包括特斯拉和集越,在达到同等性能的前提下,纯视觉方

YOLOv9摄像头或视频实时检测

1、下载yolov9的项目 地址:YOLOv9 2、使用下面代码进行检测 import torchimport cv2from models.experimental import attempt_loadfrom utils.general import non_max_suppression, scale_boxesfrom utils.plots import plot_o

康奈尔大学之论文审稿模型Reviewer2及我司七月对其的实现(含PeerRead)

前言 自从我司于23年7月开始涉足论文审稿领域之后「截止到24年6月份,我司的七月论文审稿GPT已经迭代到了第五版,详见此文的8.1 七月论文审稿GPT(从第1版到第5版)」,在业界的影响力越来越大,所以身边朋友如发现业界有相似的工作,一般都会第一时间发给我,比如本部分要介绍的康奈尔大学的reviewer2 当然,我自己也会各种看类似工作的论文,毕竟同行之间的工作一定会互相借鉴的,我们会学他们

【论文精读】分类扩散模型:重振密度比估计(Revitalizing Density Ratio Estimation)

文章目录 一、文章概览(一)问题的提出(二)文章工作 二、理论背景(一)密度比估计DRE(二)去噪扩散模型 三、方法(一)推导分类和去噪之间的关系(二)组合训练方法(三)一步精确的似然计算 四、实验(一)使用两种损失对于实现最佳分类器的重要性(二)去噪结果、图像质量和负对数似然 论文:Classification Diffusion Models: Revitalizing