Trans论文 | Proposal Learning用于半监督的目标检测

2023-11-21 02:21

本文主要是介绍Trans论文 | Proposal Learning用于半监督的目标检测,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

春暖

花开

今年的疫情给大家带来了很多的不便,但是我们“计算机视觉战队”依然坚守自己岗位,给关注我们的同学带来新的分享,今年我们大家一起加油!今天我们主要还是说一说目标检测的知识,这个框架主要来源于TRANS顶级期刊。 

概要

这次分享的以半监督目标检测为研究对象,通过对有标签和无标签数据的训练,提高了基于候选的目标检测器(即two-stages目标检测器)的检测精度。然而,由于真值标签的不可用性,在未标记的数据上训练目标检测器是非常重要的。

为了解决这个问题,于是就提出了一个 proposal learning方法从标记和未标记的数据中学习候选的特征和预测。该方法由自监督候选学习模块和基于一致性的候选学习模块组成。在自监督候选学习模块中,分别提出了一个候选位置损失和一个对比损失来学习上下文感知和噪声鲁棒的候选特征;在基于一致性的候选学习模块中,将一致性损失应用于候选的边界框分类和回归预测,以学习噪声稳健的候选特征和预测。

最后,在COCO数据集上对所有可用的有标签和无标签数据进行了实验。结果表明,新方法一致地提高了全监督基线的精度。特别是在结合了数据蒸馏之后,新方法与全监督基线和数据蒸馏基线相比,平均提高AP约2.0%和0.9%。

新框架

 Problem Definition

在半监督目标检测( Semi-Supervised Object Detec-

tion (SSOD) )中,一组标记数据D_l={(I,G)}和一组给出了未标记数据的D_u={I},其中I和G分别表示图像和真值标签。在目标检测中,G由一组具有位置和目标类的对象组成。SSOD的目标是训练目标检测器,包括标记数据D_l和未标记数据D_u。

The Overall Framework

对于每一个标记数据(I,G)∈D_l,根据标准的全监督损失定义训练目标检测器是简单的,如下公式:

其中第二项分别表示RPN损失和R-CNN损失。该损失在反向传播过程中优化θb、θrpn、θr-cnn、θcls、θreg去训练目标检测器。有关损失函数的更多详细信息,请参见:

Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster R-CNN: Towards real-time object detection with region proposal networks. IEEE transactions on pattern analysis and machine intelligence, 39(6):1137–1149, 2017

将上面公式中定义的标准全监督损失应用于标记数据dL,将自监督候选学习损失Lself和基于一致性的候选学习损失Lcons应用于未标记数据dU。通过优化反向传播过程中的损失方程中的θb,θrpn,θr-cnn,θcls,θreg,θself,对目标检测器进行了训练:

然后将总损失写成如下:

 Self-Supervised Proposal Learning

为了计算对比损失,使用instance discrimination作为pretext task:

结合上面的两个公式中的候选位置损失以及对比损失,自监督的候选学习损失写为:

 Consistency-Based Proposal Learning

为了进一步训练抗噪声目标检测器,应用一致性损失来确保噪声候选预测与其原始候选预测之间的一致性。更准确地说,将一致性损失应用于边界框分类和回归预测。对于边界框分类预测C的一致性损失,使用KL散度作为损失,以强制噪声候选的类预测及其原始候选一致。

为了进一步确保候选预测的一致性,在下列公式中计算一致性损失,以强制来自噪声候选的目标位置预测及其原始候选一致:

结合上面的两个公式,基于一致性的候选学习损失如下:

实验

如果想加入我们“计算机视觉战队”,请扫二维码加入学习群。计算机视觉战队主要涉及机器学习、深度学习等领域,由来自于各校的硕博研究生组成的团队,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。

这篇关于Trans论文 | Proposal Learning用于半监督的目标检测的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/399174

相关文章

Python如何实现PDF隐私信息检测

《Python如何实现PDF隐私信息检测》随着越来越多的个人信息以电子形式存储和传输,确保这些信息的安全至关重要,本文将介绍如何使用Python检测PDF文件中的隐私信息,需要的可以参考下... 目录项目背景技术栈代码解析功能说明运行结php果在当今,数据隐私保护变得尤为重要。随着越来越多的个人信息以电子形

SpringBoot使用Apache Tika检测敏感信息

《SpringBoot使用ApacheTika检测敏感信息》ApacheTika是一个功能强大的内容分析工具,它能够从多种文件格式中提取文本、元数据以及其他结构化信息,下面我们来看看如何使用Ap... 目录Tika 主要特性1. 多格式支持2. 自动文件类型检测3. 文本和元数据提取4. 支持 OCR(光学

如何用Java结合经纬度位置计算目标点的日出日落时间详解

《如何用Java结合经纬度位置计算目标点的日出日落时间详解》这篇文章主详细讲解了如何基于目标点的经纬度计算日出日落时间,提供了在线API和Java库两种计算方法,并通过实际案例展示了其应用,需要的朋友... 目录前言一、应用示例1、天安门升旗时间2、湖南省日出日落信息二、Java日出日落计算1、在线API2

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

基于 YOLOv5 的积水检测系统:打造高效智能的智慧城市应用

在城市发展中,积水问题日益严重,特别是在大雨过后,积水往往会影响交通甚至威胁人们的安全。通过现代计算机视觉技术,我们能够智能化地检测和识别积水区域,减少潜在危险。本文将介绍如何使用 YOLOv5 和 PyQt5 搭建一个积水检测系统,结合深度学习和直观的图形界面,为用户提供高效的解决方案。 源码地址: PyQt5+YoloV5 实现积水检测系统 预览: 项目背景

JavaFX应用更新检测功能(在线自动更新方案)

JavaFX开发的桌面应用属于C端,一般来说需要版本检测和自动更新功能,这里记录一下一种版本检测和自动更新的方法。 1. 整体方案 JavaFX.应用版本检测、自动更新主要涉及一下步骤: 读取本地应用版本拉取远程版本并比较两个版本如果需要升级,那么拉取更新历史弹出升级控制窗口用户选择升级时,拉取升级包解压,重启应用用户选择忽略时,本地版本标志为忽略版本用户选择取消时,隐藏升级控制窗口 2.

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear