Transformer with Transfer CNN for Remote-Sensing-Image Object Detection

2024-04-18 14:04

本文主要是介绍Transformer with Transfer CNN for Remote-Sensing-Image Object Detection,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

遥感图像(RSI)中的目标检测始终是遥感界一个充满活力的研究主题。 最近,基于深度卷积神经网络 (CNN) 的方法,包括基于区域 CNN 和基于 You-Only-Look-Once 的方法,已成为 RSI 目标检测的事实上的标准。 CNN 擅长局部特征提取,但在捕获全局特征方面存在局限性。 然而,基于注意力的变压器可以获取远距离的 RSI 关系。 因此,本研究对用于遥感目标检测(TRD)的变压器进行了研究。 具体来说,所提出的 TRD 是 CNN 和带有编码器和解码器的多层 Transformer 的组合。 为了从 RSI 中检测对象,修改后的 Transformer 被设计为聚合多个尺度上的全局空间位置的特征,并对成对实例之间的交互进行建模。 然后,由于源数据集(例如ImageNet)和目标数据集(即RSI数据集)差异较大,为了减少数据集之间的差异,将TRD与传输CNN(T- 提出了基于注意力机制的TRD)来调整预训练模型以实现更好的RSI目标检测。 由于Transformer的训练总是需要丰富的、注释良好的训练样本,而RSI目标检测的训练样本数量通常是有限的,为了避免过拟合,数据增强与Transformer相结合来提高RSI的检测性能 。 所提出的带有数据增强的 T-TRD(T-TRD-DA)在两个广泛使用的数据集(即 NWPU VHR-10 和 DIOR)上进行了测试,实验结果表明所提出的模型提供了有竞争力的结果(即, 与竞争基准方法相比,百倍平均精度为 87.9 和 66.8,最多分别比 NWPU VHR-10 和 DIOR 数据集上的比较方法高出 5.9 和 2.4,这表明基于 Transformer 的方法打开了 RSI 对象检测的新窗口。
在这里插入图片描述
综上所述,本研究的主要贡献如下。
(1) 提出了一种基于 Transformer 的端到端 RSI 对象检测框架 TRD,其中对 Transformer 进行了改造,以有效地集成全局空间位置的特征并捕获特征嵌入和对象实例的关系。 此外,引入可变形注意模块作为所提出的TRD的重要组成部分,它仅关注稀疏的采样特征集并缓解高计算复杂度的问题。 因此,TRD 可以处理多个尺度的 RSI,并从 RSI 中识别出感兴趣的对象。
(2)使用预训练的CNN作为特征提取的主干。 此外,为了减轻两个数据集(即ImageNet和RSI数据集)之间的差异,T-TRD中使用注意力机制对特征进行重新加权,进一步提高了RSI检测性能。 因此,预训练的主干可以更好地迁移并获得有判别性的金字塔特征。
(3)数据增强,包括样本扩展和多样本融合,用于丰富训练样本的方向、尺度和背景的多样性。 在提出的 T-TRD-DA 中,减轻了使用不足的训练样本进行基于 Transformer 的 RSI 目标检测的影响。

在这里插入图片描述
所提出的基于 Transformer 的 RSI 对象检测框架的概述架构。
在这里插入图片描述
图 2 显示了拟议 TRD 的框架。 首先使用 CNN 主干从 RSI 中提取金字塔多尺度特征图。 然后将它们嵌入 2D 位置编码并转换为可以输入 Transformer 的序列。 Transformer 被改造,以处理图像嵌入序列并对检测到的对象实例进行预测。
Transformer 中的 MHSA 聚合了输入的元素,并且不区分它们的位置; 因此,Transformer 具有排列不变性。 为了缓解这个问题,我们需要在特征图中嵌入空间信息。 因此,𝐿之后
-级特征金字塔{𝒙𝑙}𝐿𝑙=1 从卷积主干中提取,在每个级别补充二维位置编码。 具体来说,将原始 Transformer 的正弦和余弦位置编码分别扩展到列和行位置编码。 它们都是通过对行或列的维度以及𝑑的一半进行编码获得的
通道,然后复制到另一个空间维度。 最终的位置编码与它们连接起来。

为了增强小物体实例的检测性能,探索了利用多尺度特征图的想法,其中低层次和高分辨率的特征图有利于识别小物体。 然而,高分辨率特征图导致传统的基于 MHSA 的 Transformer 的计算和存储复杂度很高,因为 MHSA 层测量每对参考点的兼容性。 相比之下,可变形注意力模块仅关注参考点周围几个自适应位置处的一组固定数量的基本采样点,这极大地降低了计算和存储复杂度。 因此,Transformer可以有效地扩展到RSI多尺度特征的聚合。
图 3 显示了可变形注意力模块的示意图。 该模块为每个尺度级别中的每个元素生成特定数量的采样偏移和注意力权重。 不同级别地图采样位置的特征被聚合为空间和比例感知元素。
在这里插入图片描述

这篇关于Transformer with Transfer CNN for Remote-Sensing-Image Object Detection的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/914982

相关文章

Java中Object类的常用方法小结

《Java中Object类的常用方法小结》JavaObject类是所有类的父类,位于java.lang包中,本文为大家整理了一些Object类的常用方法,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. public boolean equals(Object obj)2. public int ha

深入探讨Java 中的 Object 类详解(一切类的根基)

《深入探讨Java中的Object类详解(一切类的根基)》本文详细介绍了Java中的Object类,作为所有类的根类,其重要性不言而喻,文章涵盖了Object类的主要方法,如toString()... 目录1. Object 类的基本概念1.1 Object 类的定义2. Object 类的主要方法3. O

lvgl8.3.6 控件垂直布局 label控件在image控件的下方显示

在使用 LVGL 8.3.6 创建一个垂直布局,其中 label 控件位于 image 控件下方,你可以使用 lv_obj_set_flex_flow 来设置布局为垂直,并确保 label 控件在 image 控件后添加。这里是如何步骤性地实现它的一个基本示例: 创建父容器:首先创建一个容器对象,该对象将作为布局的基础。设置容器为垂直布局:使用 lv_obj_set_flex_flow 设置容器

【Python报错已解决】AttributeError: ‘list‘ object has no attribute ‘text‘

🎬 鸽芷咕:个人主页  🔥 个人专栏: 《C++干货基地》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! 文章目录 前言一、问题描述1.1 报错示例1.2 报错分析1.3 解决思路 二、解决方法2.1 方法一:检查属性名2.2 步骤二:访问列表元素的属性 三、其他解决方法四、总结 前言 在Python编程中,属性错误(At

深度学习实战:如何利用CNN实现人脸识别考勤系统

1. 何为CNN及其在人脸识别中的应用 卷积神经网络(CNN)是深度学习中的核心技术之一,擅长处理图像数据。CNN通过卷积层提取图像的局部特征,在人脸识别领域尤其适用。CNN的多个层次可以逐步提取面部的特征,最终实现精确的身份识别。对于考勤系统而言,CNN可以自动从摄像头捕捉的视频流中检测并识别出员工的面部。 我们在该项目中采用了 RetinaFace 模型,它基于CNN的结构实现高效、精准的

Docker远程连接和Docker Remote Api

在Docker生态系统中一共有3种API:Registry API、Docker Hub API、Docker Remote API 这三种API都是RESTful风格的。这里Remote API是通过程序与Docker进行集成和交互的核心内容。 Docker Remote API是由Docker守护进程提供的。默认情况下,Docker守护进程会绑定到一个所在宿主机的套接字:unix:///v

时间序列|change point detection

change point detection 被称为变点检测,其基本定义是在一个序列或过程中,当某个统计特性(分布类型、分布参数)在某时间点受系统性因素而非偶然因素影响发生变化,我们就称该时间点为变点。变点识别即利用统计量或统计方法或机器学习方法将该变点位置估计出来。 Change Point Detection的类型 online 指连续观察某一随机过程,监测到变点时停止检验,不运用到

如何将卷积神经网络(CNN)应用于医学图像分析:从分类到分割和检测的实用指南

引言 在现代医疗领域,医学图像已经成为疾病诊断和治疗规划的重要工具。医学图像的类型繁多,包括但不限于X射线、CT(计算机断层扫描)、MRI(磁共振成像)和超声图像。这些图像提供了对身体内部结构的详细视图,有助于医生在进行准确诊断和制定个性化治疗方案时获取关键的信息。 1. 医学图像分析的挑战 医学图像分析面临诸多挑战,其中包括: 图像数据的复杂性:医学图像通常具有高维度和复杂的结构

error while loading shared libraries: libnuma.so.1: cannot open shared object file:

腾讯云CentOS,安装Mysql时: 1.yum remove libnuma.so.1 2.yum install numactl.x86_64

Transformer从零详细解读

Transformer从零详细解读 一、从全局角度概况Transformer ​ 我们把TRM想象为一个黑盒,我们的任务是一个翻译任务,那么我们的输入是中文的“我爱你”,输入经过TRM得到的结果为英文的“I LOVE YOU” ​ 接下来我们对TRM进行细化,我们将TRM分为两个部分,分别为Encoders(编码器)和Decoders(解码器) ​ 在此基础上我们再进一步细化TRM的