多篇论文介绍-可变形卷积

2023-11-22 16:36

本文主要是介绍多篇论文介绍-可变形卷积,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

01 具有双层路由注意力的 YOLOv8 道路场景目标检测方法

01 摘要:

随着机动车的数量不断增加,道路交通环境变得更复杂,尤其是光照变化以及复杂背景都会干扰目标检测算法的准确性和精度,同时道路场景下多变形态的目标也会给检测任务造成干扰,针对这一系列问题,提出了一种YOLOv8n_T方法,在YOLOv8的基础上首先针对骨干网络构建了基于可变形卷积的D_C2f块,强化了特征提取网络对复杂背景下目标的特征学习,更好地适应道路目标复杂多变的情形;其次增加了双层路由注意力模块,以查询自适应的方式去除不相关的区域,留下相关度最高的区域;最后针对道路上行人、交通灯等小目标增加小目标检测层,实验表明,提出的 YOLOv8n_T有效提高了模型在道路场景下的目标检测精度,在BDD100K数据集上的平均精度比原始YOLOv8n提升了6.8个百分点,比YOLOv5n提升了11.2个百分点。

关键词:可变形卷积;道路场景;目标检测;YOLO;注意力机制

02 模块介绍

在道路场景下,车辆行人等目标多样且复杂,由于目标的大小、形状、位置、方向等都育有一定的变化性,因此使用传统的卷积操作往往难以准确地捕获目标的准确位置,甚至可能会导致目标漏检或误检的问题。为了解决上述问题,本文采用 DAI等4提出的可变形卷积网络,重新构建了YOLOv8算法中C2f网络结构来提升网络的检测能力。
        在传统卷积中,每个卷积核都是固定形状的,因此无法处理物体形变的情况。而可变形卷积中,每个卷积核不再是一个固定的矩形,而是由一个基础网格和一组偏移量共同组成的可变形矩形。在进行卷积操作时,可以根据形状偏移量动态地调整卷积核的形态,从而更好地适应物体的形变。

 

02 基于空间注意力和可变形卷积的田间障碍物检测方法

01 摘要

摘要:为了解决传统田间障碍物识别方法依赖人工提取特征,计算耗时较长,难以实现在非结构化田间环境下实时作业识别的问题,提出一种优化的Mask R-CNN模型的非结构化农田障碍物实例分割方法。以ResNet50残差网络为基础,将空间注意力(Spatial attention, SA)引入残差结构,聚焦跟踪目标的显著性表观特征并主动抑制噪声等无用特征的影响;引入可变形卷积(Deformable convolution, DCN),通过加入偏移量,增大感受野,提高模型的鲁棒性。构建包含农田典型障碍物的数据集,通过对比实验研究在ResNet残差网络结构中的不同阶段中加入空间注意力和可变形卷积时的模型性能差异。结果表明,与Mask R-CNN原型网络相比,在ResNet的阶段2、阶段3、阶段5加入空间注意力和可变形卷积后,改进Mask R-CNN的边界框(Bbox)和掩膜(Mask)的平均精度均值(mAP)分别从、64.5%、56.9%提高到71.3%、62.3%。本文提出的改进Mask R-CNN可以很好地实现农田障碍物检测,可为植保无人机在非结构化农田环境下安全高效工作提供技术支撑。
关键词:田间障碍物;Mask R-CNN;空间注意力;可变形卷积

02 模块介绍

        由于非结构化田间障碍物形态各异,面积大小不一,这给障碍物识别任务带来了很大的困难,而且以往的卷积神经网络对整体特征的提取是依靠其固定的卷积结构,对于形态各异的目标特征提取的适应、调节能力较弱,目标识别能力不强,泛化能力差。实际上,传统的神经网络的卷积核通常是固定尺寸、固定大小的(3×3、5×5),难以自适应目标的形状变化[25]。为了解决限制传统卷积神经网络识别能力的这一难题,DAI等126提出了一种可变形卷积网络,替代传统的标准卷积,经研究表明,通过可变形卷积网络增加可训练的偏移量,从而适应目标形状的变化,有利于提高目标检测的鲁棒性[34-36]

        二维卷积的操作步骤为:①在输入特征图x上使用规则网格 R 进行采样;②用 加权的采样值进行求和。 一个 3×3 的卷积为

 

03 改进 YOLOv5 的高精度跌倒检测算法

01 摘要

摘要:针对原始YOLOv5在人体跌倒检测任务中无法有效应对复杂细节捕捉、变形处理、不同尺度目标适应和遮挡检测的困境,提出了一种基于C2D改进YOLOv5模型的新型高精度跌倒检测算法C2D-YOLO。首先,提出了一种名为C2D的新型特征提取模块,通过融合可变形卷积、标准卷积和通道空间混合注意机制,将其添加到主干网络中,旨在增强特征表征能力、更好地捕捉复杂细节和处理变形。其次,在颈部网络中,采用了Swin Transformer Block替代C3模块的瓶颈层,旨在最大限度地保留特征信息,以提升对不同尺度目标的检测精度并改善遮挡情况下的性能。最后,在借鉴YOLOX解耦结构的基础上对Yolov5的Head模块进行改进,旨在优化分类和回归性能。实验结果表明,相比现有的YOLOv5s,该方法的mAPO.5和mAP0.5:0.95分别提高了3.2%和6.5%,明显提升了检测精度,减少了误检率。
关键词: YOLOv5;跌倒检测; C2D; Swim Transformer Block;解耦结构

02 模块介绍

        跌倒检测任务场景具备独特且复杂的特征,包括广泛的姿态变化、丰富的细节以及目标形变。因此,在特征提取阶段仅使用标准卷积会导致一系列问题。首先,仅采用标准卷积( Standard Convolution, sC137)可能未能有效捕捉目标的细粒度细节,尤其是在涉及姿态较大的跌倒动作时,其感受野调整能力有限,导致细节信息的丢失或模糊。其次,标准卷积无法适应目标的形变,无法自适应地调整卷积核的采样位置,导致目标的定位准确性下降,容易产生误检。
        为了适应跌倒检测场景的特点并弥补仅使用标准卷积的不足,在特征提取阶段引入了可变形卷积第二版(Deformable ConvNets version 2,DCNv2[38] ) 。

        DCNv2通过引入可学习的形变参数,具备更强的感受野调整能力,能够更好地捕捉目标的细粒度细节并适应目标的形变。这种模块的引入填补了标准卷积在跌倒检测中的局限性,提升了特征表示能力和目标定位准确性,从而有效提升跌倒检测系统的性能和鲁棒性。这种优化方法能够更准确地检测和识别跌倒事件,提高整个系统在复杂场景下的可靠性。
        可变形卷积DCN是一种改进的卷积操作,通过引入偏移量来调整卷积核的形状,以更好地提取输入特征。DCNv2是对可变形卷积的改进,通过学习偏移和加权,提高了模型从变形物体中提取特征的能力。如图2所示,DCNv2包含两个步骤。首先是偏移量生成:通过卷积操作生成卷积核在输入特征图上沿着x和y方向的采样点偏移量。其次是采样和卷积:利用输入特征图和计算得到的偏移量进行双线性插值,确定卷积核在输入特征图上的采样点位置。最后,利用这些采样点进行卷积操作。

04 改进 YOLOv8 算法的遥感图像目标检测

01 摘要

摘要:针对遥感图像目标检测算法漏检和误检率高、目标定位不精确、无法准确识别目标类别等问题,提出一种改进YOLOv8的目标检测算法。为提高模型的损失函数对梯度分配的灵活性,适应各种形状和尺寸的物体,设计了非单调聚焦机制与边界框几何因素相结合的边界框回归损失函数;为扩大模型的感受野并削弱遥感图像背景对检测目标的影响,采用全局注意力机制与残差块结合的方式,设计了残差全局注意力机制;为使模型适应遥感图像中目标物体的形变与不规则排列,对YOLOv8模型中的C2f模块进行改进,融入可变形卷积与可变形RoI池化层。实验结果表明,在 DOTA数据集和RSOD数据集上,改进YOLOv8算法的mAP@0.5达到72.1%和94.6%,优于其它对比主流算法,提高了遥感图像目标检测的精度,为遥感图像识别提供了新的手段。
关键词目标检测;YOLOv8;WloU;GAM注意力机制;可变形卷积

02 模块介绍

        传统的卷积操作中,卷积核具有固定的像素点的位置,对输入图像的每个位置应用相同的卷积核。而在实际上,不同位置的图像可能具有不同的形变,常规卷积无法适应遥感图像的不规则布局与非刚性形变,因此可能导致遥感目标的特征提取不准确。
        以3*3卷积为例,普通卷积对于每一个输出特征图y,都要从输入特征图进行规则采样,再经过加权计算。其中采样是以中心位置向四周扩散得到的9个点,所得到的网格定义为R,如式( 16)所示

05 基于 SimAM 注意力机制的 DCN-YOLOv5 水下目标检测

01 摘要

摘要:【目的】针对水下环境复杂,水下目标因光线折射等问题导致的目标边界模糊或外观、形状可能会发生非刚性形变,使水下目标检测困难,提出了一种基于SimAM注意力机制的 DCN-YOLOv5水下目标检测方法。【方法】首先,采用YOLOv5所使用的双向金字塔网络(BiFPN, Bi-directional Feature Pyramid Network)在多个尺度上提取和融合特征信息,从而提高目标辨别的准确度;其次,针对水下目标的外观、形状的变化问题,将C3模块中的CBS模块结合可变形卷积(DCN, Deformable Convolution),提出DBS模块并组成D3模块替换部分C3模块,以适应水下目标的外观、形状的变化;同时,融入加权注意力机制(SimAM自适应地调节模型的关注度,进一步在复杂场景下增强特征表达能力;最后,考虑目标边界模糊,为改善目标定位精度,采用WIloU(Wise-loU)损失函数来替换交叉嫡损失,能够更好地适应不同目标类型和尺寸的特点,提高算法鲁棒性。【结果】实验结果表明,DCN-YOLOv5可以达到87.57%的平均精度(mAP),检测效果优于YOLOv5网络和其他经典网络,平均每张图像的识别时间仅为24.5ms。【结论】通过实验结果可以证明模型在检测精度明显提升的同时兼顾检测的实时性,对水下目标检测用于实际用途有着一定的参考价值。
关键词:水下目标检测; SimAM注意力机制;可变形卷积; WloU

02 模块介绍

        深度学习领域中,为了更好地捕捉和建模非刚性形态,Dai等[16提出了可变形卷积(DCN),DCN 通过添加可学习的偏移量的卷积层和全连接层,改进了传统的固定卷积核。这种改进使得模型能够根据不同物体或结构的形状变化来调整卷积核的大小和形状。通过降低模型的复杂性,DCN能够更好地适应图像中的目标,并提高对非刚性变形和遮挡等复杂情况的处理能力。Zhu等[17提出的DCNv2通过更全面地整合可变形卷积的特性,并引入了扩展可变形建模范围的调节机制,进一步提高了可变形卷积模型的建模能力。相比于DCN,DCNv2不仅能够调整感知输入特征的偏移量,还可以调节来自不同空间位置的输入特征的幅度,使得DCNv2在处理自适应能力有限问题方面表现出更好的性能。DCNv2的计算公式如式(2)一式(4)所示。

并获得更准确的像素值。

06 基于 YOLOv5 的无人机航拍改进目标检测算法 Dy-YOLO

01 摘要

摘要:由于无人机航拍具有场景复杂多样,目标尺度变化剧烈,高速低空运动模糊等诸多特性,给目标检测带来了很大的挑战.针对无人机航拍目标检测效果不佳的问题,提出了Dy-YOLO模型,在YOLOv5的基础上引入Dynamic Head注意力,从尺度感知、空间位置、多任务3个角度探索具有注意力机制的预测头潜力;设计了C3-DCN结构和Dymamic Head注意力相互配合增强特征提取能力;此外,还使用SimOTA标签分配方式来弥补小样本的损失,并使用CARAFE ( content-aware ressembly of features)上采样算子,有效增强了不同卷积特征图的融合效果.在VisDrone2019测试集上,Dy-YOLO检测的平均均值精度达到了38.2%,较基线方法YOLOv5提高了7.1%,同时与主流的检测方法相比也取得更高的检测精度.结果表明,Dy-YOLO算法对于无人机航拍检测任务具有较好的性能.
关键词:目标检测;注意力机制; 无人机航拍;YOLOv5;可变形卷积网络
 

02 模块介绍

        Dynamic Head中提到,主干中使用可变形卷积(deformable convolutional network,DCN) [24可以与所提出的动态头部互补,传统的卷积采用固定尺寸的卷积核,在感受野内使用固定的权重进行特征提取,不能很好地适应几何形变,而可变形卷积通过引入额外的可学习参数来动态地调整感受野中不同位置的采样位置和权重,这使得可变形卷积能够在处理具有形变、遮挡或不规则形状的图像时更加有效.但是 DCN 的一大缺陷在于,其采样点经过偏移之后的新位置会超出我们理想中的采样位置,导致部分可变形卷积的卷积点可能是一些和物体内容不相关的部分;DCNv2[2$l则针对偏移干扰问题引入了一种调制机制:

07 改进DenseNet 在抽油井示功图故障诊断的研究

01 摘要

摘要:油田开采主要采用有杆抽油机。对其进行故障检查采用的主要是人工方法,不仅耗费大量的人力和财力,而且识别结果易受到经验因素影响。示功图可以反映有杆抽油机井的工作状态,可用于抽油机故障类型检测。因此,本文提出了一种基于DenseNet注重动态调整特征提取的模型来进行示功图分类,在传统卷积神经网络的基础上加入可变形卷积,使用Focal-Loss 损失函数替代交叉嫡损失函数,通过Adam优化算法加快网络的收敛速度,实现了12种工况模式的识别。关键词深度学习;图像分类;示功图;密集连接卷积网络

02 模块介绍

        与传统模型相比,DenseNet-DC 模型构建了更加注重动态调整特征提取的网络结构:摒弃传统模 型 3 × 3 密集层卷积设计,将其替换为可变形卷积,针对不同输入,动态调整感受野,更有利于网络的训练和学习。可变形卷积模块中对于输出的特征图P上的点xo定义为公式(1):

\

08  一种基于深度学习模型的无人机巡检输电线路山火检测方法

01 摘要

摘要:输电巡检图像的背景复杂,目标检测易受干扰,基于YOLOX神经网络模型,提出一种输电线路山火检测方法。首先采用YOLOX的主干特征提取网络框架,并将其中多尺度特征提取模块的常规卷积替换为可变形卷积;其次在加强特征提取阶段增加了通道注意力和空间注意力模块的融合,能够自适应火焰的外形多变特点,更加有效地提取到山火特征,从而提高目标检测的准确率。经实验验证,所提方法能够较为准确地检测到山火,满足日常巡检的需求。
关键词:输电线路巡检;山火识别;神经网络;目标检测; YOLOX

02 模块介绍

        在 YOLOX 网络中,多尺度特征由空间金字塔池化模块提取。该模块采样的区域是固定的形状,其限制了网络对烟火的识别能力。可变形卷积网络l5l将常规卷积修改为可变形卷积。常规标准卷积核为固定方形,而可变形卷积为每个卷积的采样点加上了一个偏移量,当偏移为小数时,需要通过双线性插值⒁变换将所有新的采样点聚集起来形成新的特征图,保证空间分辨率不变。可变卷积的引入使得感受野的形状不再固定,可以更好地匹配山火燃烧时外形变化的特点。基于可变形卷积,本文修改了多尺度特征提取模块。

这篇关于多篇论文介绍-可变形卷积的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/411461

相关文章

性能测试介绍

性能测试是一种测试方法,旨在评估系统、应用程序或组件在现实场景中的性能表现和可靠性。它通常用于衡量系统在不同负载条件下的响应时间、吞吐量、资源利用率、稳定性和可扩展性等关键指标。 为什么要进行性能测试 通过性能测试,可以确定系统是否能够满足预期的性能要求,找出性能瓶颈和潜在的问题,并进行优化和调整。 发现性能瓶颈:性能测试可以帮助发现系统的性能瓶颈,即系统在高负载或高并发情况下可能出现的问题

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

csu(背包的变形题)

题目链接 这是一道背包的变形题目。好题呀 题意:给n个怪物,m个人,每个人的魔法消耗和魔法伤害不同,求打死所有怪物所需的魔法 #include<iostream>#include<algorithm>#include<cstring>#include<stack>#include<queue>#include<set>//#include<u>#include<map

hdu3389(阶梯博弈变形)

题意:有n个盒子,编号1----n,每个盒子内有一些小球(可以为空),选择一个盒子A,将A中的若干个球移到B中,满足条件B  < A;(A+B)%2=1;(A+B)%3=0 这是阶梯博弈的变形。 先介绍下阶梯博弈: 在一个阶梯有若干层,每层上放着一些小球,两名选手轮流选择一层上的若干(不能为0)小球从上往下移动,最后一次移动的胜出(最终状态小球都在地面上) 如上图所示,小球数目依次为

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

C++——stack、queue的实现及deque的介绍

目录 1.stack与queue的实现 1.1stack的实现  1.2 queue的实现 2.重温vector、list、stack、queue的介绍 2.1 STL标准库中stack和queue的底层结构  3.deque的简单介绍 3.1为什么选择deque作为stack和queue的底层默认容器  3.2 STL中对stack与queue的模拟实现 ①stack模拟实现

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear