可变形卷积颠覆式创新!新SOTA提速80%,更高性能,更强几何适应能力

本文主要是介绍可变形卷积颠覆式创新!新SOTA提速80%,更高性能,更强几何适应能力,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在传统的卷积神经网络中,固定模式的卷积核在处理图像时可能会限制网络对不规则形状特征的提取能力。为了解决这个问题,研究者提出了可变形卷积

可变形卷积是一种改进的卷积操作,它通过引入可学习的偏移量来增强模型对几何变化的适应能力,让网络能够更好地处理不规则形状的物体或特征。

比如D-LKA Attention模型,这种简化的注意力机制受益于可变形卷积,可以灵活地扭曲采样网格,使模型能够适应不同的数据模式,提高模型性能和鲁棒性。在流行的医学分割数据集上的评估结果表明了D-LKA Attention的SOTA性能。

可变形卷积针对传统卷积操作的局限性提出了有效的解决方案,在多个领域显示出了显著的性能提升,可见绝对是个发论文的好方向。本文整理了11种可变形卷积的创新改进方案给各位作参考,包括最新的可变形卷积v4,比v3提速80%。

论文与开源代码需要的同学看文末

D-LKA Attention

Beyond Self-Attention: Deformable Large Kernel Attention for Medical Image Segmentation

主要贡献:

  • 提出了D-LKA Attention,这是一种高效的注意力机制,使用大卷积核来充分理解体积上下文,同时避免了计算开销。

  • 引入了可变形卷积,使模型能够适应不同的数据模式,更好地捕捉医学图像中的变形。

  • 设计了2D和3D版本的D-LKA Net架构,后者在跨深度数据理解方面表现出色。

  • 在多个流行的医学分割数据集上(如Synapse、NIH Pancreas和Skin lesion)的评估表明,D-LKA Net在性能上超越了现有的领先方法。

方法论/创新点:

  • 论文首先回顾了大核注意力(LKA)的概念,并介绍了可变形LKA模块的创新探索。

  • 基于此,提出了用于分割任务的2D和3D网络架构。

  • D-LKA模块通过自适应采样网格来捕捉局部特征,同时通过大核卷积聚合全局信息。

  • 2D和3D D-LKA Net架构都采用了编码器-解码器设计,但在3D情况下,D-LKA机制被调整以适应3D上下文,实现不同体积切片之间的信息无缝交换。

实验:

  • 使用PyTorch框架在单个RTX 3090 GPU上实现了2D和3D模型,并进行了训练。

  • 在多个公开的医学图像分割数据集上进行了评估,包括Synapse多器官分割数据集、ISIC 2017和2018皮肤病变分割数据集以及NIH胰腺数据集。

  • D-LKA Net在这些数据集上取得了优于现有最先进方法的性能。

DCNv4

Efficient Deformable ConvNets: Rethinking Dynamic and Sparse Operator for Vision Applications

主要贡献:

  • 提出了DCNv4,通过两项关键改进优化了DCNv3:1) 移除空间聚合中的softmax归一化,增强动态属性和表达能力;2) 优化内存访问以减少冗余操作,从而加速计算。

  • DCNv4在多个任务上表现出色,包括图像分类、实例和语义分割,以及图像生成。

  • 将DCNv4集成到生成模型中,如U-Net在潜在扩散模型中,DCNv4超越了基线,显示了其提升生成模型的潜力。

方法论/创新点:

  • 通过指令级内核分析,发现DCNv3的内存访问成本占99%,计算成本不到1%,这促使作者重新审视操作实现,并发现许多内存访问是冗余的。

  • 从卷积的无限权重范围中获得灵感,作者发现DCNv3中的softmax归一化是不必要的,因为每个位置都有一个专门的聚合窗口。

  • 通过这些改进,DCNv4不仅在初始训练阶段收敛速度显著快于DCNv3,而且在前向速度上加速了3倍以上。

实验:

  • 在ImageNet分类、实例分割、语义分割和3D对象检测等任务中评估DCNv4的性能,DCNv4在所有任务中均显示出优越的性能。

  • 将DCNv3替换为DCNv4创建的FlashInternImage,在速度上提高了50%至80%,且在不同的模型规模和训练计划下均显示出更快的收敛速度和更好的性能。

  • DCNv4作为通用操作符在其他现代骨干架构中的性能也得到了验证,包括ConvNeXt和ViT,并且在图像生成任务中表现出色。

DAS

DAS: A Deformable Attention to Capture Salient Information in CNNs

主要贡献:

  • 提出了DAS,这是一种快速且简单的全卷积方法,通过使用可变形卷积来定位图像中的相关区域,并使用可分离卷积提高效率。

  • DAS通过门控机制将相关信息传播到现有的CNNs中,与Transformer风格的注意力机制相比,DAS的计算复杂度从O(n^2)降低到O(n)。

  • DAS在图像分类和目标检测任务中,当添加到流行的CNNs(如ResNet50)时,能够提高性能。

方法论/创新点:

  • DAS通过瓶颈层(使用深度可分离卷积)和可变形注意力门来增强CNNs对相关信息的关注。

  • 瓶颈层减少特征图的通道数,并通过实例归一化和GELU非线性激活来增强特征的表示能力。

  • 可变形注意力门使用动态网格来代替标准卷积滤波器中的常规网格,以便更好地关注图像中的相关区域。

  • DAS通过逐点乘法将注意力机制整合到CNN模型中,无需更改网络的主干架构。

实验:

  • 在CIFAR100、Stanford Dogs和ImageNet1k数据集上进行了图像分类实验,并在MS COCO数据集上进行了目标检测实验。

  • DAS在多个基准模型上表现出色,特别是在ResNet和MobileNetV2上,实现了准确性的显著提升。

  • 通过gradCAM热图可视化和显著特征检测(SFD)分数,证明了DAS在关注图像中的显著特征方面的有效性。

D3Dnet

Deformable 3D Convolution for Video Super-Resolution

主要贡献:

  • 提出了D3Dnet,这是一种新的网络结构,能够同时从空间和时间维度整合空间-时间信息,用于视频SR。

  • 引入了Deformable 3D Convolution(D3D),结合了可变形卷积和3D卷积的优点,实现了高效的空间-时间信息利用和自适应运动补偿。

  • 通过大量实验验证了D3D在利用空间-时间信息方面的有效性,并且与现有技术相比,D3Dnet在视频SR性能上达到了最先进的水平。

方法论/创新点:

  • D3D是在传统3D卷积(C3D)的基础上发展而来,通过可学习的偏移量扩大空间感受野,提高了外观和运动建模能力。

  • D3Dnet的框架包括C3D层、多个残差D3D(resD3D)块、瓶颈层以及用于SR重建的级联残差块和子像素层。

  • 训练网络时使用均方误差(MSE)作为损失函数,评估指标包括峰值信噪比(PSNR)、结构相似性指数(SSIM)、基于运动的视频完整性评估指标(MOVIE)和时间MOVIE(T-MOVIE)。

实验:

  • 使用Vimeo-90k数据集进行训练,并通过Vid4、Vimeo-90k和SPMC数据集进行性能评估。

  • 与现有的单图像SR方法和视频SR方法进行比较,D3Dnet在PSNR和SSIM得分上均取得了最高分,并且在MOVIE和T-MOVIE指标上也显著优于现有方法,表明D3Dnet生成的结果在时间上更加一致。

  • 计算效率方面,D3Dnet在参数数量、FLOPs和运行时间上表现出较高的效率,尤其是在与单图像SR方法相比较时。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“可变形卷积”获取全部论文+代码

码字不易,欢迎大家点赞评论收藏

这篇关于可变形卷积颠覆式创新!新SOTA提速80%,更高性能,更强几何适应能力的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/835939

相关文章

csu(背包的变形题)

题目链接 这是一道背包的变形题目。好题呀 题意:给n个怪物,m个人,每个人的魔法消耗和魔法伤害不同,求打死所有怪物所需的魔法 #include<iostream>#include<algorithm>#include<cstring>#include<stack>#include<queue>#include<set>//#include<u>#include<map

hdu3389(阶梯博弈变形)

题意:有n个盒子,编号1----n,每个盒子内有一些小球(可以为空),选择一个盒子A,将A中的若干个球移到B中,满足条件B  < A;(A+B)%2=1;(A+B)%3=0 这是阶梯博弈的变形。 先介绍下阶梯博弈: 在一个阶梯有若干层,每层上放着一些小球,两名选手轮流选择一层上的若干(不能为0)小球从上往下移动,最后一次移动的胜出(最终状态小球都在地面上) 如上图所示,小球数目依次为

MySQL高性能优化规范

前言:      笔者最近上班途中突然想丰富下自己的数据库优化技能。于是在查阅了多篇文章后,总结出了这篇! 数据库命令规范 所有数据库对象名称必须使用小写字母并用下划线分割 所有数据库对象名称禁止使用mysql保留关键字(如果表名中包含关键字查询时,需要将其用单引号括起来) 数据库对象的命名要能做到见名识意,并且最后不要超过32个字符 临时库表必须以tmp_为前缀并以日期为后缀,备份

uva 10387 Billiard(简单几何)

题意是一个球从矩形的中点出发,告诉你小球与矩形两条边的碰撞次数与小球回到原点的时间,求小球出发时的角度和小球的速度。 简单的几何问题,小球每与竖边碰撞一次,向右扩展一个相同的矩形;每与横边碰撞一次,向上扩展一个相同的矩形。 可以发现,扩展矩形的路径和在当前矩形中的每一段路径相同,当小球回到出发点时,一条直线的路径刚好经过最后一个扩展矩形的中心点。 最后扩展的路径和横边竖边恰好组成一个直

poj 1113 凸包+简单几何计算

题意: 给N个平面上的点,现在要在离点外L米处建城墙,使得城墙把所有点都包含进去且城墙的长度最短。 解析: 韬哥出的某次训练赛上A出的第一道计算几何,算是大水题吧。 用convexhull算法把凸包求出来,然后加加减减就A了。 计算见下图: 好久没玩画图了啊好开心。 代码: #include <iostream>#include <cstdio>#inclu

uva 1342 欧拉定理(计算几何模板)

题意: 给几个点,把这几个点用直线连起来,求这些直线把平面分成了几个。 解析: 欧拉定理: 顶点数 + 面数 - 边数= 2。 代码: #include <iostream>#include <cstdio>#include <cstdlib>#include <algorithm>#include <cstring>#include <cmath>#inc

XTU 1237 计算几何

题面: Magic Triangle Problem Description: Huangriq is a respectful acmer in ACM team of XTU because he brought the best place in regional contest in history of XTU. Huangriq works in a big compa

poj 3304 几何

题目大意:给出n条线段两个端点的坐标,问所有线段投影到一条直线上,如果这些所有投影至少相交于一点就输出Yes!,否则输出No!。 解题思路:如果存在这样的直线,过投影相交点(或投影相交区域中的点)作直线的垂线,该垂线(也是直线)必定与每条线段相交,问题转化为问是否存在一条直线和所有线段相交。 若存在一条直线与所有线段相交,此时该直线必定经过这些线段的某两个端点,所以枚举任意两个端点即可。

POJ 2318 几何 POJ 2398

给出0 , 1 , 2 ... n 个盒子, 和m个点, 统计每个盒子里面的点的个数。 const double eps = 1e-10 ;double add(double x , double y){if(fabs(x+y) < eps*(fabs(x) + fabs(y))) return 0 ;return x + y ;}struct Point{double x , y

poj 2653 几何

按顺序给一系列的线段,问最终哪些线段处在顶端(俯视图是完整的)。 const double eps = 1e-10 ;double add(double x , double y){if(fabs(x+y) < eps*(fabs(x) + fabs(y))) return 0 ;return x + y ;}struct Point{double x , y ;Point(){}Po