新一代大核卷积反超ViT和ConvNet！同参数量下性能、精度、速度完胜

本文主要是介绍新一代大核卷积反超ViT和ConvNet！同参数量下性能、精度、速度完胜，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

大核卷积网络是CNN的一种变体，也是深度学习领域的一种重要技术，它使用较大的卷积核来处理图像数据，以提高模型对视觉信息的理解和处理能力。

这种类型的网络能够捕捉到更多的空间信息，因为它的大步长和大感受野可以一次性覆盖图像的更多区域。比如美团提出的PeLK网络，内核大小可以达到101x101，同参数量下性能反超 ViT，目前已被CVPR 2024收录。

更值得一提的，大核卷积网络不仅在性能上有所提升，在ImageNet分类等任务上，也展现出了优于ViT和ConvNet架构的效果。比如腾讯+港中文提出的UniRepLKNet，只用ImageNet-22K预训练，精度和速度SOTA，ImageNet达到88%。

当然效果惊人的成果远不止这些，我这次挑选了10个大核卷积网络最新创新方案，开源的项目代码都有，供有论文需求的同学参考学习。

论文原文以及开源代码需要的同学看文末

PeLK: Parameter-efficient Large Kernel ConvNets with Peripheral Convolution

方法：论文提出了外围卷积，通过参数共享有效减少了密集网格卷积 90% 以上的参数数量，并设法将内核尺寸扩大到极大。在此基础上，作者提出了参数高效的大核网络（PeLK）。

创新点：

密集网格卷积(Dense Grid Convolution)相较于条纹卷积(Stripe Convolution)具有持续的优势，无论是在多种核大小下还是在不同的任务中，密集网格卷积都能够表现出更好的性能。
引入人类外周视觉机制(Peripheral Vision)的概念来提高大核卷积网络的参数效率，通过参数共享有效地减少了密集网格卷积的参数数量，并且能够将卷积的复杂性从O(K^2)降低到O(log K)。

UniRepLKNet: A Universal Perception Large-Kernel ConvNet for Audio, Video, Point Cloud, Time-Series and Image Recognition

方法：论文探索了大卷积核的卷积神经网络（ConvNet）的架构设计和在多模态领域的通用感知能力，填补了现有大卷积核ConvNet的架构设计不足和在非视觉领域的应用研究空白，通过提出四个架构准则设计了UniRepLKNet，并在图像识别、时间序列预测和音频识别等任务上取得了领先的性能，验证了大卷积核的重要性和ConvNet的通用感知能力。

创新点：

大核ConvNet架构设计：
- 提出了四个关于大核ConvNet设计的指导原则，其中核心原则是利用大核与小核的本质区别，即大核可以在不加深网络的情况下实现更广阔的感受野。
- 根据这些指导原则，提出的大核ConvNet在图像识别任务中取得了领先的性能，相比于其他强大的竞争模型，具有更好的性能和更高的速度。
大核ConvNet在多模态领域的普适感知能力：
- 发现大核ConvNet在原本不擅长的领域具有出色的性能表现。通过特定的模态相关预处理方法，该模型在时间序列预测和音频识别任务上实现了业界领先的性能，即使没有进行模态特定的架构定制化。
- 证明了大核ConvNet在多模态任务中的卓越性能，为ConvNet在新领域的应用开辟了新的可能性。

LSKNet: Large Selective Kernel Network for Remote Sensing Object Detection

方法：论文主要介绍了一种用于遥感目标检测的新方法，即大型选择性核网络（LSKNet）。LSKNet的整体架构基于最近流行的结构，并使用了重复的构建块。作者通过定义Rc作为期望选择RF区域与GT边界框区域的比例来研究每个目标类别的感受野范围。

创新点：

作者首次尝试将大核卷积应用于遥感目标检测，并研究了其在这一领域的重要性。通过将大核卷积分解为两个深度卷积核，作者提出了一种适用于遥感的LSKNet架构，能够充分利用遥感图像的特点，实现对不同对象类型的广泛和可适应的上下文理解。
作者提出了一种空间选择机制，用于在不同尺度上从大卷积核中选择特征图。通过通道平均池化和通道最大池化，作者有效地提取了特征之间的空间关系，并使用卷积层将池化特征转换为空间注意力图。然后，通过相应的空间选择掩码，对分解的大核卷积特征进行加权并融合，以获得最终的关注特征。

Shift-ConvNets: Small Convolutional Kernel with Large Kernel Effects

方法：论文提出了一种新的操作符，通过正则卷积实现大卷积核效果，从而在广泛的设备范围内实现了CNN的最新进展。论文还提出了一种新的剪枝操作，通过粗粒度剪枝实现了稀疏组卷积。同时，论文还提出了一种基于偏移操作的算子来改进卷积操作，并将其应用于改进的模块结构中。

创新点：

通过使用shift-wise操作，作者实现了使用标准卷积进行大卷积核效果，并通过剪枝得到了稀疏组卷积。这一方法能够将大卷积核的效果与标准CNN的先进性结合起来，拓展了CNN的应用领域。
作者提出了一种新的shift-wise操作方法，通过将输入特征进行分组和位移，模拟多个卷积核尺寸，从而创建多个输出分支。然后，将这些输出分支合并为一个单一的分支。这种方法能够在保持整体网络结构不变的同时，不断优化数据流形的依赖关系。