YOLOv8改进 | Neck篇 | Slim-Neck替换特征融合层实现超级涨点 (又轻量又超级涨点)

2023-12-11 16:36

本文主要是介绍YOLOv8改进 | Neck篇 | Slim-Neck替换特征融合层实现超级涨点 (又轻量又超级涨点),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、本文介绍

本文给大家带来的改进机制是Slim-neck提出的Neck部分Slim-neck是一种设计用于优化卷积神经网络中neck部分的结构。在我们YOLOv8中,neck是连接主干网络(backbone)和头部网络(head)的部分,负责特征融合和处理,以便提高检测的准确性和效率。亲测在小目标检测和大尺度目标检测的数据集上都有大幅度的涨点效果(mAP直接涨了大概有0.4左右同时本文对Slim-Neck的框架原理进行了详细的分析,不光让大家会添加到自己的模型在写论文的时候也能够有一定的参照,最后本文会手把手教你添加Slim-Neck模块到网络结构中(值得一提的是这个Slim-neck还可以减少GFLOPs大概2修改完大概是8.0GFLOP所以非常适合轻量化的读者)。

 (这里分析一下打分原因,推荐指数和涨点效果都是4克星,首先推荐指数是因为这是2022年的结构所以减少一分,但是大家可以根据这个结构进行一定的改进,毕竟其中的模块还是可以直接使用的,涨点效果0.4map还可以打4星)

推荐指数:⭐⭐⭐⭐

涨点效果:⭐⭐⭐⭐⭐

专栏回顾:YOLOv8改进系列专栏——本专栏持续复习各种顶会内容——科研必备    

训练结果对比图->  

这次试验我用的数据集大概有七八百张照片训练了150个epochs,虽然没有完全拟合但是效果有很高的涨点幅度,所以大家可以进行尝试毕竟不同的数据集上效果也可能差很多,同时我在后面给了多种yaml文件大家可以分别进行实验来检验效果。

可以看到这个涨点幅度mAP直接涨了大概有0.4左右,这个涨幅还可以,毕竟属于小的改进,重要的是大家能够从其中总结出来思想,能否提出一个新的Neck部分,没准下一个顶会文章就是你了,哈哈。

目录

一、本文介绍

二、Slim-neck原理

2.1  Slim-neck的基本原理

2.2 GSConv的引入

2.3 模块元素

2.4 灵活性

三、 Slim-neck的完整代码

四、手把手教你添加Slim-neck模块 

4.1 修改一

4.2 步骤二

4.3 步骤三 

五、 Slim-neck的yaml文件

六、 训练截图

五、本文总结


二、Slim-neck原理

论文地址:官方论文地址

代码地址:官方代码地址


2.1  Slim-neck的基本原理

Slim-neck是一种设计用于优化卷积神经网络(CNN)中“neck”部分的结构。在目标检测器中,"neck"是连接CNN的主干网络(backbone)和头部网络(head)的部分,负责特征融合和处理,以便提高检测的准确性和效率。

我们可以将Slim-neck的基本原理分为以下几点:

1. GSConv的引入:GSConv是为了在卷积神经网络(CNN)中加快图像的预测计算。在传统的CNN中,空间信息逐渐转换成通道信息,而这一过程在每一次特征图空间压缩和通道扩张时都会导致语义信息的部分丢失。GSConv旨在在保持较低时间复杂度的同时,尽可能地保留通道之间的隐藏连接。

2. 模块元素:GSConv之后,研究者继续引入GS瓶颈(GS bottleneck)和跨阶段部分网络(GSCSP)模块VoV-GSCSP,这些模块设计用于进一步提升性能。在实际应用中,更简单的结构模块由于更易于硬件实现,更有可能被采用。

3. 灵活性:论文提出了需要灵活使用GSConv、GS瓶颈和VoV-GSCSP这四个模块。可以像搭乐高一样构建Slim-neck层。

下面我为大家展示应用于YOLOv5模型的Slim-neck架构。这种架构使用了GSConvVoV-GSCSP模块,以构建一个高效的神经网络“颈部”。在这个架构中,不同尺度的特征图(P3, P4, P5)首先通过GSConv模块处理,然后通过上采样(upsample)和拼接(Concat)操作与其他尺度的特征图结合。这样处理后的特征图再次通过GSConv模块,最后使用VoV-GSCSP模块来进一步提取和融合特征,以准备最终的检测头(head-1, head-2, head-3)进行目标检测。

通过这种模块化和分层的方法,Slim-neck架构能够在保持高准确度的同时减少计算复杂性和推理时间,这对于在自动驾驶车辆等计算资源受限的环境中的应用尤其重要。


2.2 GSConv的引入

GSConv的引入是为了解决在卷积神经网络(CNN)中预测计算的速度问题。在CNN的骨干网络(backbone)中,输入图像几乎总是经历一个类似的转换过程:空间信息逐步向通道传递。每一次特征图的空间(宽度和高度)压缩和通道扩张都会导致语义信息的部分丢失。通道密集型的卷积计算(SC)最大限度地保留了每个通道之间的隐含连接,而通道稀疏的卷积(DSC)则完全切断了这些连接。GSConv尽可能地保持这些连接,并且具有更低的时间复杂度。

上面提到的时间复杂度通常由浮点运算(FLOPs)来定义。因此,SC、DSC和GSConv的时间复杂度分别为:

- SC:O(W \cdot H \cdot K_1 \cdot K_2 \cdot C_1 \cdot C_2)
- DSC:O(W \cdot H \cdot K_1 \cdot K_2 \cdot C_1)
- GSConv:O([W \cdot H \cdot K_1 \cdot K_2 \cdot C_2] / 2 \cdot (C_1 + 1))

其中W是输出特征图的宽度,H是高度,K_1 \cdot K_2是卷积核的大小,C_{1}是每个卷积核的通道数,也是输入特征图的通道数,C_{2}是输出特征图的通道数。

下图为大家展示了GSConv模块的结构

1. 卷积层(Conv):输入特征图首先通过一个卷积层,该层的输出通道数为C2/2。

2. 深度可分离卷积层(DWConv):该层标记为蓝色,表示深度可分离卷积(DSC)操作。它对输入特征图的每个通道独立进行卷积。

3. 拼接(Concat):将Conv层和DWConv层的输出进行拼接。

4. 随机排列(Shuffle):拼接后的特征图经过一个shuffle操作,以重新排列特征通道,提高特征间的信息流动。

5. 输出:最终输出的特征图有C2个通道。

我将通过下图为大家清晰展示标准卷积(SC)和深度可分离卷积(DSC)的计算过程。标准卷积是通道密集型的计算,而深度可分离卷积是通道稀疏的计算。

上图强调了在传统的标准卷积和现代轻量级深度可分离卷积之间的差异,其中后者在保持足够精确度的同时,减少了计算的复杂性,这对于计算资源受限的环境尤其有益。这种方法通常用于移动和边缘设备的神经网络架构中,以提高运行效率。 


2.3 模块元素

模块元素是构成Slim-neck架构的基础部分,设计它们的目的是为了减少计算成本,同时保持或提高模型的学习能力。模块元素可以灵活使用,像搭积木一样组合成Slim-neck层,提供了构建高效深度学习模型的灵活性和效率

1. GSConv:是一种减少计算复杂性的轻量级卷积,它的计算成本约为标准卷积(SC)的一半,但在模型的学习能力方面与SC相当。

2. GS bottleneck:基于GSConv,这是一种增强模块,用于提高特征的非线性表达和信息的复用。

3. VoV-GSCSP:利用一次性聚合方法设计的跨阶段部分网络模块,用于在不同阶段的特征图之间进行有效的信息融合。

下图显示了GS bottleneck模块VoV-GSCSP模块的结构:

(a) GS bottleneck模块,其中包含GSConv模块的一个或多个实例。 (b), (c), (d) 分别展示了不同设计方案的VoV-GSCSP模块。

GS bottleneck模块是为了进一步增强网络处理特征的能力,通过GSConv模块的堆叠来提高模型的学习能力。而VoV-GSCSP模块是利用不同的结构设计方案,以提高特征利用效率和网络性能。这些模块设计是Slim-neck理念的体现,旨在减少计算复杂性和推理时间,同时保持准确性。通过这样的模块化设计,可以根据需要灵活地构建出适合特定任务的网络架构。


2.4 灵活性

灵活性是指使用四种模块:GSConv、GS bottleneck和VoV-GSCSP,以及能够根据需要构建Slim-neck层的能力,类似于搭建乐高积木一样。这种灵活性允许研究者和工程师根据不同的需求和应用场景,调整和优化网络结构,从而实现特定目标的高效性和准确性。


三、 Slim-neck的完整代码

复制下面的代码在'ultralytics/nn/modules'目录下新建一个py文件粘贴进去,我这里的名字是Slimneck(大家注意不要带-否则会找不到文件的!!!)其它的具体使用 方式看章节四。

import torch
import torch.nn as nn
import mathdef autopad(k, p=None):  # kernel, padding# Pad to 'same'if p is None:p = k // 2 if isinstance(k, int) else [x // 2 for x in k]  # auto-padreturn pclass Conv(nn.Module):# Standard convolutiondef __init__(self, c1, c2, k=1, s=1, p=None, g=1, act=True):  # ch_in, ch_out, kernel, stride, padding, groupssuper().__init__()self.conv = nn.Conv2d(c1, c2, k, s, autopad(k, p), groups=g, bias=False)self.bn = nn.BatchNorm2d(c2)self.act = nn.Mish() if act else nn.Identity()def forward(self, x):return self.act(self.bn(self.conv(x)))def forward_fuse(self, x):return self.act(self.conv(x))class GSConv(nn.Module):# GSConv https://github.com/AlanLi1997/slim-neck-by-gsconvdef __init__(self, c1, c2, k=1, s=1, g=1, act=True):super().__init__()c_ = c2 // 2self.cv1 = Conv(c1, c_, k, s, None, g, act)self.cv2 = Conv(c_, c_, 5, 1, None, c_, act)def forward(self, x):x1 = self.cv1(x)x2 = torch.cat((x1, self.cv2(x1)), 1)b, n, h, w = x2.data.size()b_n = b * n // 2y = x2.reshape(b_n, 2, h * w)y = y.permute(1, 0, 2)y = y.reshape(2, -1, n // 2, h, w)return torch.cat((y[0], y[1]), 1)class GSConvns(GSConv):# GSConv with a normative-shuffle https://github.com/AlanLi1997/slim-neck-by-gsconvdef __init__(self, c1, c2, k=1, s=1, g=1, act=True):super().__init__(c1, c2, k=1, s=1, g=1, act=True)c_ = c2 // 2self.shuf = nn.Conv2d(c_ * 2, c2, 1, 1, 0, bias=False)def forward(self, x):x1 = self.cv1(x)x2 = torch.cat((x1, self.cv2(x1)), 1)# normative-shuffle, TRT supportedreturn nn.ReLU(self.shuf(x2))class GSBottleneck(nn.Module):# GS Bottleneck https://github.com/AlanLi1997/slim-neck-by-gsconvdef __init__(self, c1, c2, k=3, s=1, e=0.5):super().__init__()c_ = int(c2*e)# for lightingself.conv_lighting = nn.Sequential(GSConv(c1, c_, 1, 1),GSConv(c_, c2, 3, 1, act=False))self.shortcut = Conv(c1, c2, 1, 1, act=False)def forward(self, x):return self.conv_lighting(x) + self.shortcut(x)class DWConv(Conv):# Depth-wise convolution classdef __init__(self, c1, c2, k=1, s=1, act=True):  # ch_in, ch_out, kernel, stride, padding, groupssuper().__init__(c1, c2, k, s, g=math.gcd(c1, c2), act=act)class GSBottleneckC(GSBottleneck):# cheap GS Bottleneck https://github.com/AlanLi1997/slim-neck-by-gsconvdef __init__(self, c1, c2, k=3, s=1):super().__init__(c1, c2, k, s)self.shortcut = DWConv(c1, c2, k, s, act=False)class VoVGSCSP(nn.Module):# VoVGSCSP module with GSBottleneckdef __init__(self, c1, c2, n=1, shortcut=True, g=1, e=0.5):super().__init__()c_ = int(c2 * e)  # hidden channelsself.cv1 = Conv(c1, c_, 1, 1)self.cv2 = Conv(c1, c_, 1, 1)self.gsb = nn.Sequential(*(GSBottleneck(c_, c_, e=1.0) for _ in range(n)))self.res = Conv(c_, c_, 3, 1, act=False)self.cv3 = Conv(2 * c_, c2, 1)  #def forward(self, x):x1 = self.gsb(self.cv1(x))y = self.cv2(x)return self.cv3(torch.cat((y, x1), dim=1))class VoVGSCSPC(VoVGSCSP):# cheap VoVGSCSP module with GSBottleneckdef __init__(self, c1, c2, n=1, shortcut=True, g=1, e=0.5):super().__init__(c1, c2)c_ = int(c2 * 0.5)  # hidden channelsself.gsb = GSBottleneckC(c_, c_, 1, 1)

 


四、手把手教你添加Slim-neck模块 

 


4.1 修改一

我们上面的代码复制粘贴到'ultralytics/nn/modules'目录下新建一个py文件粘贴进去,我这里的名字是Slimneck(大家注意不要带-否则会找不到文件的!!!)

 


4.2 步骤二

之后我们找到'ultralytics/nn/tasks.py'文件,在其中注册我们的slim-neck模块。

(这里需要注意的是我们用的是slim-neck中的VOVSCSP和GSConv模块)

首先我们需要在文件的开头导入我们的slim-neck中的VOVSCSP和GSConv模块,如下图所示->

 


4.3 步骤三 

我们找到如下代码,按照我的进行添加即可。

到此就可以了,完成了注册然后只需要修改yaml文件就可以进行训练了~

 


五、 Slim-neck的yaml文件

我这里和官方的yaml文件给的一样,但是官方给的是yolov5的我进行了一定的转换,换成了YOLO

v8的。

# Ultralytics YOLO 🚀, AGPL-3.0 license
# YOLOv8 object detection model with P3-P5 outputs. For Usage examples see https://docs.ultralytics.com/tasks/detect# Parameters
nc: 80  # number of classes
scales: # model compound scaling constants, i.e. 'model=yolov8n.yaml' will call yolov8.yaml with scale 'n'# [depth, width, max_channels]n: [0.33, 0.25, 1024]  # YOLOv8n summary: 225 layers,  3157200 parameters,  3157184 gradients,   8.9 GFLOPss: [0.33, 0.50, 1024]  # YOLOv8s summary: 225 layers, 11166560 parameters, 11166544 gradients,  28.8 GFLOPsm: [0.67, 0.75, 768]   # YOLOv8m summary: 295 layers, 25902640 parameters, 25902624 gradients,  79.3 GFLOPsl: [1.00, 1.00, 512]   # YOLOv8l summary: 365 layers, 43691520 parameters, 43691504 gradients, 165.7 GFLOPsx: [1.00, 1.25, 512]   # YOLOv8x summary: 365 layers, 68229648 parameters, 68229632 gradients, 258.5 GFLOPs# YOLOv8.0n backbone
backbone:# [from, repeats, module, args]- [-1, 1, Conv, [64, 3, 2]]  # 0-P1/2- [-1, 1, Conv, [128, 3, 2]]  # 1-P2/4- [-1, 3, C2f, [128, True]]- [-1, 1, Conv, [256, 3, 2]]  # 3-P3/8- [-1, 6, C2f, [256, True]]- [-1, 1, Conv, [512, 3, 2]]  # 5-P4/16- [-1, 6, C2f, [512, True]]- [-1, 1, Conv, [1024, 3, 2]]  # 7-P5/32- [-1, 3, C2f, [1024, True]]- [-1, 1, SPPF, [1024, 5]]  # 9# YOLOv8.0n head
head:
# slim-neck- [-1, 1, nn.Upsample, [None, 2, 'nearest']]- [[-1, 6], 1, Concat, [1]]  # cat backbone P4- [-1, 3, VoVGSCSP, [512]]  # 12- [-1, 1, nn.Upsample, [None, 2, 'nearest']]- [[-1, 4], 1, Concat, [1]]  # cat backbone P3- [-1, 3, VoVGSCSP, [256]]  # 15 (P3/8-small)- [-1, 1, GSConv, [256, 3, 2]]- [[-1, 12], 1, Concat, [1]]  # cat head P4- [-1, 3, VoVGSCSP, [512]]  # 18 (P4/16-medium)- [-1, 1, GSConv, [512, 3, 2]]- [[-1, 9], 1, Concat, [1]]  # cat head P5- [-1, 3, VoVGSCSP, [1024]]  # 21 (P5/32-large)- [[15, 18, 21], 1, Detect, [nc]]  # Detect(P3, P4, P5)

六、 训练截图

下面是训练成功的截图,证明这个模块的改进是没有毛病的~同时如果你用我的模块成功了,还是希望大家来给我的文章点赞和评论支持一下,这样我也好发更多的模块,而且我YOLOv8系列马上就停更了,我可能要去更v5了,之后文章如果大家有需要才会更新了,因为感觉v5看的人更多一些。

 


五、本文总结

到此本文的正式分享内容就结束了,在这里给大家推荐我的YOLOv8改进有效涨点专栏,本专栏目前为新开的平均质量分98分,后期我会根据各种最新的前沿顶会进行论文复现,也会对一些老的改进机制进行补充,目前本专栏免费阅读(暂时,大家尽早关注不迷路~)如果大家觉得本文帮助到你了,订阅本专栏,关注后续更多的更新~

专栏回顾:YOLOv8改进系列专栏——本专栏持续复习各种顶会内容——科研必备

这篇关于YOLOv8改进 | Neck篇 | Slim-Neck替换特征融合层实现超级涨点 (又轻量又超级涨点)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/481357

相关文章

Python pyinstaller实现图形化打包工具

《Pythonpyinstaller实现图形化打包工具》:本文主要介绍一个使用PythonPYQT5制作的关于pyinstaller打包工具,代替传统的cmd黑窗口模式打包页面,实现更快捷方便的... 目录1.简介2.运行效果3.相关源码1.简介一个使用python PYQT5制作的关于pyinstall

使用Python实现大文件切片上传及断点续传的方法

《使用Python实现大文件切片上传及断点续传的方法》本文介绍了使用Python实现大文件切片上传及断点续传的方法,包括功能模块划分(获取上传文件接口状态、临时文件夹状态信息、切片上传、切片合并)、整... 目录概要整体架构流程技术细节获取上传文件状态接口获取临时文件夹状态信息接口切片上传功能文件合并功能小

python实现自动登录12306自动抢票功能

《python实现自动登录12306自动抢票功能》随着互联网技术的发展,越来越多的人选择通过网络平台购票,特别是在中国,12306作为官方火车票预订平台,承担了巨大的访问量,对于热门线路或者节假日出行... 目录一、遇到的问题?二、改进三、进阶–展望总结一、遇到的问题?1.url-正确的表头:就是首先ur

C#实现文件读写到SQLite数据库

《C#实现文件读写到SQLite数据库》这篇文章主要为大家详细介绍了使用C#将文件读写到SQLite数据库的几种方法,文中的示例代码讲解详细,感兴趣的小伙伴可以参考一下... 目录1. 使用 BLOB 存储文件2. 存储文件路径3. 分块存储文件《文件读写到SQLite数据库China编程的方法》博客中,介绍了文

Redis主从复制实现原理分析

《Redis主从复制实现原理分析》Redis主从复制通过Sync和CommandPropagate阶段实现数据同步,2.8版本后引入Psync指令,根据复制偏移量进行全量或部分同步,优化了数据传输效率... 目录Redis主DodMIK从复制实现原理实现原理Psync: 2.8版本后总结Redis主从复制实

JAVA利用顺序表实现“杨辉三角”的思路及代码示例

《JAVA利用顺序表实现“杨辉三角”的思路及代码示例》杨辉三角形是中国古代数学的杰出研究成果之一,是我国北宋数学家贾宪于1050年首先发现并使用的,:本文主要介绍JAVA利用顺序表实现杨辉三角的思... 目录一:“杨辉三角”题目链接二:题解代码:三:题解思路:总结一:“杨辉三角”题目链接题目链接:点击这里

基于Python实现PDF动画翻页效果的阅读器

《基于Python实现PDF动画翻页效果的阅读器》在这篇博客中,我们将深入分析一个基于wxPython实现的PDF阅读器程序,该程序支持加载PDF文件并显示页面内容,同时支持页面切换动画效果,文中有详... 目录全部代码代码结构初始化 UI 界面加载 PDF 文件显示 PDF 页面页面切换动画运行效果总结主

SpringBoot实现基于URL和IP的访问频率限制

《SpringBoot实现基于URL和IP的访问频率限制》在现代Web应用中,接口被恶意刷新或暴力请求是一种常见的攻击手段,为了保护系统资源,需要对接口的访问频率进行限制,下面我们就来看看如何使用... 目录1. 引言2. 项目依赖3. 配置 Redis4. 创建拦截器5. 注册拦截器6. 创建控制器8.

React实现原生APP切换效果

《React实现原生APP切换效果》最近需要使用Hybrid的方式开发一个APP,交互和原生APP相似并且需要IM通信,本文给大家介绍了使用React实现原生APP切换效果,文中通过代码示例讲解的非常... 目录背景需求概览技术栈实现步骤根据 react-router-dom 文档配置好路由添加过渡动画使用

Springboot使用RabbitMQ实现关闭超时订单(示例详解)

《Springboot使用RabbitMQ实现关闭超时订单(示例详解)》介绍了如何在SpringBoot项目中使用RabbitMQ实现订单的延时处理和超时关闭,通过配置RabbitMQ的交换机、队列和... 目录1.maven中引入rabbitmq的依赖:2.application.yml中进行rabbit