轻量化网络(七)ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design

本文主要是介绍轻量化网络(七)ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

这篇由旷视提出的ShuffleNet V2主要是直接指标来衡量轻量化网络。过去许多文章都是以FLOPs为指标,FLOPs是一个间接衡量网络的理论指标。在实际中,FLOPs越低并不一定代表网络运行速度越快,比如MobileNet v2 比NASNET-A更快,但是拥有近似的FLOPs。在一些情况下,FLOPs低的网络反而运行速度更慢。因为还涉及到 memory access cost (MAC)以及平台特性。作者因此提出了具有实际应用的ShuffleNet V2。
一、高效网络的结构设计指导
作者通过两个网络ShuffleNet v1和 MobileNet v2来测试分析影响网络性能的因素。作者在两个不同的平台(GPU和ARM)上测试。Figure 2是不同操作占总体时间的比重,虽然卷积操作占了很大的比重,但是 data I/O, data shuffle 和element-wise operations (AddTensor, ReLU, etc)同样占了相当大的比重,所以FLOPs不能足够准确得来衡量网络运行速度。基于以上观察,作者基于以下几个层面进行分析。
在这里插入图片描述
1.相同的特征通道能够最小化MAC
现代网络中使用了大量的深度可分离卷积(depthwise separable convolutions),其中 1 × 1 1 \times 1 1×1卷积核占据了较大的复杂度。假设输入特征大小为 h × w × c 1 h \times w \times c_{1} h×w×c1,输出特征的大小为 h × w × c 2 h \times w \times c_{2} h×w×c2,则 1 × 1 1 \times 1 1×1卷积核的FLOP为 B = h w c 1 c 2 B=hwc_{1}c_{2} B=hwc1c2。假定计算设备有足够大的缓存,因此 M A C = h w ( c 1 + c 2 ) + c 1 c 2 MAC=hw(c_{1}+c_{2})+c_{1}c_{2} MAC=hw(c1+c2)+c1c2,由平均不等式:
M A C ≥ 2 h w B + B / h w MAC\ge2\sqrt{hwB}+B/hw MAC2hwB +B/hw当卷积输入特征通道和输出特征通道相等时,达到最小MAC。该结论是理论上的,因为计算设备的缓存不是足够大的,但是给了我们启发。基于此,我们做了以下实验。在保持FLOPs不变的情况下,改变输入通道数和输出通道数的比例。很明显,当 c 1 : c 2 = 1 : 1 c_{1}:c_{2}=1:1 c1:c2=1:1时,网络运行速度最快。
在这里插入图片描述
2.过多的组卷积提高了MAC
组卷积(group convolution)是当今许多网络的核心,它降低了网络复杂度同时提高网络性能。然后过多的组卷积会导致更多的MAC。 1 × 1 1 \times 1 1×1卷积核的FLOP和MAC关如下:
M A C = h w ( c 1 + c 2 ) + c 1 c 2 / g = h w c 1 + B g / c 1 + B / h w MAC=hw(c_{1}+c_{2})+c_{1}c_{2}/g \\ \quad \quad \quad =hwc_{1}+Bg/c_{1}+B/hw MAC=hw(c1+c2)+c1c2/g=hwc1+Bg/c1+B/hw
其中 g g g表示组卷积的分组数, B = h w c 1 c 2 / g B=hwc_{1}c_{2}/g B=hwc1c2/g,从以上关系可以看出,随着 g g g的增加, M A C MAC MAC也逐渐增加。
作者做了实验,保持相同FLOPs的情况下,实验不同的分组数对网络运行速度的影响。从Table 2中可知,越大的分组数,网络运行速度越慢。所以需要小心得使用组卷积。分组卷积随着分组数量的提高不仅仅带来网络性能提升还带来了大量计算消耗。在这里插入图片描述
3.网络碎片化减低了并行度
在GoogleNet系列和许多自动生成的结构中,均使用一种“多路径”单元。比如在 NASNET-A 中,路径达到13个,而ResNet达到2或3个。这种结构能够提升网络性能,但是会降低效率因为不利于GPU的并行运算,还会引入内核启动和同步。
在Table 1中作者做了实验,在一个block中有1到4个卷积串行或并行(sequence or in parallel)。从结果可以看出,并行卷积核越多,网络越慢;相同数量卷积核的情况下,并行的网络比串行的慢。
在这里插入图片描述
4.Element-wise操作不能忽略
在轻量化网络中,Element-wise操作占了较大比重,比如ReLU, AddTensor, AddBias等。这些操作有很低的FLOPs但是有较高的MAC。在Table 4中,作者做了分别移除Relu或是short-cut操作,网络速度均有提升。
在这里插入图片描述

二、ShuffleNet V2网络结构
作者基于以上4个实验结果在ShuffleNet V1上(Figure 3(a)(b))重新设计。首先在单元开始将特征通道分离,将通道分为 c ′ c' c c − c ′ c-c' cc。根据实验结果1将一个分支上的卷积核的输入输出特征的通道数设置相同。根据实验结果2,不再使用组卷积。根据实验结果4去除Add操作,改为Concat
在这里插入图片描述

三、实验结果
在这里插入图片描述

在这里插入图片描述

这篇关于轻量化网络(七)ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/441920

相关文章

如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别详解

《如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别详解》:本文主要介绍如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别的相关资料,描述了如何使用海康威视设备网络SD... 目录前言开发流程问题和解决方案dll库加载不到的问题老旧版本sdk不兼容的问题关键实现流程总结前言作为

SSID究竟是什么? WiFi网络名称及工作方式解析

《SSID究竟是什么?WiFi网络名称及工作方式解析》SID可以看作是无线网络的名称,类似于有线网络中的网络名称或者路由器的名称,在无线网络中,设备通过SSID来识别和连接到特定的无线网络... 当提到 Wi-Fi 网络时,就避不开「SSID」这个术语。简单来说,SSID 就是 Wi-Fi 网络的名称。比如

Java实现任务管理器性能网络监控数据的方法详解

《Java实现任务管理器性能网络监控数据的方法详解》在现代操作系统中,任务管理器是一个非常重要的工具,用于监控和管理计算机的运行状态,包括CPU使用率、内存占用等,对于开发者和系统管理员来说,了解这些... 目录引言一、背景知识二、准备工作1. Maven依赖2. Gradle依赖三、代码实现四、代码详解五

Spring Security--Architecture Overview

1 核心组件 这一节主要介绍一些在Spring Security中常见且核心的Java类,它们之间的依赖,构建起了整个框架。想要理解整个架构,最起码得对这些类眼熟。 1.1 SecurityContextHolder SecurityContextHolder用于存储安全上下文(security context)的信息。当前操作的用户是谁,该用户是否已经被认证,他拥有哪些角色权限…这些都被保

Linux 网络编程 --- 应用层

一、自定义协议和序列化反序列化 代码: 序列化反序列化实现网络版本计算器 二、HTTP协议 1、谈两个简单的预备知识 https://www.baidu.com/ --- 域名 --- 域名解析 --- IP地址 http的端口号为80端口,https的端口号为443 url为统一资源定位符。CSDNhttps://mp.csdn.net/mp_blog/creation/editor

ASIO网络调试助手之一:简介

多年前,写过几篇《Boost.Asio C++网络编程》的学习文章,一直没机会实践。最近项目中用到了Asio,于是抽空写了个网络调试助手。 开发环境: Win10 Qt5.12.6 + Asio(standalone) + spdlog 支持协议: UDP + TCP Client + TCP Server 独立的Asio(http://www.think-async.com)只包含了头文件,不依

poj 3181 网络流,建图。

题意: 农夫约翰为他的牛准备了F种食物和D种饮料。 每头牛都有各自喜欢的食物和饮料,而每种食物和饮料都只能分配给一头牛。 问最多能有多少头牛可以同时得到喜欢的食物和饮料。 解析: 由于要同时得到喜欢的食物和饮料,所以网络流建图的时候要把牛拆点了。 如下建图: s -> 食物 -> 牛1 -> 牛2 -> 饮料 -> t 所以分配一下点: s  =  0, 牛1= 1~

poj 3068 有流量限制的最小费用网络流

题意: m条有向边连接了n个仓库,每条边都有一定费用。 将两种危险品从0运到n-1,除了起点和终点外,危险品不能放在一起,也不能走相同的路径。 求最小的费用是多少。 解析: 抽象出一个源点s一个汇点t,源点与0相连,费用为0,容量为2。 汇点与n - 1相连,费用为0,容量为2。 每条边之间也相连,费用为每条边的费用,容量为1。 建图完毕之后,求一条流量为2的最小费用流就行了

poj 2112 网络流+二分

题意: k台挤奶机,c头牛,每台挤奶机可以挤m头牛。 现在给出每只牛到挤奶机的距离矩阵,求最小化牛的最大路程。 解析: 最大值最小化,最小值最大化,用二分来做。 先求出两点之间的最短距离。 然后二分匹配牛到挤奶机的最大路程,匹配中的判断是在这个最大路程下,是否牛的数量达到c只。 如何求牛的数量呢,用网络流来做。 从源点到牛引一条容量为1的边,然后挤奶机到汇点引一条容量为m的边

配置InfiniBand (IB) 和 RDMA over Converged Ethernet (RoCE) 网络

配置InfiniBand (IB) 和 RDMA over Converged Ethernet (RoCE) 网络 服务器端配置 在服务器端,你需要确保安装了必要的驱动程序和软件包,并且正确配置了网络接口。 安装 OFED 首先,安装 Open Fabrics Enterprise Distribution (OFED),它包含了 InfiniBand 所需的驱动程序和库。 sudo