轻量化网络(七)ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design

本文主要是介绍轻量化网络(七)ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

这篇由旷视提出的ShuffleNet V2主要是直接指标来衡量轻量化网络。过去许多文章都是以FLOPs为指标,FLOPs是一个间接衡量网络的理论指标。在实际中,FLOPs越低并不一定代表网络运行速度越快,比如MobileNet v2 比NASNET-A更快,但是拥有近似的FLOPs。在一些情况下,FLOPs低的网络反而运行速度更慢。因为还涉及到 memory access cost (MAC)以及平台特性。作者因此提出了具有实际应用的ShuffleNet V2。
一、高效网络的结构设计指导
作者通过两个网络ShuffleNet v1和 MobileNet v2来测试分析影响网络性能的因素。作者在两个不同的平台(GPU和ARM)上测试。Figure 2是不同操作占总体时间的比重,虽然卷积操作占了很大的比重,但是 data I/O, data shuffle 和element-wise operations (AddTensor, ReLU, etc)同样占了相当大的比重,所以FLOPs不能足够准确得来衡量网络运行速度。基于以上观察,作者基于以下几个层面进行分析。
在这里插入图片描述
1.相同的特征通道能够最小化MAC
现代网络中使用了大量的深度可分离卷积(depthwise separable convolutions),其中 1 × 1 1 \times 1 1×1卷积核占据了较大的复杂度。假设输入特征大小为 h × w × c 1 h \times w \times c_{1} h×w×c1,输出特征的大小为 h × w × c 2 h \times w \times c_{2} h×w×c2,则 1 × 1 1 \times 1 1×1卷积核的FLOP为 B = h w c 1 c 2 B=hwc_{1}c_{2} B=hwc1c2。假定计算设备有足够大的缓存,因此 M A C = h w ( c 1 + c 2 ) + c 1 c 2 MAC=hw(c_{1}+c_{2})+c_{1}c_{2} MAC=hw(c1+c2)+c1c2,由平均不等式:
M A C ≥ 2 h w B + B / h w MAC\ge2\sqrt{hwB}+B/hw MAC2hwB +B/hw当卷积输入特征通道和输出特征通道相等时,达到最小MAC。该结论是理论上的,因为计算设备的缓存不是足够大的,但是给了我们启发。基于此,我们做了以下实验。在保持FLOPs不变的情况下,改变输入通道数和输出通道数的比例。很明显,当 c 1 : c 2 = 1 : 1 c_{1}:c_{2}=1:1 c1:c2=1:1时,网络运行速度最快。
在这里插入图片描述
2.过多的组卷积提高了MAC
组卷积(group convolution)是当今许多网络的核心,它降低了网络复杂度同时提高网络性能。然后过多的组卷积会导致更多的MAC。 1 × 1 1 \times 1 1×1卷积核的FLOP和MAC关如下:
M A C = h w ( c 1 + c 2 ) + c 1 c 2 / g = h w c 1 + B g / c 1 + B / h w MAC=hw(c_{1}+c_{2})+c_{1}c_{2}/g \\ \quad \quad \quad =hwc_{1}+Bg/c_{1}+B/hw MAC=hw(c1+c2)+c1c2/g=hwc1+Bg/c1+B/hw
其中 g g g表示组卷积的分组数, B = h w c 1 c 2 / g B=hwc_{1}c_{2}/g B=hwc1c2/g,从以上关系可以看出,随着 g g g的增加, M A C MAC MAC也逐渐增加。
作者做了实验,保持相同FLOPs的情况下,实验不同的分组数对网络运行速度的影响。从Table 2中可知,越大的分组数,网络运行速度越慢。所以需要小心得使用组卷积。分组卷积随着分组数量的提高不仅仅带来网络性能提升还带来了大量计算消耗。在这里插入图片描述
3.网络碎片化减低了并行度
在GoogleNet系列和许多自动生成的结构中,均使用一种“多路径”单元。比如在 NASNET-A 中,路径达到13个,而ResNet达到2或3个。这种结构能够提升网络性能,但是会降低效率因为不利于GPU的并行运算,还会引入内核启动和同步。
在Table 1中作者做了实验,在一个block中有1到4个卷积串行或并行(sequence or in parallel)。从结果可以看出,并行卷积核越多,网络越慢;相同数量卷积核的情况下,并行的网络比串行的慢。
在这里插入图片描述
4.Element-wise操作不能忽略
在轻量化网络中,Element-wise操作占了较大比重,比如ReLU, AddTensor, AddBias等。这些操作有很低的FLOPs但是有较高的MAC。在Table 4中,作者做了分别移除Relu或是short-cut操作,网络速度均有提升。
在这里插入图片描述

二、ShuffleNet V2网络结构
作者基于以上4个实验结果在ShuffleNet V1上(Figure 3(a)(b))重新设计。首先在单元开始将特征通道分离,将通道分为 c ′ c' c c − c ′ c-c' cc。根据实验结果1将一个分支上的卷积核的输入输出特征的通道数设置相同。根据实验结果2,不再使用组卷积。根据实验结果4去除Add操作,改为Concat
在这里插入图片描述

三、实验结果
在这里插入图片描述

在这里插入图片描述

这篇关于轻量化网络(七)ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/441920

相关文章

Spring Security--Architecture Overview

1 核心组件 这一节主要介绍一些在Spring Security中常见且核心的Java类,它们之间的依赖,构建起了整个框架。想要理解整个架构,最起码得对这些类眼熟。 1.1 SecurityContextHolder SecurityContextHolder用于存储安全上下文(security context)的信息。当前操作的用户是谁,该用户是否已经被认证,他拥有哪些角色权限…这些都被保

Linux 网络编程 --- 应用层

一、自定义协议和序列化反序列化 代码: 序列化反序列化实现网络版本计算器 二、HTTP协议 1、谈两个简单的预备知识 https://www.baidu.com/ --- 域名 --- 域名解析 --- IP地址 http的端口号为80端口,https的端口号为443 url为统一资源定位符。CSDNhttps://mp.csdn.net/mp_blog/creation/editor

ASIO网络调试助手之一:简介

多年前,写过几篇《Boost.Asio C++网络编程》的学习文章,一直没机会实践。最近项目中用到了Asio,于是抽空写了个网络调试助手。 开发环境: Win10 Qt5.12.6 + Asio(standalone) + spdlog 支持协议: UDP + TCP Client + TCP Server 独立的Asio(http://www.think-async.com)只包含了头文件,不依

poj 3181 网络流,建图。

题意: 农夫约翰为他的牛准备了F种食物和D种饮料。 每头牛都有各自喜欢的食物和饮料,而每种食物和饮料都只能分配给一头牛。 问最多能有多少头牛可以同时得到喜欢的食物和饮料。 解析: 由于要同时得到喜欢的食物和饮料,所以网络流建图的时候要把牛拆点了。 如下建图: s -> 食物 -> 牛1 -> 牛2 -> 饮料 -> t 所以分配一下点: s  =  0, 牛1= 1~

poj 3068 有流量限制的最小费用网络流

题意: m条有向边连接了n个仓库,每条边都有一定费用。 将两种危险品从0运到n-1,除了起点和终点外,危险品不能放在一起,也不能走相同的路径。 求最小的费用是多少。 解析: 抽象出一个源点s一个汇点t,源点与0相连,费用为0,容量为2。 汇点与n - 1相连,费用为0,容量为2。 每条边之间也相连,费用为每条边的费用,容量为1。 建图完毕之后,求一条流量为2的最小费用流就行了

poj 2112 网络流+二分

题意: k台挤奶机,c头牛,每台挤奶机可以挤m头牛。 现在给出每只牛到挤奶机的距离矩阵,求最小化牛的最大路程。 解析: 最大值最小化,最小值最大化,用二分来做。 先求出两点之间的最短距离。 然后二分匹配牛到挤奶机的最大路程,匹配中的判断是在这个最大路程下,是否牛的数量达到c只。 如何求牛的数量呢,用网络流来做。 从源点到牛引一条容量为1的边,然后挤奶机到汇点引一条容量为m的边

配置InfiniBand (IB) 和 RDMA over Converged Ethernet (RoCE) 网络

配置InfiniBand (IB) 和 RDMA over Converged Ethernet (RoCE) 网络 服务器端配置 在服务器端,你需要确保安装了必要的驱动程序和软件包,并且正确配置了网络接口。 安装 OFED 首先,安装 Open Fabrics Enterprise Distribution (OFED),它包含了 InfiniBand 所需的驱动程序和库。 sudo

【机器学习】高斯网络的基本概念和应用领域

引言 高斯网络(Gaussian Network)通常指的是一个概率图模型,其中所有的随机变量(或节点)都遵循高斯分布 文章目录 引言一、高斯网络(Gaussian Network)1.1 高斯过程(Gaussian Process)1.2 高斯混合模型(Gaussian Mixture Model)1.3 应用1.4 总结 二、高斯网络的应用2.1 机器学习2.2 统计学2.3

网络学习-eNSP配置NAT

NAT实现内网和外网互通 #给路由器接口设置IP地址模拟实验环境<Huawei>system-viewEnter system view, return user view with Ctrl+Z.[Huawei]undo info-center enableInfo: Information center is disabled.[Huawei]interface gigabit

Golang 网络爬虫框架gocolly/colly(五)

gcocolly+goquery可以非常好地抓取HTML页面中的数据,但碰到页面是由Javascript动态生成时,用goquery就显得捉襟见肘了。解决方法有很多种: 一,最笨拙但有效的方法是字符串处理,go语言string底层对应字节数组,复制任何长度的字符串的开销都很低廉,搜索性能比较高; 二,利用正则表达式,要提取的数据往往有明显的特征,所以正则表达式写起来比较简单,不必非常严谨; 三,使