轻量化网络（七）ShuﬄeNet V2: Practical Guidelines for Eﬃcient CNN Architecture Design

本文主要是介绍轻量化网络（七）ShuﬄeNet V2: Practical Guidelines for Eﬃcient CNN Architecture Design，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

这篇由旷视提出的ShuﬄeNet V2主要是直接指标来衡量轻量化网络。过去许多文章都是以FLOPs为指标，FLOPs是一个间接衡量网络的理论指标。在实际中，FLOPs越低并不一定代表网络运行速度越快，比如MobileNet v2 比NASNET-A更快，但是拥有近似的FLOPs。在一些情况下，FLOPs低的网络反而运行速度更慢。因为还涉及到 memory access cost (MAC)以及平台特性。作者因此提出了具有实际应用的ShuﬄeNet V2。
一、高效网络的结构设计指导
作者通过两个网络ShuﬄeNet v1和 MobileNet v2来测试分析影响网络性能的因素。作者在两个不同的平台(GPU和ARM)上测试。Figure 2是不同操作占总体时间的比重，虽然卷积操作占了很大的比重，但是 data I/O, data shuﬄe 和element-wise operations (AddTensor, ReLU, etc)同样占了相当大的比重，所以FLOPs不能足够准确得来衡量网络运行速度。基于以上观察，作者基于以下几个层面进行分析。
在这里插入图片描述
1.相同的特征通道能够最小化MAC
现代网络中使用了大量的深度可分离卷积(depthwise separable convolutions)，其中 $\times 1$ 卷积核占据了较大的复杂度。假设输入特征大小为 $\times w \times c_{1}$ ，输出特征的大小为 $\times w \times c_{2}$ ，则 $\times 1$ 卷积核的FLOP为 $B=hwc_{1}c_{2}$ 。假定计算设备有足够大的缓存，因此 $MAC=hw(c_{1}+c_{2})+c_{1}c_{2}$ ，由平均不等式：
$MAC\ge2\sqrt{hwB}+B/hw$ 当卷积输入特征通道和输出特征通道相等时，达到最小MAC。该结论是理论上的，因为计算设备的缓存不是足够大的，但是给了我们启发。基于此，我们做了以下实验。在保持FLOPs不变的情况下，改变输入通道数和输出通道数的比例。很明显，当 $c_{1}:c_{2}=1:1$ 时，网络运行速度最快。
在这里插入图片描述
2.过多的组卷积提高了MAC
组卷积(group convolution)是当今许多网络的核心，它降低了网络复杂度同时提高网络性能。然后过多的组卷积会导致更多的MAC。 $\times 1$ 卷积核的FLOP和MAC关如下：
$MAC=hw(c_{1}+c_{2})+c_{1}c_{2}/g \\ \quad \quad \quad =hwc_{1}+Bg/c_{1}+B/hw$
其中 $g$ 表示组卷积的分组数， $B=hwc_{1}c_{2}/g$ ，从以上关系可以看出，随着 $g$ 的增加， $M A C$ 也逐渐增加。
作者做了实验，保持相同FLOPs的情况下，实验不同的分组数对网络运行速度的影响。从Table 2中可知，越大的分组数，网络运行速度越慢。所以需要小心得使用组卷积。分组卷积随着分组数量的提高不仅仅带来网络性能提升还带来了大量计算消耗。在这里插入图片描述
3.网络碎片化减低了并行度
在GoogleNet系列和许多自动生成的结构中，均使用一种“多路径”单元。比如在 NASNET-A 中，路径达到13个，而ResNet达到2或3个。这种结构能够提升网络性能，但是会降低效率因为不利于GPU的并行运算，还会引入内核启动和同步。
在Table 1中作者做了实验，在一个block中有1到4个卷积串行或并行(sequence or in parallel)。从结果可以看出，并行卷积核越多，网络越慢；相同数量卷积核的情况下，并行的网络比串行的慢。
在这里插入图片描述
4.Element-wise操作不能忽略
在轻量化网络中，Element-wise操作占了较大比重，比如ReLU, AddTensor, AddBias等。这些操作有很低的FLOPs但是有较高的MAC。在Table 4中，作者做了分别移除Relu或是short-cut操作，网络速度均有提升。
在这里插入图片描述

二、ShuﬄeNet V2网络结构
作者基于以上4个实验结果在ShuﬄeNet V1上(Figure 3(a)(b))重新设计。首先在单元开始将特征通道分离，将通道分为 $c^{'}$ 和 $c - c^{'}$ 。根据实验结果1将一个分支上的卷积核的输入输出特征的通道数设置相同。根据实验结果2，不再使用组卷积。根据实验结果4去除Add操作，改为Concat
在这里插入图片描述