本文主要是介绍为什么MobileNet及其变体(比如ShuffleNet)会怎么快呢?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”
导读作者:Yusuke Uchida
编译:ronghuaiyang
MobileNet的特点就是非常的快,而且精度损失很小,这里面的原因是什么呢,这篇文章给大家解密。
介绍
在本文中,我将概述在诸如MobileNet及其变体等高效的CNN模型中使用的构建块,并解释一下为什么它们为何如此高效。特别地,我直观的说明了关于空间和通道卷积是如何完成。
高效模型中的构建块
在解释特定的高效CNN模型之前,让我们先检查一下高效CNN模型中使用的构建块的计算成本,看看如何在空间和通道域中执行卷积。
让HxW表示输出特征图的空间尺寸,N表示输入通道的数量,KxK表示卷积核的大小,M表示输出通道的数量,计算标准卷积的成本为HWNK²M。
很重要的一点是,和标准卷积的计算成本成正比的有(1)输出特征图的空间尺寸HxW、(2)卷积核的大小K²、(3)输入和输出通道的数量NxM。
在空间域和通道域同时进行卷积时,需要上述计算量。CNNs可以通过分解这个卷积来加速,如下面的图所示。
卷积
首先,我提供了一个直观的例子,关于标准卷积在空间和通道域是怎么做的,其计算成本HWNK²M。
我将输入和输出之间的线连接起来,以可视化输入和输出之间的依赖关系。行数大致分别表示卷积在空间域和通道域的计算成本。
例如,conv3x3,最常用的卷积,可以可视化,如上图。我们可以看到输入和输出在空间域上是局部连接的,而在通道域上是全连接的。
接下来,conv1x1,又叫做逐点卷积,或用于改变通道的数量,可视化如上图。这个卷积的计算量是HWNM,因为核的大小是1x1,与conv3x3相比,计算量减少了1/9。这个卷积用于在通道之间“混合”信息。
分组卷积
分组卷积是卷积的一种变体,其中对输入特征图的通道进行分组,并对每个分组的通道独立执行卷积。
让G表示数量的组,分组卷积的计算成本HWNK²M / G,计算量想不标准的卷积降低为1 / G。
对conv3x3进行分组,G=2。上图我们可以看到,通道域中的连接数比标准卷积小,这表明计算量更小。
上图的这种情况,conv3x3,分组G=3,连接变得更加稀疏。
上图的这种情况,conv1x1,分组G=2,因此,conv1x1也可以分组。这种卷积在ShuffleNet中使用。。
上图的这种情况,conv1x1,分组G=3
深度卷积
在深度卷积中,卷积是对每个输入通道独立执行的。它也可以定义为分组卷积的一种特殊情况,其中输入和输出通道的数量相同,G等于通道的数量。
如上所示,深度卷积通去掉了在通道域上的卷积,显著降低了计算成本。
通道洗牌
通道洗牌是一种操作(层),它改变了在ShuffleNet中使用的通道的顺序。这个操作是通过张量的变形和转置来实现的。
更精确地说,让GN ' (=N)表示输入通道的数量,首先将输入通道维数重新构造为(G, N '),然后将(G, N ')转置为(N ', G),最后将其压平为与输入相同的形状。这里G表示分组卷积的组数,在ShuffleNet中与通道洗牌层一起使用。
虽然通道洗牌的计算量不能根据multiply-add操作(MACs)的数量来定义,但是应该有一些开销。
通道洗牌的情况下,G=2。不执行卷积,只是改变通道的顺序。
通道洗牌的情况下,G=3。
高效模型
在下面的文章中,我将为高效CNN模型提供直观的说明,说明为什么它们是高效的,以及如何在空间和通道域进行卷积。
ResNet (Bottleneck Version)
ResNet中使用的带有bottleneck结构的残差单元是与其他模型进行进一步比较的良好起点。
如上图所示,由conv1x1、conv3x3和conv1x1组成具有bottleneck 结构的残差单元。第一个conv1x1降低了输入通道的维数,降低了后续相对昂贵的conv3x3的计算成本。最后一个conv1x1恢复输出通道的维数。
ResNeXt
ResNeXt是一个高效的CNN模型,它可以看作是ResNet的一个特例,其中conv3x3被分组conv3x3所替代。通过使用有效的分组卷积,,conv1x1中的通道压缩率与ResNet相比变得温和,从而在相同的计算成本下提高了精度。
MobileNet (可分离卷积)
MobileNet是由深度卷积和conv1x1(逐点卷积)组成的可分离卷积模块的堆叠。
可分离卷积在空间和通道域中独立地执行卷积。这种分解的卷积显著降低了计算成本,从HWNK²M降到了HWNK²(depthwise)+ HWNM (conv1x1),总共是HWN (K²+ M)。一般来说,M > > K²(例如K = 3 M≥32),计算量大约是原来的1/8-1/9。
这里重要的一点是,计算量的瓶颈现在是conv1x1!
ShuffleNet
ShuffleNet的动机是,如上所述,conv1x1是可分离conv的瓶颈。虽然conv1x1已经是很高效的了,而且似乎没有改进的空间,但分组conv1x1可以用来减少计算量。
上图演示了ShuffleNet的模块。这里的一个重要构建块是通道洗牌层,它以分组卷积的方式“洗牌”组间通道的顺序。在没有通道洗牌的情况下,分组卷积的输出永远不会利用组之间的信息,从而导致精度下降。
MobileNet-v2
MobileNet-v2采用了与ResNet的bottleneck结构类似的残差单元模块结构,修改后的残差单元将conv3x3替换为了深度卷积。
从上面可以看出,与标准bottleneck架构相反,第一个conv1x1增加了通道维度,然后执行深度conv,最后一个conv1x1减少了通道维度。
通过像上面那样重新排序构建块,并将其与MobileNet-v1(可分离conv)进行比较,我们可以看到这个架构是如何工作的(这种重新排序不会改变整个模型架构,因为MobileNet-v2是这个模块的堆叠)。
也就是说,上面的模块是可分离conv的一个改进版本,其中可分离conv中的单个conv1x1被分解成两个conv1x1。T表示通道尺寸的膨胀系数,计算两个conv1x1的成本是2HWN²/T,而在可分离卷积中的conv1x1的计算量是HWN²。在论文中,使用T = 6,将conv1x1的计算成本降低了3倍(一般为T/2)。
FD-MobileNet
最后,介绍一下快速下采样MobileNet (FD-MobileNet)。在该模型中,与MobileNet相比,下采样是在较早的层中进行的。这个简单的技巧可以减少总计算成本。其原因在于传统的下采样策略和可分离卷积的计算成本。
从VGGNet开始,许多模型采用相同的下采样策略:执行下采样,然后将后续层的通道数加倍。标准卷积的计算成本在采样后不会改变,因为它被定义为HWNK²M。而对于可分离卷积,下采样后计算量变小,从HWN(K²+M)减少为H/2 W/2 2N(K²+2M)= HWN (K²/2+M)。当M不是特别大的时候这是相对可观的(在早期的层中)。
我用下面的速查表来结束这篇文章,谢谢:P
— END—英文原文:https://medium.com/@yu4u/why-mobilenet-and-its-variants-e-g-shufflenet-are-fast-1c7048b9618d
请长按或扫描二维码关注本公众号
喜欢的话,请给我个好看吧!
这篇关于为什么MobileNet及其变体(比如ShuffleNet)会怎么快呢?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!