本文主要是介绍ShuffleNet v1算法详解,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
论文地址:https://arxiv.org/pdf/1707.01083.pdf
Face++的一篇关于降低深度网络计算量的论文
什么是group convlution 群卷积 ?
我们假设上一层的输出feature map有N个,即通道数channel=N,也就是说上一层有N个卷积核。再假设群卷积的群数目M。那么该群卷积层的操作就是,先将channel分成M份。每一个group对应N/M个channel,与之独立连接。然后各个group卷积完成后将输出叠在一起(concatenate),作为这一层的输出channel。
该文章主要采用channel shuffle、pointwise group convolutions和depthwise separable convolution来修改原来的ResNet的bottleneck单元
Channel shuffle
- 图a做group convolution的方法:对于N个feature map M个filter(卷积核),group组数为g,则N,M都被分为g个组,第一个group中M/g个fliter的每一个filter都和第一个group中N/g个feature map做卷积得到结果,接着第二个,第三个…. 总结:feature map和卷积核都为相同的分组,然后对应组相卷积得到结果,这样做的目的就是可以大幅减少计算量如果有多 个卷积层都有group操作如图(a),这样就会产生边界效应:某个输出channel仅仅来自输入channel的一小部分,只能学习到一小部分的特征,于是提出了channel shuffle;简言之就是:如图a,最终的output输出只和输入的一小部分有关
- Channel shuffle:图b,在进行Gconv之前,对其输入的feature map做了一个分配:将每个group分成几个subgroup,然后将group的每个subgroup作为GConv2的一个group的输入下一个Gconv的输入,如图c所示。
Pointwise group convolution (卷积核是1*1的卷积)
在ResNet中主要对3*3的卷积做group操作,但是在shuffleNet中,作者对1*1卷积做grounp的操作
文中计算了这三个unit的FLOPS:(我把计算式子写开,更容易理解)
其中c为输入通道数,m为输出通道数,g为group分组数
a为(2cm + 9m*m) = (c+3*3*m+c)*m
b为(2cm + 9m*m/g)= (c/g+3*3*m/g+c/g)*m
- 图a是ResNet中的bottleneck unit,不过将原来的3*3 Conv改成3*3 DW Conv
- 图b 是添加了group convolution 和channel shuffle
- bottleneck中添加average pooling,设置DWConv的步长为2,最后采用contact操作按channel合并代替ADD操作
实验结果
Table1是网络结构,设置不同的分组数的复杂度,Table2计算了不同ShuffleNet复杂度下的错误率。1X, 0.5X, 0,25X表示将网络的filter缩小s*s倍
Table2标题括号中的好像是有错误,应该为更小的s表现更大的分类错误率
此外作者还做了如下的比较,寻找最优的分组数g
不同模型的复杂度和错误率的比较
最后作者得出一个经验值,使用groung=3时可以得到一个准确率和运行时间的一个平衡。
这篇关于ShuffleNet v1算法详解的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!