Layer-Wise Data-Free CNN Compression

本文主要是介绍Layer-Wise Data-Free CNN Compression，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Layer-Wise Data-Free CNN Compression

我们的无数据网络压缩方法从一个训练好的网络开始，创建一个具有相同体系结构的压缩网络。这种方法在概念上类似于知识蒸馏[23]，即使用预先训练好的“教师”网络来训练“学生”网络。但是知识蒸馏需要训练数据。以前的方法都是通过生成数据来解决这个问题，比如Adversarial Knowledge Distillation（AKD）[6]和Deep Inversion（DI）[51]。然而，这些方法的计算成本很高。

在这里插入图片描述

图1。我们的方法概述。我们首先在教师和学生身上进行BatchNorm fusion和Assumption-Free Cross-Layer Equalization（AFCLE，第3.2节）。然后，我们分别训练学生的每一层。我们使用前一层（第3.1节）的BatchNorm统计数据生成数据，然后使用这些数据优化压缩的学生网络以匹配教师。

我们采用图1所示的更简单的方法。我们将学生的每一层视为教师中相应层的压缩近似值。只要每一层的近似值是准确的，整体的学生网络就会产生与教师类似的输出。这个这种方法的计算效率远高于其他生成方法，因为我们的方法不需要训练输入图像，就可以在网络的每一层产生良好的训练信号。

在这里插入图片描述

图2。MobileNetV1分析了我们的方法和对抗性知识提取（AKD）的前传次数和训练精度[6]。深度反演[51]（未显示）比AKD需要更多的FLOPs ，而且精度较低。

相反，我们为每个层分别生成输入，这不需要生成真实的图像。我们的方法比AKD[6]少14倍的触发器，比DI[51]少450倍的FLOPs （图2），只经过几百次迭代就收敛了。

我们的第一个挑战在于生成用于训练教师层的压缩近似值的数据。我们的第二个挑战在于对网络进行预处理以实现更有效的压缩。我们将在以下小节中讨论这些问题。

3.1. LayerWise Data Generation

我们描述了layer-wise网络输入的方法。我们假设网络由包含卷积的块组成，然后是BatchNorm[25]，然后是激活。让 $\mathcal B_i$ 代表与索引i块相关联的BatchNorm层。 $\mathcal B_i$ 的均值和标准差为 $\mu_{\mathcal B_i},\sigma_{\mathcal B_i}$ ，然后应用权值为 $\gamma_{\mathcal B_i}$ 和bias为 $\beta_{\mathcal B_i}$ 的的通道仿射变换。因此，我们知道BatchNorm的输出通道的标准偏差是 $\gamma_{\mathcal B_i}$ ，均值为 $\beta_{\mathcal B_i}$ 。

我们利用这些信息生成layer-wise输入。设 $\mathcal C_i$ 表示网络块i中的卷积层， $f_i$ 表示块i中的激活。另外， $h(\cdot)$ 代表h层对应输入的输出。考虑块i从由集合K索引的块中接受多个输入张量的情况。让 $x_{\mathcal B_{i-1}}$ 代表用真实数据训练的训练batch中BatchNorm层 $\mathcal B_{i-1}$ 的输入。假设这些tensors由加法函数组合而成（如残差网络[22]），卷积Ci的输入xCi为

在这里插入图片描述

加法外的其他组合函数也如此。

在没有数据的训练中，我们无法访问 $x_{\mathcal B_{i-1}}$ ，所以我们估计它。用 $\mathcal G_{c_i}(\cdot)$ 代表用于生成训练 $\mathcal C_i$ 层输入的函数，利用我们上面关于BatchNorm层的输出统计的观察，我们估计

在这里插入图片描述

其中 $\mathcal N(\mu,\sigma)$ 代表高斯分布。在第一个卷积层的情况下，我们从 $\mathcal N(0,1)$ 生成数据。我们忽略了其他层（如平均池）对统计数据的影响。

我们在第3.3节和第3.4节中描述了如何使用生成的数据来计算学生网络的层。但首先，我们描述了我们的方法的另一个组成部分，该方法旨在对网络进行预处理以改进最终结果。

3.2. AssumptionFree CrossLayer Equalization

我们描述了均衡（equalizing）网络层的方法。为了便于描述， $W\in \mathbb R^{c_o,c_i}$ 代表一个具有 $c_o$ 输出维度和 $c_i$ 输入维度的矩阵。

我们的方法将无数据网络压缩问题分解为压缩单个层的子问题。有两个问题使从压缩后的单个层组装压缩网络的问题变得复杂。

第一个问题是关于BN层，BN层具有参数 $\mu,\sigma,\gamma,\beta$ 。给定一个偏置为b的线性层W，线性层的输出，后跟BatchNorm

在这里插入图片描述

$\bigodot$ 代表elementwise multiplication。如果W的某一行c乘以比例因子 $\alpha$ ，如果b和 $\mu$ 的第c个元素乘以 $\alpha$ ，如果 $\gamma$ 的第c个元素乘以标量因子 $1/\alpha$ ，则函数f（x）保持不变。因此，W的权重的相对重要性取决于BatchNorm参数的值。在修剪或量化W时，这是有问题的，因为我们希望权重值的大小能反映其重要性。BatchNorm层内隐藏的比例因子可以防止这种情况的发生。为了解决这个问题，我们融合BN层的参数 $\mu,\sigma,\gamma,\beta$ 到之前的线性层。以使BatchNorm参数对权重大小的有效影响得到考虑。一旦这种融合发生，BatchNorm可以被忽略。公式3中使用的BatchNorm统计量必须在该融合步骤之前收集。它们将保持有效，因为BatchNorm参数的变化会被W和b的变化所补偿。

将无数据网络压缩分解为layer-wise压缩子问题的第二个复杂性是，各层的权重相对大小可能不一致。考虑一对具有权重 $W_1$ 和 $W_2$ 以及偏置 $b_1$ 和 $b_2$ 的线性层的输出。假设网络使用ReLU激活[1]，这样层对的输出是

在这里插入图片描述

如果 $W_2$ 的第c行乘上一个缩放因子 $\alpha$ ，且如果 $b_2$ 对应的第c个元素乘上 $\alpha$ ，且 $W_1$ 相对应的列乘上 $1/\alpha$ ，输出 $f (x)$ 保持不变。换句话说，层间权重的相对重要性在先验上是不一致的。有相似重要性的权重需要在整个网络中具有相似的值，否则一些层将被修剪得太重，而一些层将被修剪得不够。不一致也会导致次优的量化范围，如[38]所述。

为了解决这种缩放不一致的问题，我们采用了一种方法，我们称之为Assumption-Free Cross-Layer Equalization（AFCLE），它是DFQ[38]中描述的Cross-Layer Equalization方法的扩展。对于每一个权重为 $W_j\in\mathbb R^{c_o\times c_i}$ ，偏置为 $b_j\in\mathbb R^{c_o}$ 的线性层 $\mathcal L_j$ ，我们把一对向量 $v_j^i\in\mathbf R^{c_j},v_j^o\in\mathbf R^{c_o}$ 联系起来。(扩展到卷积层是同样的)这些向量将在AFCLE中使用，之后将保持固定。我们计算线性层的输出为
在这里插入图片描述