Sigmoid型函数梯度消失、“死亡”ReLUs 和 RNNs梯度爆炸问题

本文主要是介绍Sigmoid型函数梯度消失、“死亡”ReLUs 和 RNNs梯度爆炸问题，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Sigmoid型函数的梯度消失问题

基础知识

$s i g m o i d$ 是一种函数类型，具有函数图形为S型曲线，单增，反函数也单增，而且输出值范围为（0,1）等特点，但其一般被默认为是 $l o g i s t i c$ 函数：
$\frac{1}{1 + \exp(-x)}$
$s i g m o i d$ 函数的导数为：
$S^{'} (x) = S (x) (1 - S (x))$
以下是 $s i g m o i d$ 及其导数的图像：
sigmoid及其导数图像
从上图可看出，当 $\ \text{or} \ 1$ 时， $S^{'} (x) = 0$ .

讨论

非线性函数 $s i g m o i d$ 被广泛用于神经网络的全连接层(fully connected layers)中，作为激活函数，但其存在着一些问题：

如果模型参数初始化不当或数据预处理不当，那么神经网络模型在前向传递时， $s i g m o i d$ 函数可能达到饱和（处于上述图形中的两端，趋于 0 或趋于 1），这时，在模型的误差后向传递(backward pass) 过程中， $s i g m o i d$ 函数的偏导数趋于 0，造成的结果就是模型误差无法继续向后传递，参数也无法得到相应的更新，这就是梯度消失。

例如，一个带有 $s i g m o i d$ 非线性函数的全连接层的计算过程(使用原生numpy)如下：

z = 1/(1 + np.exp(-np.dot(W, x))) # 前向传递
dz_dx = np.dot(W.T, z*(1-z)) # 后向传递: x 的梯度
dz_dW = np.outer(z*(1-z), x) # 后向传递: W 的梯度
# np.outer()是求向量外积的函数

如果初始化权重矩阵 $\textbf{W}$ 维度太大的话（神经元较多时），向量 np.dot(W, x) 中的元素将会具有很大的取值范围，比如 -400与400之间（ $\textbf{W}$ 维度越大，np.dot(W, x) 元素的方差越大，元素取值范围也就越大），鉴于 $s i g m o i d$ 函数的性质(可见上图)，这将使得向量 $\textbf{z}$ 中的各元素值近似于二元值：1或者0。在这种情况下， $s i g m o i d$ 函数的导数 $(\textbf{z} \ast \textbf{(1-z)})$ 将会变为 $\textbf{0}$ (“消失”)，造成 $\textbf{z}$ 和 $\textbf{W}$ 两者的梯度都为零。由于链式法则中的乘法操作，在从该节点出发的后向传递中，所有参数的梯度则均为零，梯度为零就无法更新参数。

另一个有关 $s i g m o i d$ 函数的隐藏现象就是，其导数 $(\textbf{z} \ast \textbf{(1-z)}) \in(0,0.25)$ ，在 $z = 0.5$ 时取最大值 $0.25$ ，这意味着，后向传递每通过一个 $s i g m o i d$ 节点，传播梯度的大小都要缩小至其原先的四分之一（或者缩小至更小）。如果使用随机梯度下降，这种现象会使得网络的底层（lower layers）相对于高层训练速度更缓慢（参数更新更慢）。

所以，在神经网络中使用非线性函数 $s i g m o i d$ 时，需要警惕参数的初始化与模型输入的预处理，以避免函数在模型训练过程中达到饱和。

“死亡”ReLUs问题

基础知识

在优化方面，相比于Sigmoid型函数的两端饱和，ReLU函数为左饱和函数，且在x > 0时导数为1，在一定程度上缓解了神经网络的梯度消失问题，加速梯度下降的收敛速度。——来源于邱锡鹏老师的《神经网络与深度学习》

$R e L U$ 函数：

$\begin{cases} x & \quad x > 0 \\ 0 & \quad x \leq 0\\ \end{cases} \qquad= max(0,x)$

$R e L U$ 导数：

$\begin{cases} 1 & \quad x > 0 \\ 0 & \quad x < 0\\ \end{cases}$
$R e L U$ 函数及其导数的图像：
ReLU及其导数图像

讨论

$R e L U$ 也是非线性函数，它将低于或等于 0 的神经元输入都计算成 0。使用 $R e L U$ 的全连接层的前向与后向传递的主要计算如下：

z = np.maximum(0, np.dot(W, x)) # forward pass
dz_dW = np.outer(z > 0, x) # backward pass: local gradient for W

观察上述代码你会发现，当前向传递中一个神经元的值恒等于 0（即 $z_i=0$ ，表示该神经元未被激活），该神经元对应的权重的梯度将为0，这时权重得不到更新。这就会导致所谓的“死亡” $R e L U$ 问题。

如果一个 $R e L U$ 神经元由于被不恰当地初始化而恒等于 0（这时不是模型参数的问题），或是其对应的参数在训练过程中由于大幅度的更新而接近于 0(这时在下一样本的计算中该神经元的值就会趋于为 0，随着而来的是权重的梯度为 0，权重无法更新，导致该神经元的值恒为 0)，那么这个神经元将永远处于死亡状态。这就是“死亡” $R e L U$ 。这就像是永恒的，无法恢复的大脑损伤。有时，你将整个训练数据集放入一个训练过的网络中进行前向计算，你可能会发现大部分(如 $40\%$ )的神经元的值一直恒为零。

所以，在使用 $R e L U s$ 时，要警惕死亡 $R e L U s$ ，这些神经元在整个训练数据集中任一样本中都不会被激活，而是处于死亡状态。神经元在训练过程中的“死亡”，通常是学习率过大造成的。

RNNs梯度爆炸问题

基础知识

循环神经网络（Recurrent Neural Network，RNN）是一类具有短期记忆能力的神经网络。在循环神经网络中，神经元不但可以接受其它神经元的信息，也可以接受自身的信息，形成具有环路的网络结构。和前馈神经网络相比，循环神经网络更加符合生物神经网络的结构。循环神经网络已经被广泛应用在语音识别、语言模型以及自然语言生成等任务上。循环神经网络的参数学习可以通过随时间反向传播算法[Werbos, 1990]来学习。随时间反向传播算法即按照时间的逆序将错误信息一步步地往前传递。当输入序列比较长时，会存在梯度爆炸和消失问题[Bengio et al., 1994, Hochreiter and Schmidhuber, 1997, Hochreiter et al.,2001]，也称为长程依赖问题。——来源于邱锡鹏老师的《神经网络与深度学习》

以下是简单 $R N N$ 的结构:
RNN structure
$R N N$ 的计算公式如下：

隐藏状态S：

$S_t = f(U_{sx}x_t + W_{ss}S_{t-1})$

输出y:

$y_t = g(V_{os}S_t)$

上述 $U 、 W 、 V$ 均为权重矩阵， $x_t$ 和 $y_t$ 分别为 $t$ 时间步的输入与输出， $S_{t-1}$ 为 $t - 1$ 时间步的隐藏状态， $S_t$ 为当前时间步的隐藏状态。

讨论

用简单 $R N N s$ 来展示后向传播（backpropagation）的非直观影响。如下的图片来自 $C S 231 n$ 课程的一张 $p p t$ ，其展示了一个没有任何输入 $\textbf{x}$ ，只计算隐藏状态（hidden state）的简化 $R N N$ （等价于，输入 $\textbf{x}$ 恒为 $\textbf{0}$ ）：
在这里插入图片描述
该 $R N N$ 被展开为 $T$ 个时间步(注意，该 $R N N$ 使用 $R e L U$ 作为激活函数)。当你观察后向传递的计算时，你会发现，在沿时间反向传播中，梯度传导至所有隐藏状态时总是与相同的矩阵相乘（状态转换矩形 $W_{hh}$ ），并穿插着非线性函数的反向传递。

当你用一个标量 $a$ 乘以一些标量 $b$ （例如， $a * b * b * b * b * b$ ）时，会发生什么呢？该结果要么趋于 0（如果 $∣ b ∣ < 1$ ），要么趋于无穷（如果 $∣ b ∣ > 1$ ）。在 $R N N$ 的后向传递中，有着相同的结果，只不过这时的 $\textbf{b}$ 是一个矩阵而不是一个标量，这时我们需要用该矩阵中的最大特征值（largest eigenvalue）来诠释该概念。这涉及到线性代数中利用矩阵特征值计算 $A^kx$ 方面的知识， $A^kx$ 的值主要取决于 $A$ 中最大特征值与 $x$ 本身，如下：
在这里插入图片描述