DL基础补全计划(五)---数值稳定性及参数初始化(梯度消失、梯度爆炸)

本文主要是介绍DL基础补全计划(五)---数值稳定性及参数初始化(梯度消失、梯度爆炸),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

PS:要转载请注明出处,本人版权所有。

PS: 这个只是基于《我自己》的理解,

如果和你的原则及想法相冲突,请谅解,勿喷。

环境说明
  • Windows 10
  • VSCode
  • Python 3.8.10
  • Pytorch 1.8.1
  • Cuda 10.2

前言


  如果有计算机背景的相关童鞋,都应该知道数值计算中的上溢和下溢的问题。关于计算机中的数值表示,在我的《数与计算机 (编码、原码、反码、补码、移码、IEEE 754、定点数、浮点数)》 (https://blog.csdn.net/u011728480/article/details/100277582) 一文中有比较好的介绍。计算机中的数值表示,相对于实数数轴来说是离散且有限的,意思就是计算机中的能表示的数有最大值和最小值以及最小单位,特别是浮点数表示,有兴趣的可以看看上文。

  其实很好理解,深度学习里面具有大量的乘法加法,一不小心你就会遇见上溢和下溢的问题,因此我们一不小心就会遇见NAN和INF的问题(NAN和INF详见上文提到的文章)。此外,由于一些特殊的情况,可能会导致我们的参数的偏导数接近于0,让我们的模型收敛的非常的慢。因此我们可能需要从模型的初始化以及相关的模型构造方面来好好的讨论一下我们在训练过程中可能出现的问题。

  一般来说,我们训练的时候都非常的关注我们的损失函数,如果损失函数值异常,会导致相关的偏导数出现接近于0或者接近于无限大,那么就会直接导致模型训练及其困难。此外,我们的权重参数也会参与网络计算,按照上述的描述,权重参数的初始值也可能导致损失函数的值异常。因此大佬们也引入了另外一种常见的初始化方式Xavier,比较具有普适性。下面我们简单的验证一下我们训练过程中出现梯度接近于0和接近于无限大的情况,这里也就是说的梯度消失和梯度爆炸问题。同时也简单说明参数初始化相关的问题。





梯度消失(gradient vanishing)


  在深度学习中有一个激活层叫做Sigmoid层,其定义如下是: S i g m o i d ( x ) = 1 / ( 1 + exp ⁡ ( − x ) ) Sigmoid(x)=1/(1+\exp(-x)) Sigmoid(x)=1/(1+exp(x)),如果我们的模型里面接入了这种激活函数,很容易构造出梯度消失的情况,下面我们看一下其导数和函数值相对于X的相关关系。

  代码如下:

import torch
import numpy as np
import matplotlib.pyplot as pltfig, ax = plt.subplots()
xdata, ydata = [[], []], [[], []]
line0, = ax.plot([], [], 'r-', label='sigmoid')
line1, = ax.plot([], [], 'b-', label='gradient-sigmoid')def init_and_show(xlim_min, xlim_max, ylim_min, ylim_max):ax.set_xlabel('x')ax.set_ylabel('sigmoid(x)')ax.set_title('sigmoid/gradient-sigmoid')ax.set_xlim(xlim_min, xlim_max)ax.set_ylim(ylim_min, ylim_max)ax.legend([line0, line1], ('sigmoid', 'gradient-sigmoid'))line0.set_data(xdata[0], ydata[0])line1.set_data(xdata[1], ydata[1])plt.show()def sigmoid_test():x = np.arange(-10.0, 10.0, 0.1)x = torch.tensor(x, dtype=torch.float, requires_grad=True)sig_fun = torch.nn.Sigmoid()y = sig_fun(x)y.backward(torch.ones_like(y))xdata[0] = x.detach().numpy()xdata[1] = x.detach().numpy()ydata[0] = y.detach().numpy()ydata[1] = x.grad.detach().numpy()init_and_show(-10.0, 10.0, 0, 1)def multi_mat_dot():M = np.random.normal(size=(4, 4))print('⼀个矩阵\n', M)for i in range(10000):M = np.dot(M, np.random.normal(size=(4, 4)))print('乘以100个矩阵后\n', M)if __name__ == '__main__':sigmoid_test()

  结果图如下

rep_img

  我们可以从图中看到,当x小于-5和大于+5的时候,其导数的值接近于0,导致bp的时候,参数更新小,模型收敛的特别的慢。





梯度爆炸(gradient exploding)


  现在我们假设我们有一个模型,其有N个线性层构成,定义输入为X,标签为Y,模型为 M ( X ) = X ∗ W 1 . . . . W n − 2 ∗ W n − 1 ∗ W n M(X) = X*W_1 .... W_{n-2}*W_{n-1}*W_n M(X)=XW1....Wn2Wn1Wn,损失函数为 L ( X ) = M ( X ) − Y = X ∗ W 1 . . . . W n − 2 ∗ W n − 1 ∗ W n − Y L(X) = M(X) - Y = X*W_1 .... W_{n-2}*W_{n-1}*W_n - Y L(X)=M(X)Y=XW1....Wn2Wn1WnY,求W1关于损失函数的偏导数 d L ( X ) d W 1 = X ∗ W 2 . . . . W n − 2 ∗ W n − 1 ∗ W n \frac{dL(X)}{dW_1} = X*W_2 .... W_{n-2}*W_{n-1}*W_n dW1dL(X)=XW2....Wn2Wn1Wn。从这里我们可以看到W2到Wn与输入的X的乘积构成了W1的偏导数。

  下面我们简单的构造一个矩阵,然后让他计算100次乘法。代码如下:

import torch
import numpy as np
import matplotlib.pyplot as pltfig, ax = plt.subplots()
xdata, ydata = [[], []], [[], []]
line0, = ax.plot([], [], 'r-', label='sigmoid')
line1, = ax.plot([], [], 'b-', label='gradient-sigmoid')def init_and_show(xlim_min, xlim_max, ylim_min, ylim_max):ax.set_xlabel('x')ax.set_ylabel('sigmoid(x)')ax.set_title('sigmoid/gradient-sigmoid')ax.set_xlim(xlim_min, xlim_max)ax.set_ylim(ylim_min, ylim_max)ax.legend([line0, line1], ('sigmoid', 'gradient-sigmoid'))line0.set_data(xdata[0], ydata[0])line1.set_data(xdata[1], ydata[1])plt.show()def sigmoid_test():x = np.arange(-10.0, 10.0, 0.1)x = torch.tensor(x, dtype=torch.float, requires_grad=True)sig_fun = torch.nn.Sigmoid()y = sig_fun(x)y.backward(torch.ones_like(y))xdata[0] = x.detach().numpy()xdata[1] = x.detach().numpy()ydata[0] = y.detach().numpy()ydata[1] = x.grad.detach().numpy()init_and_show(-10.0, 10.0, 0, 1)def multi_mat_dot():M = np.random.normal(size=(4, 4))print('⼀个矩阵\n', M)for i in range(100):M = np.dot(M, np.random.normal(size=(4, 4)))print('乘以100个矩阵后\n', M)if __name__ == '__main__':multi_mat_dot()

  他计算100次乘法后结果如下:

rep_img

  我们可以看到,经过100次乘法后,其值已经非常大(小)了指数都是到了25了。这个时候算出来的损失非常大的,这个时候梯度也非常大,很容易导致训练异常。





参数初始化之Xavier


  文首我们提到,我们之前的参数初始化都是基于期望为0,方差为一个指定值初始化的,这里面的指定值是随个人定义的,这个可能会给我们的训练过程带来困扰。

  但是我们可以从以下的角度来看待这个事情,我们的权重参数W是一个期望为0,方差为 δ 2 \delta^2 δ2的特定分布。我们的输入特征X是一个期望为0,方差为 λ 2 \lambda^2 λ2的特定分布(注意这里不仅仅是正态分布)。我们假设我们的模型是线性模型,那么其输出为: O i = ∑ j = 1 n W i j X j O_i = \sum\limits_{j=1}^{n}W_{ij}X_{j} Oi=j=1nWijXj O i O_i Oi是代表第i层的输出。这个时候,我们求出 O i O_i Oi的期望是: E ( O i ) = ∑ j = 1 n E ( W i j X j ) = ∑ j = 1 n E ( W i j ) E ( X j ) = 0 E(O_i) = \sum\limits_{j=1}^{n}E(W_{ij}X_{j}) = \sum\limits_{j=1}^{n}E(W_{ij})E(X_{j}) = 0 E(Oi)=j=1nE(WijXj)=j=1nE(Wij)E(Xj)=0,其方差为: V a r i a n c e ( O i ) = E ( O i 2 ) − ( E ( O i ) ) 2 = ∑ j = 1 n E ( W i j 2 X j 2 ) − 0 = ∑ j = 1 n E ( W i j 2 ) E ( X j 2 ) = n ∗ δ 2 ∗ λ 2 Variance(O_i) = E(O_i^2) - (E(O_i))^2 = \sum\limits_{j=1}^{n}E(W_{ij}^2X_{j}^2) - 0 = \sum\limits_{j=1}^{n}E(W_{ij}^2)E(X_{j}^2) = n*\delta^2*\lambda^2 Variance(Oi)=E(Oi2)(E(Oi))2=j=1nE(Wij2Xj2)0=j=1nE(Wij2)E(Xj2)=nδ2λ2。我们现在假设如果要 O i O_i Oi的方差等于X的方差,那么 n ∗ δ 2 = 1 n*\delta^2 = 1 nδ2=1才能够满足要求。现在我们考虑BP的时候,也需要 n o u t ∗ δ 2 = 1 n_{out}*\delta^2 = 1 noutδ2=1才能够保证方差不会变,至少从数值稳定性来说,我们应该保证方差尽量稳定,不应该放大。我们同时考虑n和 n o u t n_{out} nout,那么我们可以认为当 1 / 2 ∗ ( n + n o u t ) ∗ δ 2 = 1 1/2*(n+n_{out})*\delta^2 = 1 1/2(n+nout)δ2=1时,我们保证了输出O的方差在约定范围内,尽量保证了其数值的稳定性,这就是Xavier方法的核心内容。

  初始化方法有很多,但是Xavier方法有较大的普适性。对于某些模型,特定的初始化方法有奇效。





后记


  到本文结束,其实我们可以训练一些简单的模型了,但是本文所介绍的3个概念会一直伴随着我们以后的学习过程,如果训练出现了INF,NAN这些特殊的值,基本我们就需要往这方面去想和解决问题。

参考文献

  • https://github.com/d2l-ai/d2l-zh/releases (V1.0.0)
  • https://github.com/d2l-ai/d2l-zh/releases (V2.0.0 alpha1)
  • https://blog.csdn.net/u011728480/article/details/100277582 《数与计算机 (编码、原码、反码、补码、移码、IEEE 754、定点数、浮点数)》



打赏、订阅、收藏、丢香蕉、硬币,请关注公众号(攻城狮的搬砖之路)
qrc_img

PS: 请尊重原创,不喜勿喷。

PS: 要转载请注明出处,本人版权所有。

PS: 有问题请留言,看到后我会第一时间回复。

这篇关于DL基础补全计划(五)---数值稳定性及参数初始化(梯度消失、梯度爆炸)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1065761

相关文章

Linux之计划任务和调度命令at/cron详解

《Linux之计划任务和调度命令at/cron详解》:本文主要介绍Linux之计划任务和调度命令at/cron的使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录linux计划任务和调度命令at/cron一、计划任务二、命令{at}介绍三、命令语法及功能 :at

Java数组初始化的五种方式

《Java数组初始化的五种方式》数组是Java中最基础且常用的数据结构之一,其初始化方式多样且各具特点,本文详细讲解Java数组初始化的五种方式,分析其适用场景、优劣势对比及注意事项,帮助避免常见陷阱... 目录1. 静态初始化:简洁但固定代码示例核心特点适用场景注意事项2. 动态初始化:灵活但需手动管理代

Linux内核参数配置与验证详细指南

《Linux内核参数配置与验证详细指南》在Linux系统运维和性能优化中,内核参数(sysctl)的配置至关重要,本文主要来聊聊如何配置与验证这些Linux内核参数,希望对大家有一定的帮助... 目录1. 引言2. 内核参数的作用3. 如何设置内核参数3.1 临时设置(重启失效)3.2 永久设置(重启仍生效

Android Mainline基础简介

《AndroidMainline基础简介》AndroidMainline是通过模块化更新Android核心组件的框架,可能提高安全性,本文给大家介绍AndroidMainline基础简介,感兴趣的朋... 目录关键要点什么是 android Mainline?Android Mainline 的工作原理关键

QT进行CSV文件初始化与读写操作

《QT进行CSV文件初始化与读写操作》这篇文章主要为大家详细介绍了在QT环境中如何进行CSV文件的初始化、写入和读取操作,本文为大家整理了相关的操作的多种方法,希望对大家有所帮助... 目录前言一、CSV文件初始化二、CSV写入三、CSV读取四、QT 逐行读取csv文件五、Qt如何将数据保存成CSV文件前言

pytorch自动求梯度autograd的实现

《pytorch自动求梯度autograd的实现》autograd是一个自动微分引擎,它可以自动计算张量的梯度,本文主要介绍了pytorch自动求梯度autograd的实现,具有一定的参考价值,感兴趣... autograd是pytorch构建神经网络的核心。在 PyTorch 中,结合以下代码例子,当你

C++中初始化二维数组的几种常见方法

《C++中初始化二维数组的几种常见方法》本文详细介绍了在C++中初始化二维数组的不同方式,包括静态初始化、循环、全部为零、部分初始化、std::array和std::vector,以及std::vec... 目录1. 静态初始化2. 使用循环初始化3. 全部初始化为零4. 部分初始化5. 使用 std::a

SpringMVC获取请求参数的方法

《SpringMVC获取请求参数的方法》:本文主要介绍SpringMVC获取请求参数的方法,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下... 目录1、通过ServletAPI获取2、通过控制器方法的形参获取请求参数3、@RequestParam4、@

mysql的基础语句和外键查询及其语句详解(推荐)

《mysql的基础语句和外键查询及其语句详解(推荐)》:本文主要介绍mysql的基础语句和外键查询及其语句详解(推荐),本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋... 目录一、mysql 基础语句1. 数据库操作 创建数据库2. 表操作 创建表3. CRUD 操作二、外键

Spring Boot项目部署命令java -jar的各种参数及作用详解

《SpringBoot项目部署命令java-jar的各种参数及作用详解》:本文主要介绍SpringBoot项目部署命令java-jar的各种参数及作用的相关资料,包括设置内存大小、垃圾回收... 目录前言一、基础命令结构二、常见的 Java 命令参数1. 设置内存大小2. 配置垃圾回收器3. 配置线程栈大小