DL基础补全计划(五)---数值稳定性及参数初始化(梯度消失、梯度爆炸)

本文主要是介绍DL基础补全计划(五)---数值稳定性及参数初始化(梯度消失、梯度爆炸),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

PS:要转载请注明出处,本人版权所有。

PS: 这个只是基于《我自己》的理解,

如果和你的原则及想法相冲突,请谅解,勿喷。

环境说明
  • Windows 10
  • VSCode
  • Python 3.8.10
  • Pytorch 1.8.1
  • Cuda 10.2

前言


  如果有计算机背景的相关童鞋,都应该知道数值计算中的上溢和下溢的问题。关于计算机中的数值表示,在我的《数与计算机 (编码、原码、反码、补码、移码、IEEE 754、定点数、浮点数)》 (https://blog.csdn.net/u011728480/article/details/100277582) 一文中有比较好的介绍。计算机中的数值表示,相对于实数数轴来说是离散且有限的,意思就是计算机中的能表示的数有最大值和最小值以及最小单位,特别是浮点数表示,有兴趣的可以看看上文。

  其实很好理解,深度学习里面具有大量的乘法加法,一不小心你就会遇见上溢和下溢的问题,因此我们一不小心就会遇见NAN和INF的问题(NAN和INF详见上文提到的文章)。此外,由于一些特殊的情况,可能会导致我们的参数的偏导数接近于0,让我们的模型收敛的非常的慢。因此我们可能需要从模型的初始化以及相关的模型构造方面来好好的讨论一下我们在训练过程中可能出现的问题。

  一般来说,我们训练的时候都非常的关注我们的损失函数,如果损失函数值异常,会导致相关的偏导数出现接近于0或者接近于无限大,那么就会直接导致模型训练及其困难。此外,我们的权重参数也会参与网络计算,按照上述的描述,权重参数的初始值也可能导致损失函数的值异常。因此大佬们也引入了另外一种常见的初始化方式Xavier,比较具有普适性。下面我们简单的验证一下我们训练过程中出现梯度接近于0和接近于无限大的情况,这里也就是说的梯度消失和梯度爆炸问题。同时也简单说明参数初始化相关的问题。





梯度消失(gradient vanishing)


  在深度学习中有一个激活层叫做Sigmoid层,其定义如下是: S i g m o i d ( x ) = 1 / ( 1 + exp ⁡ ( − x ) ) Sigmoid(x)=1/(1+\exp(-x)) Sigmoid(x)=1/(1+exp(x)),如果我们的模型里面接入了这种激活函数,很容易构造出梯度消失的情况,下面我们看一下其导数和函数值相对于X的相关关系。

  代码如下:

import torch
import numpy as np
import matplotlib.pyplot as pltfig, ax = plt.subplots()
xdata, ydata = [[], []], [[], []]
line0, = ax.plot([], [], 'r-', label='sigmoid')
line1, = ax.plot([], [], 'b-', label='gradient-sigmoid')def init_and_show(xlim_min, xlim_max, ylim_min, ylim_max):ax.set_xlabel('x')ax.set_ylabel('sigmoid(x)')ax.set_title('sigmoid/gradient-sigmoid')ax.set_xlim(xlim_min, xlim_max)ax.set_ylim(ylim_min, ylim_max)ax.legend([line0, line1], ('sigmoid', 'gradient-sigmoid'))line0.set_data(xdata[0], ydata[0])line1.set_data(xdata[1], ydata[1])plt.show()def sigmoid_test():x = np.arange(-10.0, 10.0, 0.1)x = torch.tensor(x, dtype=torch.float, requires_grad=True)sig_fun = torch.nn.Sigmoid()y = sig_fun(x)y.backward(torch.ones_like(y))xdata[0] = x.detach().numpy()xdata[1] = x.detach().numpy()ydata[0] = y.detach().numpy()ydata[1] = x.grad.detach().numpy()init_and_show(-10.0, 10.0, 0, 1)def multi_mat_dot():M = np.random.normal(size=(4, 4))print('⼀个矩阵\n', M)for i in range(10000):M = np.dot(M, np.random.normal(size=(4, 4)))print('乘以100个矩阵后\n', M)if __name__ == '__main__':sigmoid_test()

  结果图如下

rep_img

  我们可以从图中看到,当x小于-5和大于+5的时候,其导数的值接近于0,导致bp的时候,参数更新小,模型收敛的特别的慢。





梯度爆炸(gradient exploding)


  现在我们假设我们有一个模型,其有N个线性层构成,定义输入为X,标签为Y,模型为 M ( X ) = X ∗ W 1 . . . . W n − 2 ∗ W n − 1 ∗ W n M(X) = X*W_1 .... W_{n-2}*W_{n-1}*W_n M(X)=XW1....Wn2Wn1Wn,损失函数为 L ( X ) = M ( X ) − Y = X ∗ W 1 . . . . W n − 2 ∗ W n − 1 ∗ W n − Y L(X) = M(X) - Y = X*W_1 .... W_{n-2}*W_{n-1}*W_n - Y L(X)=M(X)Y=XW1....Wn2Wn1WnY,求W1关于损失函数的偏导数 d L ( X ) d W 1 = X ∗ W 2 . . . . W n − 2 ∗ W n − 1 ∗ W n \frac{dL(X)}{dW_1} = X*W_2 .... W_{n-2}*W_{n-1}*W_n dW1dL(X)=XW2....Wn2Wn1Wn。从这里我们可以看到W2到Wn与输入的X的乘积构成了W1的偏导数。

  下面我们简单的构造一个矩阵,然后让他计算100次乘法。代码如下:

import torch
import numpy as np
import matplotlib.pyplot as pltfig, ax = plt.subplots()
xdata, ydata = [[], []], [[], []]
line0, = ax.plot([], [], 'r-', label='sigmoid')
line1, = ax.plot([], [], 'b-', label='gradient-sigmoid')def init_and_show(xlim_min, xlim_max, ylim_min, ylim_max):ax.set_xlabel('x')ax.set_ylabel('sigmoid(x)')ax.set_title('sigmoid/gradient-sigmoid')ax.set_xlim(xlim_min, xlim_max)ax.set_ylim(ylim_min, ylim_max)ax.legend([line0, line1], ('sigmoid', 'gradient-sigmoid'))line0.set_data(xdata[0], ydata[0])line1.set_data(xdata[1], ydata[1])plt.show()def sigmoid_test():x = np.arange(-10.0, 10.0, 0.1)x = torch.tensor(x, dtype=torch.float, requires_grad=True)sig_fun = torch.nn.Sigmoid()y = sig_fun(x)y.backward(torch.ones_like(y))xdata[0] = x.detach().numpy()xdata[1] = x.detach().numpy()ydata[0] = y.detach().numpy()ydata[1] = x.grad.detach().numpy()init_and_show(-10.0, 10.0, 0, 1)def multi_mat_dot():M = np.random.normal(size=(4, 4))print('⼀个矩阵\n', M)for i in range(100):M = np.dot(M, np.random.normal(size=(4, 4)))print('乘以100个矩阵后\n', M)if __name__ == '__main__':multi_mat_dot()

  他计算100次乘法后结果如下:

rep_img

  我们可以看到,经过100次乘法后,其值已经非常大(小)了指数都是到了25了。这个时候算出来的损失非常大的,这个时候梯度也非常大,很容易导致训练异常。





参数初始化之Xavier


  文首我们提到,我们之前的参数初始化都是基于期望为0,方差为一个指定值初始化的,这里面的指定值是随个人定义的,这个可能会给我们的训练过程带来困扰。

  但是我们可以从以下的角度来看待这个事情,我们的权重参数W是一个期望为0,方差为 δ 2 \delta^2 δ2的特定分布。我们的输入特征X是一个期望为0,方差为 λ 2 \lambda^2 λ2的特定分布(注意这里不仅仅是正态分布)。我们假设我们的模型是线性模型,那么其输出为: O i = ∑ j = 1 n W i j X j O_i = \sum\limits_{j=1}^{n}W_{ij}X_{j} Oi=j=1nWijXj O i O_i Oi是代表第i层的输出。这个时候,我们求出 O i O_i Oi的期望是: E ( O i ) = ∑ j = 1 n E ( W i j X j ) = ∑ j = 1 n E ( W i j ) E ( X j ) = 0 E(O_i) = \sum\limits_{j=1}^{n}E(W_{ij}X_{j}) = \sum\limits_{j=1}^{n}E(W_{ij})E(X_{j}) = 0 E(Oi)=j=1nE(WijXj)=j=1nE(Wij)E(Xj)=0,其方差为: V a r i a n c e ( O i ) = E ( O i 2 ) − ( E ( O i ) ) 2 = ∑ j = 1 n E ( W i j 2 X j 2 ) − 0 = ∑ j = 1 n E ( W i j 2 ) E ( X j 2 ) = n ∗ δ 2 ∗ λ 2 Variance(O_i) = E(O_i^2) - (E(O_i))^2 = \sum\limits_{j=1}^{n}E(W_{ij}^2X_{j}^2) - 0 = \sum\limits_{j=1}^{n}E(W_{ij}^2)E(X_{j}^2) = n*\delta^2*\lambda^2 Variance(Oi)=E(Oi2)(E(Oi))2=j=1nE(Wij2Xj2)0=j=1nE(Wij2)E(Xj2)=nδ2λ2。我们现在假设如果要 O i O_i Oi的方差等于X的方差,那么 n ∗ δ 2 = 1 n*\delta^2 = 1 nδ2=1才能够满足要求。现在我们考虑BP的时候,也需要 n o u t ∗ δ 2 = 1 n_{out}*\delta^2 = 1 noutδ2=1才能够保证方差不会变,至少从数值稳定性来说,我们应该保证方差尽量稳定,不应该放大。我们同时考虑n和 n o u t n_{out} nout,那么我们可以认为当 1 / 2 ∗ ( n + n o u t ) ∗ δ 2 = 1 1/2*(n+n_{out})*\delta^2 = 1 1/2(n+nout)δ2=1时,我们保证了输出O的方差在约定范围内,尽量保证了其数值的稳定性,这就是Xavier方法的核心内容。

  初始化方法有很多,但是Xavier方法有较大的普适性。对于某些模型,特定的初始化方法有奇效。





后记


  到本文结束,其实我们可以训练一些简单的模型了,但是本文所介绍的3个概念会一直伴随着我们以后的学习过程,如果训练出现了INF,NAN这些特殊的值,基本我们就需要往这方面去想和解决问题。

参考文献

  • https://github.com/d2l-ai/d2l-zh/releases (V1.0.0)
  • https://github.com/d2l-ai/d2l-zh/releases (V2.0.0 alpha1)
  • https://blog.csdn.net/u011728480/article/details/100277582 《数与计算机 (编码、原码、反码、补码、移码、IEEE 754、定点数、浮点数)》



打赏、订阅、收藏、丢香蕉、硬币,请关注公众号(攻城狮的搬砖之路)
qrc_img

PS: 请尊重原创,不喜勿喷。

PS: 要转载请注明出处,本人版权所有。

PS: 有问题请留言,看到后我会第一时间回复。

这篇关于DL基础补全计划(五)---数值稳定性及参数初始化(梯度消失、梯度爆炸)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/1065761

相关文章

C#基础之委托详解(Delegate)

《C#基础之委托详解(Delegate)》:本文主要介绍C#基础之委托(Delegate),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1. 委托定义2. 委托实例化3. 多播委托(Multicast Delegates)4. 委托的用途事件处理回调函数LINQ

一文带你了解SpringBoot中启动参数的各种用法

《一文带你了解SpringBoot中启动参数的各种用法》在使用SpringBoot开发应用时,我们通常需要根据不同的环境或特定需求调整启动参数,那么,SpringBoot提供了哪些方式来配置这些启动参... 目录一、启动参数的常见传递方式二、通过命令行参数传递启动参数三、使用 application.pro

基于@RequestParam注解之Spring MVC参数绑定的利器

《基于@RequestParam注解之SpringMVC参数绑定的利器》:本文主要介绍基于@RequestParam注解之SpringMVC参数绑定的利器,具有很好的参考价值,希望对大家有所帮助... 目录@RequestParam注解:Spring MVC参数绑定的利器什么是@RequestParam?@

Spring组件初始化扩展点BeanPostProcessor的作用详解

《Spring组件初始化扩展点BeanPostProcessor的作用详解》本文通过实战案例和常见应用场景详细介绍了BeanPostProcessor的使用,并强调了其在Spring扩展中的重要性,感... 目录一、概述二、BeanPostProcessor的作用三、核心方法解析1、postProcessB

SpringBoot接收JSON类型的参数方式

《SpringBoot接收JSON类型的参数方式》:本文主要介绍SpringBoot接收JSON类型的参数方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、jsON二、代码准备三、Apifox操作总结一、JSON在学习前端技术时,我们有讲到过JSON,而在

JAVA虚拟机中 -D, -X, -XX ,-server参数使用

《JAVA虚拟机中-D,-X,-XX,-server参数使用》本文主要介绍了JAVA虚拟机中-D,-X,-XX,-server参数使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录一、-D参数二、-X参数三、-XX参数总结:在Java开发过程中,对Java虚拟机(JVM)的启动参数进

解读docker运行时-itd参数是什么意思

《解读docker运行时-itd参数是什么意思》在Docker中,-itd参数组合用于在后台运行一个交互式容器,同时保持标准输入和分配伪终端,这种方式适合需要在后台运行容器并保持交互能力的场景... 目录docker运行时-itd参数是什么意思1. -i(或 --interactive)2. -t(或 --

C++初始化数组的几种常见方法(简单易懂)

《C++初始化数组的几种常见方法(简单易懂)》本文介绍了C++中数组的初始化方法,包括一维数组和二维数组的初始化,以及用new动态初始化数组,在C++11及以上版本中,还提供了使用std::array... 目录1、初始化一维数组1.1、使用列表初始化(推荐方式)1.2、初始化部分列表1.3、使用std::

0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型的操作流程

《0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeekR1模型的操作流程》DeepSeekR1模型凭借其强大的自然语言处理能力,在未来具有广阔的应用前景,有望在多个领域发... 目录0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型,3步搞定一个应

Java通过反射获取方法参数名的方式小结

《Java通过反射获取方法参数名的方式小结》这篇文章主要为大家详细介绍了Java如何通过反射获取方法参数名的方式,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1、前言2、解决方式方式2.1: 添加编译参数配置 -parameters方式2.2: 使用Spring的内部工具类 -