25.梯度消失和梯度爆炸

2024-06-16 12:36
文章标签 梯度 25 爆炸 消失

本文主要是介绍25.梯度消失和梯度爆炸,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

深度学习中的梯度消失与梯度爆炸:定义、原因、解决办法与残差网络

一、引言

在深度学习的训练过程中,梯度消失(Gradient Vanishing)和梯度爆炸(Gradient Exploding)是两个常见且棘手的问题。它们严重阻碍了深层神经网络的训练效率和效果。本文将深入探讨这两个问题的定义、原因、解决办法,并介绍残差网络(ResNet)如何解决这些问题。

二、梯度消失与梯度爆炸的定义

梯度消失

梯度消失指的是在训练深层神经网络时,由于链式法则的连乘效应,当网络层数过深时,梯度在反向传播过程中会逐渐减小到接近于0,导致深层网络的权重无法得到有效的更新。

梯度爆炸

梯度爆炸则相反,指的是在训练深层神经网络时,梯度在反向传播过程中逐渐增大,甚至以指数级速度增长,导致权重更新过大,破坏网络的稳定性。

三、梯度消失与梯度爆炸的原因

链式法则

在反向传播过程中,梯度是通过链式法则逐层传递的。如果网络层数过深,且激活函数的梯度小于1(如Sigmoid函数),那么在多层连续相乘后,梯度会逐渐减小到接近于0,导致梯度消失;而如果梯度大于1,则会导致梯度爆炸。

初始化权重

网络权重的初始化方式也会影响梯度的传播。如果初始权重过大,可能导致梯度在反向传播过程中迅速增大,引起梯度爆炸;如果初始权重过小,则可能导致梯度在传播过程中逐渐减小,引起梯度消失。

四、梯度消失与梯度爆炸的解决办法

1.预训练与微调(Pre-training and Fine-tuning):早期的一种方法,先在一个大型数据集上进行预训练,然后在特定任务上进行微调。这种方法可以减轻梯度消失和爆炸的问题,但现在已经较少使用。

2.梯度裁剪

梯度裁剪是一种直接控制梯度大小的方法。在反向传播过程中,如果梯度的范数超过某个阈值,就将其截断为阈值大小。这样可以有效防止梯度爆炸。

3.使用ReLU激活函数

ReLU(Rectified Linear Unit)激活函数在输入大于0时梯度为1,不会出现梯度消失的问题;而在输入小于0时梯度为0,有助于稀疏化网络。因此,使用ReLU激活函数可以有效缓解梯度消失和梯度爆炸的问题。

4.改进版的ReLU激活函数:为了解决ReLU的缺点,研究者提出了多种改进版的ReLU函数,如Leaky ReLU、Parametric ReLU(PReLU)、Exponential Linear Unit(ELU)等。

5.Batch Normalization

Batch Normalization是一种有效的正则化方法,它通过规范化每一层的输入来加速网络训练。在训练过程中,Batch Normalization会对每一层的输入进行标准化处理,使其具有均值为0、方差为1的分布。这样可以减小梯度对初始权重的依赖,从而缓解梯度消失和梯度爆炸的问题。

6.残差网络(ResNet)

残差网络通过引入残差连接(shortcut connections)来解决梯度消失和梯度爆炸的问题。残差连接允许梯度在反向传播时绕过某些层直接传播到较浅的层,从而有效避免了梯度消失的问题。同时,由于残差连接的存在,网络在训练时可以更容易地学习到恒等映射(identity mapping),这有助于保持网络的稳定性并防止梯度爆炸。

 

五、残差网络(ResNet)的实现

基于残差网络(ResNet)的实现,我们可以进一步探讨其结构、特点以及在实际应用中的优势。以下是对ResNet实现的详细解析:

1. 残差块(Residual Block)

残差块是ResNet的核心组件,它解决了随着网络深度增加出现的性能下降(也称为退化问题)的问题。残差块的设计基于恒等映射(identity mapping)的思想,允许网络在必要时跳过一些层,从而更直接地传播梯度。

残差块的基本结构如下:

  • 包含两个或多个卷积层(以及可能的批量归一化层和激活函数层)。
  • 引入了一个跨层的连接(即shortcut或skip connection),将输入直接连接到输出。

这样的结构可以表示为:

H(x)=F(x)+x

其中,x 是输入,F(x) 是残差函数(即卷积层等结构所学习的映射),H(x) 是最终的输出。

2. 残差网络的构建

ResNet由多个残差块堆叠而成,形成一个深层的神经网络结构。根据具体的任务和网络规模,可以设计不同深度和宽度的ResNet。

在构建ResNet时,需要考虑以下几点:

  • 深度:通常,增加网络深度可以提高性能,但也会增加计算量和过拟合的风险。因此,需要根据任务和数据集的大小选择合适的深度。
  • 宽度:每个残差块的宽度(即卷积层的通道数)也会影响网络的性能。较宽的残差块可以提取更多的特征,但也会增加计算量。
  • 残差块的类型:根据残差块中卷积层的数量和连接方式,可以设计不同类型的残差块,如基本的残差块(包含两个卷积层)和瓶颈残差块(包含三个卷积层,其中第一个和最后一个卷积层的通道数较少,以减少计算量)。

3. 实现细节

在实现ResNet时,需要注意以下细节:

  • 初始化:使用合适的权重初始化方法,如He初始化,可以加速训练并提高模型的性能。
  • 批量归一化:在每个卷积层后添加批量归一化层,可以加速训练并缓解过拟合问题。
  • 激活函数:使用ReLU或类似的激活函数,以增加模型的非线性表达能力。
  • 下采样:在需要减小特征图尺寸时,可以使用步长为2的卷积层或池化层进行下采样。同时,为了确保残差连接能够匹配输入和输出的尺寸,可以在shortcut连接中添加一个额外的卷积层或池化层进行下采样。

4. 应用与优势

ResNet在多个领域都取得了显著的性能提升,特别是在图像分类、目标检测等任务中。其优势主要体现在以下几个方面:

  • 解决了深度神经网络中的退化问题,使得训练更深层的网络成为可能。
  • 通过引入残差连接,缓解了梯度消失和梯度爆炸的问题,提高了模型的训练效率和稳定性。
  • 具有较强的特征提取能力,可以学习到更丰富的层次化特征表示。
  • 具有良好的泛化能力,可以在不同的数据集和任务上取得较好的性能。

总之,ResNet通过引入残差连接的思想,成功解决了深度神经网络中的退化问题,并在多个领域取得了显著的性能提升。其实现细节和应用优势也为我们设计更优秀的深度学习模型提供了有益的参考。

import torch  
import torch.nn as nn  class BasicBlock(nn.Module):  expansion = 1  def __init__(self, in_channels, out_channels, stride=1, downsample=None):  super(BasicBlock, self).__init__()  # 第一个卷积层,不改变通道数  self.conv1 = nn.Conv2d(in_channels, out_channels, kernel_size=3, stride=stride, padding=1, bias=False)  self.bn1 = nn.BatchNorm2d(out_channels)  self.relu = nn.ReLU(inplace=True)  # 第二个卷积层,不改变通道数和步长  self.conv2 = nn.Conv2d(out_channels, out_channels, kernel_size=3, stride=1, padding=1, bias=False)  self.bn2 = nn.BatchNorm2d(out_channels)  # 如果需要下采样,则使用1x1卷积改变通道数并降低空间分辨率  self.downsample = downsample  def forward(self, x):  residual = x  # 经过两个卷积层  out = self.conv1(x)  out = self.bn1(out)  out = self.relu(out)  out = self.conv2(out)  out = self.bn2(out)  # 如果需要进行下采样,则对输入x进行同样的操作  if self.downsample is not None:  residual = self.downsample(x)  # 将残差连接添加到输出上  out += residual  out = self.relu(out)  return out  class ResNet(nn.Module):  def __init__(self, block, layers, num_classes=10):  super(ResNet, self).__init__()  # 输入为3通道的图像,大小为224x224  self.in_channels = 64  # 初始的卷积层  self.conv1 = nn.Conv2d(3, 64, kernel_size=7, stride=2, padding=3, bias=False)  self.bn1 = nn.BatchNorm2d(64)  self.relu = nn.ReLU(inplace=True)  self.maxpool = nn.MaxPool2d(kernel_size=3, stride=2, padding=1)  # 构建残差块  self.layer1 = self._make_layer(block, 64, layers[0])  self.layer2 = self._make_layer(block, 128, layers[1], stride=2)  self.layer3 = self._make_layer(block, 256, layers[2], stride=2)  self.layer4 = self._make_layer(block, 512, layers[3], stride=2)  # 全连接层进行分类  self.avgpool = nn.AdaptiveAvgPool2d((1, 1))  self.fc = nn.Linear(512 * block.expansion, num_classes)  def _make_layer(self, block, out_channels, blocks, stride=1):  downsample = None  if stride != 1 or self.in_channels != out_channels * block.expansion:  downsample = nn.Sequential(  nn.Conv2d(self.in_channels, out_channels * block.expansion, kernel_size=1, stride=stride, bias=False),  nn.BatchNorm2d(out_channels * block.expansion)  )  layers = []  layers.append(block(self.in_channels, out_channels, stride, downsample))  self.in_channels = out_channels * block.expansion  for _ in range(1, blocks):  layers.append(block(self.in_channels, out_channels))  return nn.Sequential(*layers)  def forward(self, x):  out = self.conv1(x)  out = self.bn1(out)  out = self.relu(out)  out = self.maxpool(out)  # 传递输入到各个残差层  out = self.layer1(out)  out = self.layer2(out)  out = self.layer3(out)  out = self.layer4(out)  # 对输出进行全局平均池化,展平  out = self.avgpool(out)  out = torch.flatten(out, 1)  # 全连接层进行分类  out = self.fc(out)  return out  # 示例:定义一个ResNet18  
def resnet18(num_classes=1000):  return ResNet(BasicBlock, [2, 2, 2, 2], num_classes=num_classes)  # 实例化ResNet18模型  
model = resnet18(num_classes=10)  # 假设有10个类别  # 打印模型结构  
print(model)  # 如果你有数据的话,可以继续编写代码进行训练  
# 例如,加载数据集、定义损失函数、优化器、训练循环等  # 示例:定义损失函数和优化器(这里只是示例,你需要根据实际情况设置)  
# criterion = nn.CrossEntropyLoss()  
# optimizer = torch.optim.SGD(model.parameters(), lr=0.01, momentum=0.9)  # 注意:上面的代码只是一个示例,并没有实际的数据加载和训练过程。  
# 在实际使用中,你需要添加数据加载、训练循环、验证等步骤来完整实现ResNet的训练。

以上代码定义了一个简单的ResNet模型,并给出了一个实例化ResNet18的示例。ResNet18包含4个残差层,每个层包含2个BasicBlock。你可以根据实际需求调整层数和每层的Block数量来构建不同深度的ResNet模型。同时,你还需要定义损失函数和优化器,并编写数据加载和训练循环的代码来完成模型的训练过程。

这篇关于25.梯度消失和梯度爆炸的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1066466

相关文章

PS系统教程25

介绍软件 BR(bridge) PS 配套软件,方便素材整理、管理素材 作用:起到桥梁作用 注意:PS和BR尽量保持版本一致 下载和安装可通过CSDN社区搜索,有免费安装指导。 安装之后,我们打开照片只需双击照片,就自动在Ps软件中打开。 前提:电脑上有PS软件 三种预览格式 全屏预览 评星级 直接按数字键就可以 方向键可以更换图片 esc退出 幻灯片放

【团队成长】2024-25周周报-业务介绍内容创作

大家好!我们是IndustryOR 团队,致力于分享业界落地的算法技术。欢迎关注微信公众号/知乎/CSDN【运筹匠心】 。 记录人:张哲铭,某互联网大厂算法专家 【团队成长/个人成长】系列的推文会以 【工作周报】 的方式记录IndustryOR团队及其成员的成长过程,请大家一起见证和参与我们团队从0-1-N的发展过程。 记录人顺序:张哲铭-向杜兵-高欣甜-黄世鸿-许佳鸣

智能优化算法改进策略之局部搜索算子(六)--进化梯度搜索

1、原理介绍     进化梯度搜索(Evolutionary Gradient Search, EGS)[1]是兼顾进化计算与梯度搜索的一种混合算法,具有较强的局部搜索能力。在每次迭代过程中,EGS方法首先用受进化启发的形式估计梯度方向,然后以最陡下降的方式执行实际的迭代步骤,其中还包括步长的自适应,这一过程的总体方案如下图所示:     文献[1]

昇思25天学习打卡营第5天|网络构建

一、简介: 神经网络模型是由神经网络层和Tensor操作构成的,mindspore.nn提供了常见神经网络层的实现,在MindSpore中,Cell类是构建所有网络的基类(这个类和pytorch中的modul类是一样的作用),也是网络的基本单元。一个神经网络模型表示为一个Cell,它由不同的子Cell构成。使用这样的嵌套结构,可以简单地使用面向对象编程的思维,对神经网络结构进行构建和管理。

智能优化算法改进策略之局部搜索算子(四)--梯度搜索法

2、仿真实验 以海洋捕食者算法(MPA)为基本算法。考察基于梯度搜索的改进海洋捕食者算法(命名为GBSMPA) vs. 海洋捕食者算法(MPA)  在Sphere函数上的比较      在Penalized1函数上的比较    在CEC2017-1上的比较    在CEC2017-3上的比较 在CEC2017-4上的比较 代码获取:

昇思25天学习打卡营第5天 | 网络构建

内容介绍:神经网络模型是由神经网络层和Tensor操作构成的,mindspore.nn提供了常见神经网络层的实现,在MindSpore中,Cell类是构建所有网络的基类,也是网络的基本单元。一个神经网络模型表示为一个`Cell`,它由不同的子`Cell`构成。使用这样的嵌套结构,可以简单地使用面向对象编程的思维,对神经网络结构进行构建和管理。 具体内容: 1. 导包 import minds

Pytorch(5)-----梯度计算

一、问题     如何使用Pytorch计算样本张量的基本梯度呢?考虑一个样本数据集,且有两个展示变量,在给定初始权重的基础上,如何在每次迭代中计算梯度呢? 二、如何运行     假设有x_data 和 y_data 列表,计算两个列表需要计算损失函数,一个forward通道以及一个循环中的训练。     forward函数计算权重矩阵和输入张量的乘积。 from torch imp

昇思25天学习打卡营第4天 | 数据变换

内容介绍:通常情况下,直接加载的原始数据并不能直接送入神经网络进行训练,此时我们需要对其进行数据预处理。MindSpore提供不同种类的数据变换(Transforms),配合数据处理Pipeline来实现数据预处理。所有的Transforms均可通过`map`方法传入,实现对指定数据列的处理。 具体内容: 1. 导包 import numpy as npfrom PIL import Im

全网最全!25届最近5年上海理工大学自动化考研院校分析

上海理工大学 目录 一、学校+学院+专业简介 二、考试科目+指定教材 三、近5年考研分数情况 四、近5年招生录取情况 五、最新一年分数段图表 六、历年真题PDF 七、初试大纲+复试大纲 八、学费&奖学金&就业方向 一、学校+学院+专业简介 二、考试科目+指定教材 1、考试科目介绍 2、指定教材介绍 三、近5年考研分数情况

【Rust日报】 2019-05-25:Mockiato - 一個嚴格友好的Mock測試庫

Into The Wild 有人用rust寫了一個很像lf2(Little Fighter 2)的2.5D動作遊戲 Read more Rust官网的国际化支持,在找人翻译 Read more Read more 「讨论」对于单人主力维护的项目如何看待 楼主覺得 actix 和 rust-postgres 很棒 但發現這兩個庫都只有一個大佬在當主力開發,他覺得庫只有一人維護對大公司來