第二门课:改善深层神经网络<超参数调试、正则化及优化>-深度学习的实用层面

本文主要是介绍第二门课:改善深层神经网络<超参数调试、正则化及优化>-深度学习的实用层面,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 1 训练集、验证集以及测试集
  • 2 偏差与方差
  • 3 机器学习基础
  • 4 正则化
  • 5 为什么正则化可以减少过拟合?
  • 6 Dropout<随机失活>正则化
  • 7 理解Dropout
  • 8 其他正则化方法
  • 9 归一化输入
  • 10 梯度消失和梯度爆炸
  • 11 神经网络的权重初始化
  • 12 梯度的数值逼近
  • 13 梯度检验
  • 14 关于梯度检验的注记

1 训练集、验证集以及测试集

验证集与测试集要确保来自同一个分布
因为验证集要用来评估不同的模型,尽可能的优化性能
但由于深度学习需要大量的训练数据,为了获取大规模的训练数据集,可以采用当前流行的创意策略,比如:网页抓取,代价就是训练集数据与验证集数据和测试集数据有可能不是来自同一个分布。
测试集的目的是对最终所选定的神经网络系统做出无偏评估
训练集(train set) —— 用于模型拟合的数据样本。
验证集(development set)—— 是模型训练过程中单独留出的样本集,用于调整模型的超参数以及对模型的能力进行初步评估。通常用来在模型迭代训练时,用以验证当前模型泛化能力(准确率,召回率等),以决定是否停止继续训练。
测试集(test set) —— 用来评估模最终模型的泛化能力。但不能作为调参、选择特征等算法相关的选择的依据。

2 偏差与方差

在这里插入图片描述
如果给数据集拟合一条直线,可能得到一个逻辑回归拟合
第一个为偏差高的情况,称为“欠拟合
第二个为复杂程度适中,数据拟合适度的分类器
第三个分类器偏差较高,数据过度拟合
在这里插入图片描述
第一种训练集很好,验证集误差大,可能是过度拟合了训练集,某种程度上,验证机并没有充分利用交叉验证集的作用,则称之为“高方差”。
第二种训练集与验证集相差不多,则证明是训练集拟合度不高,可能会分辨不出目标,即数据欠拟合,则算法高偏差。对于验证集产生的结果是合理的,与上面一张图片的high bias相似。

3 机器学习基础

在这里插入图片描述
首先要知道算法的偏差是否高,如果偏差较高,试着评估训练集或训练数据的性能。如果偏差较高甚至无法拟合训练集,则选择一个新网络,然后反复尝试,直到可以拟合数据为止。如果网络足够大,通常可以很好的拟合训练集。
如果方差高,最好的解决方法就是采用更多数据以及正则化

4 正则化

在这里插入图片描述
只正则化w是因为w通常是高维度矢量,已经可以表达高方差问题,w可能含有很多参数,我们不可能拟合所有参数,而b只是单个数字,所以w几乎涵盖了所有参数,而不是b,如果加了参数b也没有什么太大的影响,因此b只是众多参数中的一个,因此我们通常忽略不计。

在这里插入图片描述

λ是正则化参数,通常使用验证集或交叉验证来配置这个参数。
λ是一个需要调整的超级参数。
L2范数正则化也被称为“权重衰减”
Backprop输出的最初梯度值即反向传播输出的最初梯度值
在这里插入图片描述

5 为什么正则化可以减少过拟合?

在这里插入图片描述
在这里插入图片描述

当 λ 设置的很大的时候,最终W 会变得很接近于 0,神经网络中的很多单元的作用变得很小,整个网络越来越接近逻辑回归。在λ 设置的很大的时候,高方差会变为高偏差,当λ 取得一个适中的值时,不会再存在高偏差以及高方差。
λ 增大时,整个神经网络会计算离线性函数近的值,这个线性函数非常简单,不是复杂的高度非线性函数,不会发生过拟合

6 Dropout<随机失活>正则化

Dropout遍历网络的每一层,并设置消除神经网络中节点的概率,假设每个节点得以保留和消除的概率为0.5,设置完节点概率,消除一部分节点,然后消除从该节点进出的连线,最后得到一个节点更少、规模更小的网络,然后使用backprop进行训练。
在这里插入图片描述
以三层网络为例:

keep_prob = 0.8# 设置神经元保留概率为0.8,消除任意一个隐藏单元的概率是0.2
d3 = np.random.rand(a3.shape[0], a3.shape[1]) < keep_prob   
#生成指定维度的的[0,1)范围之间的随机数,输入参数为维度,shape[0]只输出行数,shape[1]只输出列数。矩阵中随机数小于0.8为1,否则为0
a3 = np.multiply(a3, d3)
a3 /= keep_prob  #是为了保证下一层计算的时候期望值不变。

事实上,dropout也是产生权重收缩的效果。
当keep_prob = 1的时候,就会保留原始所有的神经元,即关闭dropout功能
在这里插入图片描述

7 理解Dropout

1、dropout随机删除网络中的神经单元
2、dropout将产生收缩权重的平方范数的效果,和我们之前讲过的L2正则化类似,实施dropout的结果是它会压缩权重,并完成一些预防过拟合的外层正则化。与L2正则化不同的是,被应用的方式不同,dropout也会有所不同,甚至更适用于不同的输入范围。L2对不同权重的衰减是不同的,它取决于倍增的激活函数的大小。
在这里插入图片描述

这是一个拥有三个输入特征的网络,其中一个要选择的参数是keep-prob,即每一层上保留单元的概率。所以不同层的keep-prob也可以变化。第一层,矩阵W[1]是7×3,第二个权重矩阵W[2]是7×7,第三个权重矩阵W[3]是3×7,以此类推,W[2]是最大的权重矩阵,因为拥有最大参数集,即7×7,为了预防矩阵的过拟合,对于这一层(第二层),它的keep-prob值应该相对较低,假设是0.5。对于其它层,过拟合的程度可能没那么严重,它们的keep-prob值可能高一些,可能是0.7,这里是0.7。如果在某一层,不必担心其过拟合的问题,那么keep-prob可以为1。

8 其他正则化方法

除L2正则化和随机失活(dropout)正则化,还有几种方法可以减少神经网络中的过拟合。
1、数据扩增 对于图片数据,可以水平翻转图片或者随意裁剪。对于数字识别,我们还可以通过添加数字,随意旋转或扭曲数字来扩增数据。
在这里插入图片描述

2、early stopping<提早停止训练神经网络>
在这里插入图片描述
在中间停止迭代,我们得到一个w值中等大小的弗罗贝尼乌斯范数,与L2正则化相似,选择参数w范数较小的神经网络。
early stopping的主要缺点不能同时处理过拟合代价函数不够小 的问题
提早停止,可能代价函数 J 不够小。
不提早结束,可能会过拟合。
Early stopping的优点是,只运行一次梯度下降,你可以找出w的较小值,中间值和较大值,而无需尝试L2正则化超级参数的很多值。

9 归一化输入

归一化输入,可以加速训练。它一般需要两个以下步骤:
零均值化(所有的数据减去均值),X等于每个训练数据x减去u,意思是移动训练集,直到它完成零均值化
在这里插入图片描述
2、归一化方差 (所有数据除以方差),由于已经完成了零均值化,把所有数据除以σ平方。这样x1和x2的方差都等于1。
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
如果你使用非归一化的输入特征,梯度下降法可能需要多次迭代过程,直到最后找到最小值。
如果进行归一化处理,函数是一个更圆的球形轮廓(右上方),那么不论从哪个位置开始,梯度下降法都能够更直接地找到最小值。

10 梯度消失和梯度爆炸

在这里插入图片描述
在这里插入图片描述
y帽等于1.5^(L-1) x,L越大,y帽越大,呈指数型增长,也称爆炸式增长。相反,如果权重矩阵W的元素都小于1,如0.5,L越大,y帽正比于0.5^L,呈指数型减小,称为数值消失。当各层权重W都大于1或者小于1,当层数很大时,出现数值爆炸或消失。

11 神经网络的权重初始化

可以将神经网络的权重初始化来尝试解决梯度消失和爆炸
在这里插入图片描述
为了预防z值过大或者过小,你可以看到n越大,你希望w_i越小,最合理的方法是设置为w_i = 1/n,n表示神经元的输入特征数量。设置第l层权重矩阵为:
在这里插入图片描述
其中,n^(l-1)是第l-1层神经元的数量。
在这里插入图片描述

12 梯度的数值逼近

在反向传播时,有个测试叫做梯度检验。即计算误差时,我们需要使用双边误差,不使用单边误差,因为前者更准确。
在这里插入图片描述

13 梯度检验

梯度检验使用双边误差进行检验
d\theta i是代价函数的偏导数,d\theta approx与d\theta i有相同的维度,他们两个与\theta具有相同的维度。
检验这些向量是否接近<计算这两个向量的欧氏距离>:
然后用向量长度做归一化

在这里插入图片描述

14 关于梯度检验的注记

1、不要在训练中使用梯度检验,它只用于调试。为了实施梯度下降,你必须使用W和b反向传播来计算dθ,只有调试的时候才会计算它。
2、如果算法的梯度检验失败,要检查所有项,检查每一项,并试着找出bug。注意θ的各项与b和w的各项都是一一对应的。
3、在实施梯度检验时,如果使用正则化,请注意正则项。
4、梯度检验不能与dropout同时使用,因为每次迭代过程中,dropout会随机消除隐藏层单元的不同子集,难以计算dropout在梯度下降上的代价函数J。

这篇关于第二门课:改善深层神经网络<超参数调试、正则化及优化>-深度学习的实用层面的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/790383

相关文章

Go中sync.Once源码的深度讲解

《Go中sync.Once源码的深度讲解》sync.Once是Go语言标准库中的一个同步原语,用于确保某个操作只执行一次,本文将从源码出发为大家详细介绍一下sync.Once的具体使用,x希望对大家有... 目录概念简单示例源码解读总结概念sync.Once是Go语言标准库中的一个同步原语,用于确保某个操

Python调用另一个py文件并传递参数常见的方法及其应用场景

《Python调用另一个py文件并传递参数常见的方法及其应用场景》:本文主要介绍在Python中调用另一个py文件并传递参数的几种常见方法,包括使用import语句、exec函数、subproce... 目录前言1. 使用import语句1.1 基本用法1.2 导入特定函数1.3 处理文件路径2. 使用ex

Oracle查询优化之高效实现仅查询前10条记录的方法与实践

《Oracle查询优化之高效实现仅查询前10条记录的方法与实践》:本文主要介绍Oracle查询优化之高效实现仅查询前10条记录的相关资料,包括使用ROWNUM、ROW_NUMBER()函数、FET... 目录1. 使用 ROWNUM 查询2. 使用 ROW_NUMBER() 函数3. 使用 FETCH FI

C#使用HttpClient进行Post请求出现超时问题的解决及优化

《C#使用HttpClient进行Post请求出现超时问题的解决及优化》最近我的控制台程序发现有时候总是出现请求超时等问题,通常好几分钟最多只有3-4个请求,在使用apipost发现并发10个5分钟也... 目录优化结论单例HttpClient连接池耗尽和并发并发异步最终优化后优化结论我直接上优化结论吧,

Java内存泄漏问题的排查、优化与最佳实践

《Java内存泄漏问题的排查、优化与最佳实践》在Java开发中,内存泄漏是一个常见且令人头疼的问题,内存泄漏指的是程序在运行过程中,已经不再使用的对象没有被及时释放,从而导致内存占用不断增加,最终... 目录引言1. 什么是内存泄漏?常见的内存泄漏情况2. 如何排查 Java 中的内存泄漏?2.1 使用 J

MySQL中时区参数time_zone解读

《MySQL中时区参数time_zone解读》MySQL时区参数time_zone用于控制系统函数和字段的DEFAULTCURRENT_TIMESTAMP属性,修改时区可能会影响timestamp类型... 目录前言1.时区参数影响2.如何设置3.字段类型选择总结前言mysql 时区参数 time_zon

Python如何使用seleniumwire接管Chrome查看控制台中参数

《Python如何使用seleniumwire接管Chrome查看控制台中参数》文章介绍了如何使用Python的seleniumwire库来接管Chrome浏览器,并通过控制台查看接口参数,本文给大家... 1、cmd打开控制台,启动谷歌并制定端口号,找不到文件的加环境变量chrome.exe --rem

C++中实现调试日志输出

《C++中实现调试日志输出》在C++编程中,调试日志对于定位问题和优化代码至关重要,本文将介绍几种常用的调试日志输出方法,并教你如何在日志中添加时间戳,希望对大家有所帮助... 目录1. 使用 #ifdef _DEBUG 宏2. 加入时间戳:精确到毫秒3.Windows 和 MFC 中的调试日志方法MFC

五大特性引领创新! 深度操作系统 deepin 25 Preview预览版发布

《五大特性引领创新!深度操作系统deepin25Preview预览版发布》今日,深度操作系统正式推出deepin25Preview版本,该版本集成了五大核心特性:磐石系统、全新DDE、Tr... 深度操作系统今日发布了 deepin 25 Preview,新版本囊括五大特性:磐石系统、全新 DDE、Tree

Debian如何查看系统版本? 7种轻松查看Debian版本信息的实用方法

《Debian如何查看系统版本?7种轻松查看Debian版本信息的实用方法》Debian是一个广泛使用的Linux发行版,用户有时需要查看其版本信息以进行系统管理、故障排除或兼容性检查,在Debia... 作为最受欢迎的 linux 发行版之一,Debian 的版本信息在日常使用和系统维护中起着至关重要的作