吴恩达深度学习笔记:深度学习的 实践层面 (Practical aspects of Deep Learning)1.4-1.5

本文主要是介绍吴恩达深度学习笔记:深度学习的 实践层面 (Practical aspects of Deep Learning)1.4-1.5,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

  • 第一门课:第二门课 改善深层神经网络:超参数调试、正 则 化 以 及 优 化 (Improving Deep Neural Networks:Hyperparameter tuning, Regularization and Optimization)
    • 第一周:深度学习的 实践层面 (Practical aspects of Deep Learning)
      • 1.4 正则化(Regularization)

第一门课:第二门课 改善深层神经网络:超参数调试、正 则 化 以 及 优 化 (Improving Deep Neural Networks:Hyperparameter tuning, Regularization and Optimization)

第一周:深度学习的 实践层面 (Practical aspects of Deep Learning)

1.4 正则化(Regularization)

深度学习可能存在过拟合问题——高方差,有两个解决方法,一个是正则化,另一个是准备更多的数据,这是非常可靠的方法,但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高,但正则化通常有助于避免过拟合或减少你的网络误差。

下面我们就来讲讲正则化的作用原理。

我们用逻辑回归来实现这些设想,求成本函数𝐽的最小值,它是我们定义的成本函数,参数包含一些训练数据和不同数据中个体预测的损失,w和b是逻辑回归的两个参数,w是一个多维度参数矢量,b是一个实数。在逻辑回归函数中加入正则化,只需添加参数 λ,也就是正则化参数,一会儿再详细讲。

λ 2 m \frac{λ}{2m} 2mλ乘以w范数的平方,w欧几里德范数的平方等于 w j w_j wj(j 值从 1 到n_x)平方的和,也可表示为 w T w w^Tw wTw,也就是向量参数w 的欧几里德范数(2 范数)的平方,此方法称为𝐿2正则化。因为这里用了欧几里德法线,被称为向量参数𝑤的𝐿2范数。

在这里插入图片描述
为什么只正则化参数𝑤?为什么不再加上参数 𝑏 呢?因为𝑤通常是一个高维参数矢量,已经可以表达高偏差问题,𝑤可能包含有很多参数,
我们不可能拟合所有参数,而𝑏只是单个数字,所以𝑤几乎涵盖所有参数,而不是𝑏,如果加了参数𝑏,其实也没太大影响,因为𝑏只是众多参数中的一个,所以我通常省略不计,如果你想加上这个参数,完全没问题。

𝐿2正则化是最常见的正则化类型,你们可能听说过𝐿1正则化,𝐿1正则化,加的不是𝐿2范数,而是正则项 λ m \frac{λ}{m} mλ乘以 ∑ j = 1 n x ∣ x ∣ \sum_{j=1}^{nx}{|x|} j=1nxx ∑ j = 1 n x ∣ x ∣ \sum_{j=1}^{nx}{|x|} j=1nxx也被称为参数𝑤向量的𝐿1范数,无论分母是𝑚还是2𝑚,它都是一个比例常量。

如果用的是𝐿1正则化,𝑤最终会是稀疏的,也就是说𝑤向量中有很多 0,有人说这样有利于压缩模型,因为集合中参数均为 0,存储模型所占用的内存更少。实际上,虽然𝐿1正则化使模型变得稀疏,却没有降低太多存储内存,所以我认为这并不是𝐿1正则化的目的,至少不是为了压缩模型,人们在训练网络时,越来越倾向于使用𝐿2正则化。

我们来看最后一个细节,𝜆是正则化参数,我们通常使用验证集或交叉验证集来配置这个参数,尝试各种各样的数据,寻找最好的参数,我们要考虑训练集之间的权衡,把参数设置为较小值,这样可以避免过拟合,所以 λ 是另外一个需要调整的超级参数,顺便说一下,为了方便写代码,在 Python 编程语言中,𝜆是一个保留字段,编写代码时,我们写成𝑙𝑎𝑚𝑏𝑑,以免与 Python 中的保留字段冲突,这就是在逻辑回归函数中实现𝐿2正则化的过程,如何在神经网络中实现𝐿2正则化呢?

神经网络含有一个成本函数,该函数包含 W [ 1 ] , b [ 1 ] W^{[1]},b^{[1]} W[1]b[1] W [ l ] , b [ l ] W^{[l]},b^{[l]} W[l]b[l]所有参数,字母𝐿是神经网络所含的层数,因此成本函数等于𝑚个训练样本损失函数的总和乘以 1 m \frac{1}{m} m1,正则项为 λ 2 m ∑ 1 L ∣ ∣ W [ l ] ∣ ∣ 2 \frac{λ}{2m}\sum_{1}^L{||W^{[l]}||^2} 2mλ1L∣∣W[l]2,我们称 ∣ ∣ W [ l ] ∣ ∣ 2 ||W^{[l]}||^2 ∣∣W[l]2为范数平方,这个矩阵范数 ∣ ∣ W [ l ] ∣ ∣ 2 ||W^{[l]}||^2 ∣∣W[l]2(即平方范数),被定义为矩阵中所有元素的平方求和。
在这里插入图片描述
我们看下求和公式的具体参数,第一个求和符号其值i从 1 到 n [ l − 1 ] n^{[l−1]} n[l1],第二个其J值从 1 到 n [ l ] n^{[l]} n[l],因为𝑊是一个 n [ l ] x n [ l − 1 ] n^{[l]} x n^{[l−1]} n[l]xn[l1]的多维矩阵, n [ l ] n^{[l]} n[l]表示𝑙 层单元的数量, n [ l − 1 ] n{[l−1]} n[l1]表示第𝑙 − 1层隐藏单元的数量。
在这里插入图片描述
该矩阵范数被称作“弗罗贝尼乌斯范数”,用下标𝐹标注,鉴于线性代数中一些神秘晦涩的原因,我们不称之为“矩阵𝐿2范数”,而称它为“弗罗贝尼乌斯范数”,矩阵𝐿2范数听起来更自然,但鉴于一些大家无须知道的特殊原因,按照惯例,我们称之为“弗罗贝尼乌斯范数”,它表示一个矩阵中所有元素的平方和。

该如何使用该范数实现梯度下降呢?
用 backprop 计算出𝑑𝑊的值,backprop 会给出𝐽对𝑊的偏导数,实际上是𝑊[𝑙],把𝑊[𝑙]替换为𝑊[𝑙]减去学习率乘以𝑑𝑊。

这就是之前我们额外增加的正则化项,既然已经增加了这个正则项,现在我们要做的就是给dW加上这一项 λ m W [ l ] \frac{λ}{m}W^{[l]} mλW[l],然后计算这个更新项,使用新定义的 d W [ l ] dW^{[l]} dW[l],它的定义含有相关参数代价函数导数和,以及最后添加的额外正则项,这也是𝐿2正则化有时被称为“权重衰减”的原因。
在这里插入图片描述
我们用 d W [ l ] dW^{[l]} dW[l]的定义替换此处的 d W [ l ] dW^{[l]} dW[l],可以看到, W [ l ] W^{[l]} W[l]的定义被更新为 W [ l ] W^{[l]} W[l]减去学习率𝑎 乘以 backprop 再加上 λ m W [ l ] \frac{λ}{m}W^{[l]} mλW[l]
在这里插入图片描述
该正则项说明,不论 W [ l ] W[l] W[l]是什么,我们都试图让它变得更小,实际上,相当于我们给矩阵 W 乘以(1 − 𝑎 λ m \frac{λ}{m} mλ)倍的权重,矩阵𝑊减去𝛼 λ m \frac{λ}{m} mλ倍的它,也就是用这个系数(1 − λ m \frac{λ}{m} mλ)乘以矩阵𝑊,该系数小于 1,因此𝐿2范数正则化也被称为“权重衰减”,因为它就像一般的梯度下降,𝑊被更新为少了𝑎乘以 backprop 输出的最初梯度值,同时𝑊也乘以了这个系数,这个系数小于 1,因此𝐿2正则化也被称为“权重衰减”。

在这里插入图片描述
我不打算这么叫它,之所以叫它“权重衰减”是因为这两项相等,权重指标乘以了一个小于 1 的系数。

以上就是在神经网络中应用𝐿2正则化的过程,有人会问我,为什么正则化可以预防过拟合,我们放在下节课讲,同时直观感受一下正则化是如何预防过拟合的。

这篇关于吴恩达深度学习笔记:深度学习的 实践层面 (Practical aspects of Deep Learning)1.4-1.5的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/917107

相关文章

SpringCloud动态配置注解@RefreshScope与@Component的深度解析

《SpringCloud动态配置注解@RefreshScope与@Component的深度解析》在现代微服务架构中,动态配置管理是一个关键需求,本文将为大家介绍SpringCloud中相关的注解@Re... 目录引言1. @RefreshScope 的作用与原理1.1 什么是 @RefreshScope1.

Spring Boot 配置文件之类型、加载顺序与最佳实践记录

《SpringBoot配置文件之类型、加载顺序与最佳实践记录》SpringBoot的配置文件是灵活且强大的工具,通过合理的配置管理,可以让应用开发和部署更加高效,无论是简单的属性配置,还是复杂... 目录Spring Boot 配置文件详解一、Spring Boot 配置文件类型1.1 applicatio

tomcat多实例部署的项目实践

《tomcat多实例部署的项目实践》Tomcat多实例是指在一台设备上运行多个Tomcat服务,这些Tomcat相互独立,本文主要介绍了tomcat多实例部署的项目实践,具有一定的参考价值,感兴趣的可... 目录1.创建项目目录,测试文China编程件2js.创建实例的安装目录3.准备实例的配置文件4.编辑实例的

Python 中的异步与同步深度解析(实践记录)

《Python中的异步与同步深度解析(实践记录)》在Python编程世界里,异步和同步的概念是理解程序执行流程和性能优化的关键,这篇文章将带你深入了解它们的差异,以及阻塞和非阻塞的特性,同时通过实际... 目录python中的异步与同步:深度解析与实践异步与同步的定义异步同步阻塞与非阻塞的概念阻塞非阻塞同步

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1

springboot集成Deepseek4j的项目实践

《springboot集成Deepseek4j的项目实践》本文主要介绍了springboot集成Deepseek4j的项目实践,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价... 目录Deepseek4j快速开始Maven 依js赖基础配置基础使用示例1. 流式返回示例2. 进阶

Redis中高并发读写性能的深度解析与优化

《Redis中高并发读写性能的深度解析与优化》Redis作为一款高性能的内存数据库,广泛应用于缓存、消息队列、实时统计等场景,本文将深入探讨Redis的读写并发能力,感兴趣的小伙伴可以了解下... 目录引言一、Redis 并发能力概述1.1 Redis 的读写性能1.2 影响 Redis 并发能力的因素二、

Android App安装列表获取方法(实践方案)

《AndroidApp安装列表获取方法(实践方案)》文章介绍了Android11及以上版本获取应用列表的方案调整,包括权限配置、白名单配置和action配置三种方式,并提供了相应的Java和Kotl... 目录前言实现方案         方案概述一、 androidManifest 三种配置方式

Spring Boot中定时任务Cron表达式的终极指南最佳实践记录

《SpringBoot中定时任务Cron表达式的终极指南最佳实践记录》本文详细介绍了SpringBoot中定时任务的实现方法,特别是Cron表达式的使用技巧和高级用法,从基础语法到复杂场景,从快速启... 目录一、Cron表达式基础1.1 Cron表达式结构1.2 核心语法规则二、Spring Boot中定

最新Spring Security实战教程之表单登录定制到处理逻辑的深度改造(最新推荐)

《最新SpringSecurity实战教程之表单登录定制到处理逻辑的深度改造(最新推荐)》本章节介绍了如何通过SpringSecurity实现从配置自定义登录页面、表单登录处理逻辑的配置,并简单模拟... 目录前言改造准备开始登录页改造自定义用户名密码登陆成功失败跳转问题自定义登出前后端分离适配方案结语前言