【机器学习】039_合理初始化

2023-11-22 02:28

文章标签 学习机器合理初始化 039

本文主要是介绍【机器学习】039_合理初始化，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

一、稳定训练

目标：使梯度值在更合理的范围内

常见方法如下：

· 将乘法变为加法

· ResNet：当层数较多时，会加入一些加法进去

· LSTM：如果时序序列较长时，把一些对时序的乘法做加法

· 归一化

· 梯度归一化：把梯度转化为一个均值0、方差1这样的数，从而避免梯度的数值过大或过小

· 梯度裁剪：如果梯度大于一个阈值，就强行拉回来减到一个范围里

· 合理的权重初始化、选取合理的激活函数

二、合理初始化操作

目标：让每层的方差都为一个常数

· 让每层的输出和梯度都看作“随机变量”

· 让输出和梯度的均值和方差都保持一致，那么就可以在每层的传递之间保持，不会出现问题

权重初始化

目标：将参数和权重初始化在一个合理的区间值里，防止参数变化过大或过小导致出现问题

· 当训练开始时，数值更易出现不稳定的问题

· 随机初始的参数可能离最优解很远，更新幅度较陡，损失函数会很大，从而导致梯度较大

· 最优解附近一般较缓，更新幅度会较小

· 假设不定义初始化方法，框架将使用默认初始化，即采用正态分布初始化权重值

· 这种初始化方法对小型神经网络较为有效，但当网络较深时，这种初始化方法往往表现较差

· Xavier初始化：

某些没有非线性的全连接层输出（例如，隐藏变量） $o_i$ 的尺度分布：

· 对于某一层 $n_{in}$ 输入 $x_j$ 以及其相关权重 $w_{ij}$ ，输出由下式给出：

权重 $w_{ij}$ 都是从同一分布中独立抽取的

· 假设该分布具有均值 0 和方差 $\sigma ^2$ （不一定是标准正态分布，只需均值方差存在）

· 假设层 $x_j$ 的输入也具有均值 0 和方差 $\gamma ^2$ ，且独立于 $w_{ij}$ 并彼此独立

可以按下列方式计算 $o_i$ 的均值与方差：

为了保障 $o_i$ 的方差不变化，可设置 $n_{in}\sigma ^2 = 1$ 。

现在考虑反向传播过程，我们面临着类似的问题，尽管梯度是从更靠近输出的层传播的。

使用与前向传播相同的推断，我们可以看到：

· 除非 $n_{out}\sigma ^2=1$ ，否则梯度的方差可能会增大。其中 $n_{out}$ 是该层输出的数量。

· 然而，我们不可能同时满足 $n_{in}\sigma ^2 = 1$ 和 $n_{out}\sigma ^2=1$ 这两个条件。

但我们只需满足：

即可达到要求，这便是Xavier初始化的基础。

通常，Xavier初始化从均值为 0，方差 $\sigma ^2=\frac{2}{n_{in}+n_{out}}$ 的高斯分布中采样权重。

Xavier初始化表明：

· 对于每一层，输出的方差不受输入数量的影响；

· 任何梯度的方差不受输出数量的影响。

这篇关于【机器学习】039_合理初始化的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/406810。 23002807@qq.com

相关文章

Spring组件初始化扩展点BeanPostProcessor的作用详解

Spring组件初始化扩展点BeanPostProcessor的作用详解

《Spring组件初始化扩展点BeanPostProcessor的作用详解》本文通过实战案例和常见应用场景详细介绍了BeanPostProcessor的使用,并强调了其在Spring扩展中的重要性,感... 目录一、概述二、BeanPostProcessor的作用三、核心方法解析1、postProcessB

阅读更多...

Java进阶学习之如何开启远程调式

Java进阶学习之如何开启远程调式

《Java进阶学习之如何开启远程调式》Java开发中的远程调试是一项至关重要的技能,特别是在处理生产环境的问题或者协作开发时,：本文主要介绍Java进阶学习之如何开启远程调式的相关资料,需要的朋友... 目录概述Java远程调试的开启与底层原理开启Java远程调试底层原理JVM参数总结&nbsMbKKXJx

阅读更多...

C++初始化数组的几种常见方法(简单易懂)

C++初始化数组的几种常见方法(简单易懂)

《C++初始化数组的几种常见方法(简单易懂)》本文介绍了C++中数组的初始化方法,包括一维数组和二维数组的初始化,以及用new动态初始化数组,在C++11及以上版本中,还提供了使用std::array... 目录1、初始化一维数组1.1、使用列表初始化（推荐方式）1.2、初始化部分列表1.3、使用std::

阅读更多...

Java深度学习库DJL实现Python的NumPy方式

Java深度学习库DJL实现Python的NumPy方式

《Java深度学习库DJL实现Python的NumPy方式》本文介绍了DJL库的背景和基本功能,包括NDArray的创建、数学运算、数据获取和设置等,同时,还展示了如何使用NDArray进行数据预处理... 目录1 NDArray 的背景介绍1.1 架构2 JavaDJL使用2.1 安装DJL2.2 基本操

阅读更多...

电脑多久清理一次灰尘合? 合理清理电脑上灰尘的科普文

电脑多久清理一次灰尘合? 合理清理电脑上灰尘的科普文

《电脑多久清理一次灰尘合?合理清理电脑上灰尘的科普文》聊起电脑清理灰尘这个话题，我可有不少话要说,你知道吗，电脑就像个勤劳的工人，每天不停地为我们服务，但时间一长，它也会“出汗”——也就是积累灰尘，... 灰尘的堆积几乎是所有电脑用户面临的问题。无论你的房间有多干净，或者你的电脑是否安装了灰尘过滤器，灰尘都

阅读更多...

HarmonyOS学习(七)——UI（五）常用布局总结

HarmonyOS学习(七)——UI（五）常用布局总结

自适应布局 1.1、线性布局（LinearLayout）通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列，Row组件中的子组件按照水平方向排列。属性说明space通过space参数设置主轴上子组件的间距，达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式，且在各类尺寸屏幕上表现一致，其中交叉轴为垂直时，取值为Vert

阅读更多...

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya（不是本人，claude AI）在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。以下是详细的内容：提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

阅读更多...

JVM 的类初始化机制

JVM 的类初始化机制

前言当你在 Java 程序中new对象时，有没有考虑过 JVM 是如何把静态的字节码（byte code）转化为运行时对象的呢，这个问题看似简单，但清楚的同学相信也不会太多，这篇文章首先介绍 JVM 类初始化的机制，然后给出几个易出错的实例来分析，帮助大家更好理解这个知识点。 JVM 将字节码转化为运行时对象分为三个阶段，分别是：loading 、Linking、initialization

阅读更多...

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画（下）

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画（下）

【课程链接】 AntV G6：深入图形与图形分组、自定义节点、节点动画（下）_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中，应该怎样去计算和绘制图形，如何给一个图形制作不间断的动画，以及在鼠标事件之后产生动画。（有点难，需要好好理解） <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

阅读更多...

学习hash总结

学习hash总结

2014/1/29/ 最近刚开始学hash，名字很陌生，但是hash的思想却很熟悉，以前早就做过此类的题，但是不知道这就是hash思想而已，说白了hash就是一个映射，往往灵活利用数组的下标来实现算法，hash的作用：1、判重；2、统计次数；

阅读更多...