Transformer模型-Normalization归一化的简明介绍

2024-04-06 09:20

本文主要是介绍Transformer模型-Normalization归一化的简明介绍,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

 背景

一般而言,Normalization归一化是将特征转换为可比较尺度的过程。有许多方法可以对特征进行归一化

例如:最小-最大特征缩放

最小-最大特征缩放将值转换到[0,1]的范围内。这也被称为基于单位的归一化。可以使用以下方程进行计算:

该方程的顶部将每个值减去X_min;当X等于X_min时,分子变为0。当分子被分母除时,输出为0。

同样,当分子为X_max — X_min时,新的最大值出现。当这个值被X_max — X_min除时,它变为1。这就是范围如何被调整到0和1之间的。

例如:标准分数

在标准化过程中,每个值都被转换为它的标准分数。标准分数也被称为z分数。这是通过从每个值中减去均值,然后除以标准差来实现的。

μ 代表数据的均值或平均数。

σ 代表数据的标准差,即各数值与均值之间的平均离散程度。如果一个数据集的标准差较低,那么数值可能更接近均值。如果标准差较高,则可能意味着数值分布在一个较大的范围内。可以用以下公式来计算标准差。

为什么要进行归一化normalization?

在机器学习中,对特征进行归一化是因为具有不同尺度的特征的模型需要更长的训练时间;这是因为梯度下降需要更多时间来收敛。

根据Pinecone的说法,不进行归一化可能导致大的误差梯度最终爆炸,从而使模型不稳定。

因此,在许多情况下,在将数据插入模型之前应该进行归一化。

为什么要进行 层的归一化 layer normalization?

根据Pinecone的说法,层归一化确保“对于给定的输入,特定层中的所有神经元在所有特征上都具有相同的分布。”

归一化是在最后的D个维度上进行的;D是将要进行归一化的维度数。例如,如果目标是归一化一个具有10个元素的一维向量,那么D就是1。如果目标是归一化一个形状为(2,3)的矩阵,那么D就是2。同样地,如果目标是归一化一个形状为(2,5,3)的张量,那么D就是3。

训练最先进的深度神经网络在计算上非常昂贵。减少训练时间的一种方法是对神经元的活动进行归一化。最近引入的一种技术,称为批量归一化batch normalization ,它使用神经元在小型训练案例批次上的输入总和的分布来计算均值和方差,然后使用这些均值和方差来归一化每个训练案例上该神经元的输入总和。这显著减少了前馈神经网络中的训练时间。然而,批量归一化的效果取决于小型批次的大小,并且如何将其应用于循环神经网络并不明显。在本文中,我们通过从单个训练案例的某一层中所有神经元的输入总和来计算用于归一化的均值和方差,从而将批量归一化转换为层归一化。与批量归一化一样,我们还为每个神经元提供了自己的自适应偏置和增益,这些偏置和增益在归一化之后但在非线性之前应用。与批量归一化不同,层归一化layer normalization在训练和测试时执行完全相同的计算。通过在每个时间步上单独计算归一化统计量,也可以轻松地将层归一化应用于循环神经网络。层归一化在稳定循环网络中的隐藏状态动力学方面非常有效。从经验上看,我们表明与先前发表的技术相比,层归一化可以大大减少训练时间。

https://arxiv.org/abs/1607.06450

层的归一化方程layer normalization Equation

对于每个输入x,层的归一化可以使用经过修改的z分数方程来计算:

μ 代表最后D个维度的均值
σ² 代表最后D个维度的方差
ε 是一个极小的值,当σ²较小时有助于计算
γ 和 β 是可学习的参数。

根据Pinecone的说法,使用γ和β是因为“将所有预激活值强制设为零和单位标准差……可能过于严格。某些情况下,波动的分布可能是网络更好地学习某些类别的必要条件。”

它们与要归一化的给定张量具有相同的形状。
γ 初始化为全1,β 初始化为全0。

LayerNorm — PyTorch 2.2 documentationicon-default.png?t=N7T8https://pytorch.org/docs/stable/generated/torch.nn.LayerNorm.html

Transformers中的层归一化

transformer模型中使用了层的归一化。
 

 原文链接:

https://medium.com/@hunter-j-phillips/layer-normalization-e9ae93eb3c9c

这篇关于Transformer模型-Normalization归一化的简明介绍的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/879574

相关文章

Java中HashMap的用法详细介绍

《Java中HashMap的用法详细介绍》JavaHashMap是一种高效的数据结构,用于存储键值对,它是基于哈希表实现的,提供快速的插入、删除和查找操作,:本文主要介绍Java中HashMap... 目录一.HashMap1.基本概念2.底层数据结构:3.HashCode和equals方法为什么重写Has

Springboot项目构建时各种依赖详细介绍与依赖关系说明详解

《Springboot项目构建时各种依赖详细介绍与依赖关系说明详解》SpringBoot通过spring-boot-dependencies统一依赖版本管理,spring-boot-starter-w... 目录一、spring-boot-dependencies1.简介2. 内容概览3.核心内容结构4.

setsid 命令工作原理和使用案例介绍

《setsid命令工作原理和使用案例介绍》setsid命令在Linux中创建独立会话,使进程脱离终端运行,适用于守护进程和后台任务,通过重定向输出和确保权限,可有效管理长时间运行的进程,本文给大家介... 目录setsid 命令介绍和使用案例基本介绍基本语法主要特点命令参数使用案例1. 在后台运行命令2.

MySQL常用字符串函数示例和场景介绍

《MySQL常用字符串函数示例和场景介绍》MySQL提供了丰富的字符串函数帮助我们高效地对字符串进行处理、转换和分析,本文我将全面且深入地介绍MySQL常用的字符串函数,并结合具体示例和场景,帮你熟练... 目录一、字符串函数概述1.1 字符串函数的作用1.2 字符串函数分类二、字符串长度与统计函数2.1

zookeeper端口说明及介绍

《zookeeper端口说明及介绍》:本文主要介绍zookeeper端口说明,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、zookeeper有三个端口(可以修改)aVNMqvZ二、3个端口的作用三、部署时注意总China编程结一、zookeeper有三个端口(可以

Python中win32包的安装及常见用途介绍

《Python中win32包的安装及常见用途介绍》在Windows环境下,PythonWin32模块通常随Python安装包一起安装,:本文主要介绍Python中win32包的安装及常见用途的相关... 目录前言主要组件安装方法常见用途1. 操作Windows注册表2. 操作Windows服务3. 窗口操作

c++中的set容器介绍及操作大全

《c++中的set容器介绍及操作大全》:本文主要介绍c++中的set容器介绍及操作大全,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录​​一、核心特性​​️ ​​二、基本操作​​​​1. 初始化与赋值​​​​2. 增删查操作​​​​3. 遍历方

HTML img标签和超链接标签详细介绍

《HTMLimg标签和超链接标签详细介绍》:本文主要介绍了HTML中img标签的使用,包括src属性(指定图片路径)、相对/绝对路径区别、alt替代文本、title提示、宽高控制及边框设置等,详细内容请阅读本文,希望能对你有所帮助... 目录img 标签src 属性alt 属性title 属性width/h

MybatisPlus service接口功能介绍

《MybatisPlusservice接口功能介绍》:本文主要介绍MybatisPlusservice接口功能介绍,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友... 目录Service接口基本用法进阶用法总结:Lambda方法Service接口基本用法MyBATisP

MySQL复杂SQL之多表联查/子查询详细介绍(最新整理)

《MySQL复杂SQL之多表联查/子查询详细介绍(最新整理)》掌握多表联查(INNERJOIN,LEFTJOIN,RIGHTJOIN,FULLJOIN)和子查询(标量、列、行、表子查询、相关/非相关、... 目录第一部分:多表联查 (JOIN Operations)1. 连接的类型 (JOIN Types)