Lesson 8 Batch Normalization

2024-04-01 23:28
文章标签 batch normalization lesson

本文主要是介绍Lesson 8 Batch Normalization,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

听课(李宏毅老师的)笔记,方便梳理框架,以作复习之用。本节课主要讲了batch normalization是什么,为什么要用batch normalization,是用来解决什么问题的,以及batch normalization在测试和训练上不同的计算方法

1. changing landscape

陡峭的error surface难train,因为这样的error surface对于参数的变化非常敏感,即使是微小的参数变化都可能导致错误值剧烈变化,不利于找到全局最优。
那么想让error surface变得平坦应该怎么做?
我们可以看下图,考虑两种输入X1=[1,2,3]和X2=[100,200,300],不难看出,由于X1引起的△L和由于X2引起的△L是不一样的,第二个△L明显偏大,这就造成了error surface的陡峭。如果我们将输入的X都变成一样的range,那么error surface也会变得各维度相似的平坦
在这里插入图片描述

2. feature normalization

输入的特征中,将同一维度的x加起来,算出平均值和σ
在这里插入图片描述
在经过第一层与W相乘后
得到的输出其实也可以看成下一层的输入,所以也可以做batch normalization。
又有一个问题出现了:是在active function之前做normalization 还是之后呢?
其实在实际操作中影响不大。所以无所谓。
在这里插入图片描述
在这里插入图片描述
如果z1改变,那么下图右侧所有的变量都要改,对于一个大网络来说,需要改变的data就非常多。
所以我们一般在batch内做normalization,这样计算量就不会那么大。这也是为什么叫 batch normalization。
在这里插入图片描述

3. batch normalization

3.1 训练

β和γ又是什么?
因为在z1,z2经过batch normalization后的平均数是0(因为本人不知道那个带~的字母怎么打哈哈),所以可能给network带来一些限制,这种限制可能会有负面影响。
那又有疑问了,*γ又+β,不是又不符合normalization了吗?本来是想要normalization的,现在又不是了,感觉不是很有病吗?实际上初始时,γ是one-vector,就全是1,而β是zero-vector,全是0,所以最开始还是符合normalization的,等找到比较好的error surface后,才把β和γ慢慢加进去。
在这里插入图片描述

3.2 测试

假如一个batch是64,如果是线上服务,不可能等到攒够64笔资料才做normalization,所以在testing的时候用的是moving average。moving average计算方式如下。
在这里插入图片描述
在各模型测试结果如下。可以看出,使用了normalization训练会更快达到较高的准确度。
在这里插入图片描述

4. internal covariate shift

gradient是根据a算出来的,适合用在a上不适合用在a’上。就说让a和a’有相同的分布比较好。但是有论文叫“how does batch normalization help optimization”打脸了这个观点,他认为a和a’的分布相不相同都不影响训练
在这里插入图片描述
在这里插入图片描述

这篇关于Lesson 8 Batch Normalization的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/868406

相关文章

简单的spring batch学习

前言 公司批量任务是数据库执行的,想修改成java执行批量任务,所以简单了解了下springbatch批量任务框架,此处是其学习笔记,具体学习视频地址为bilibili springbatch,以下为其学习笔记内容以及源码信息 一、课程目标 课程目标 系统了解Spring Batch批处理 项目中能熟练使用Spring Batch批处理 课程内容 前置知识 Java基础

选取训练神经网络时的Batch size ,BatchNorm

BatchNorm 优点:对于隐藏层的每一层输入,因为经过激活函数的处理,可能会趋向于大的正值和负值,容易出现梯度下降和梯度消失。所以强行拉回到服从均值为0,方差为1的标准正态分布,避免过拟合 缺点:正是因为这种强行改变分布的手段,使得隐层输入和原始数据分布差异太大,如果数据量不大时,容易欠拟合。可能不用更好一些 https://www.zhihu.com/search?type=conte

Layer Normalization论文解读

基本信息 作者JL Badoi发表时间2016期刊NIPS网址https://arxiv.org/abs/1607.06450v1 研究背景 1. What’s known 既往研究已证实 batch Normalization对属于同一个Batch中的数据长度要求是相同的,不适合处理序列型的数据。因此它在NLP领域的RNN上效果并不显著,但在CV领域的CNN上效果显著。 2. What’s

《Efficient Batch Processing for Multiple Keyword Queries on Graph Data》——论文笔记

ABSTRACT 目前的关键词查询只关注单个查询。对于查询系统来说,短时间内会接受大批量的关键词查询,往往不同查询包含相同的关键词。 因此本文研究图数据多关键词查询的批处理。为多查询和单个查询找到最优查询计划都是非常复杂的。我们首先提出两个启发式的方法使关键词的重叠最大并优先处理规模小的关键词。然后设计了一个同时考虑了数据统计信息和搜索语义的基于cardinality的成本估计模型。 1.

如何处理批次效应(batch effect)

1、如何处理批次效应(batch effect) https://www.plob.org/article/14410.html 2、基于多数据集分析ANLN在宫颈癌所起到的功能 https://www.omicsclass.com/article/769

神经网络训练不起来怎么办(五)| Batch Normalization

Ⅰ,领域背景 训练困境:当 input feature 在不同 dimension 上差距很大的时候,会产生一个非常崎岖的 error surface(误差平面)。这种崎岖多变的误差平面容易导致训练陷入以下的几个困境。 收敛困难:在崎岖的误差表面上,梯度下降等优化算法很容易陷入局部最小值或者鞍点,并且很难继续优化。这会导致模型无法收敛到全局最优解,训练过程变得非常困难。训练速度变慢:由于优化算

基于Python的机器学习系列(20):Mini-Batch K均值聚类

简介         K均值聚类(K-Means Clustering)是一种经典的无监督学习算法,但在处理大规模数据集时,计算成本较高。为了解决这一问题,Mini-Batch K均值聚类应运而生。Mini-Batch K均值聚类通过使用数据的子集(mini-batch)来更新簇中心,从而减少了计算量,加快了处理速度。 Mini-Batch K均值算法         Mini-Batch

CV-CNN-2015:GoogleNet-V2【首次提出Batch Norm方法:每次先对input数据进行归一化,再送入下层神经网络输入层(解决了协方差偏移问题)】【小的卷积核代替掉大的卷积核】

GoogLeNet凭借其优秀的表现,得到了很多研究人员的学习和使用,因此GoogLeNet团队又对其进行了进一步地发掘改进,产生了升级版本的GoogLeNet。 GoogLeNet设计的初衷就是要又准又快,而如果只是单纯的堆叠网络虽然可以提高准确率,但是会导致计算效率有明显的下降,所以如何在不增加过多计算量的同时提高网络的表达能力就成为了一个问题。 Inception V2版本的解决方案就是修

PyTorch数据加载:自定义数据集【Dataset:处理每个原始样本】【DataLoader:每次生成batch_size个样本】【collate_fn:重新设置一个Batch中所有样本的加载格式】

一、自定义Dataset Dataset是一个包装类: 用来将数据包装为Dataset类,然后传入DataLoader中,我们再使用DataLoader这个类来更加快捷的对数据进行操作。可以通过继承Dataset来将数据集的源文件、规模和其他非必要的功能打包,从而供DataLoader使用。 1、“文本分类”任务下使用自定义Dataset class.txt:所有类别 finance

GPU有限,如何提高batch size

那么从: https://github.com/mathildor/DeepLab-v3/blob/master/g3doc/faq.md deeplabv3+也是谷歌团队,tensorflow就是他们的产品。可以看到提高batch size 的方法。 batchsize不仅对于batch normalization至关重要,而且梯度下降也需要一定的batchsize,比如batchsize