TensorFlow使用之tf.layers.batch_normalization函数详解

2024-03-28 12:58

本文主要是介绍TensorFlow使用之tf.layers.batch_normalization函数详解,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1、写在前面

这是我的处女作,其实想写写自己的博客有一段时间了,主要也是为了记录自己所学到的新知识点,以后可以再来回顾一下,另则加深印象。由于最近在准备做OCR识别的内容,后来遇到了tf.layers.batch_normalization()这个函数,经过多方的学习网上大佬们的文章之后,在此以最简单的方式来说说这个函数,并把自己学习的过程走过的弯路在此记下,希望有缘人能够看到,互相交流。

2、标准化

我看了很多其他的博客文章,谈及这个API的时候有的称之为批归一化,也有的称之为批标准化,我个人的观点是批标准化,主要原因是因为这个API在对数据进行处理时用到的公式,这个公式在后文会给出来,其次也是因为normalization这个单词的翻译也是标准化(原谅我这么肤浅),对于为什么对数据进行标准化处理之后一般都能够得到比较好的效果呢,个人认为是因为目前的机器学习一个基本前提假设都是数据独立同分布的,而标准化过程就是将经过卷积池化等一系列操作之后的数据特征仍然服从正态分布,从而能够取得一定的效果,顺便提一下标准化是对未激活的特征进行处理的,也就是说在模型构建的时候,在标准化层之前的卷积是不能使用激活函数的,激活函数要单独放在标准化层之后,至于为什么,我在其他文章也没有看到比较理想的答案,个人的理解是因为标准化层的存在是因为我们想要得到数据在一系列变换之后服从什么分布,自然不能对数据特征进行非线性变换,不然就不能得到正确的数据分布情况了。

3、TensorFlow中的标准化公式

网上很多文章写了关于标准化的公式,结果都不满意,因为对于理解tf.layers.batch_normalization这个API帮助不是很大,或者说准确的来说在TensorFlow中用到的标准化公式其实应该是这个公式,这个公式还是我在一个公众号里无意间看到的。

其中µ、v为批量数据的均值和方差,ɛ为防止分母出现零所增加的变量,γ和β是缩放(scale)、偏移(offset)系数,这个公式对于搞懂这个API参数帮助很大,至于为什么有γ和β其实很好理解,因为数据进过模型的特征提取过后我们就不能知道数据服从什么分布了,所以需要学习这些参数来确定特征提取之后的数据分布情况。

4、滑动平均(移动平均)

这篇文章说的是批标准化,为啥和滑动平均扯上关系了呢,是因为在上面的公式里面有µ、v参数,在模型训练阶段很自然的我们能够得到当前批次的µ、v值,但是对于测试和预测的时候就不行了,所以我们需要用到滑动平均值,具体的大家可以去看看这篇博客滑动平均,我们先记下滑动平均的公式
在这里插入图片描述
至于在tensorflow模型当中是如何计算的,我会在后文提及,因为我发现关于具体计算过程并没有相关文章介绍,不知道是不是这个问题太简单了,大家都选择跳过了呢,反正我是捣鼓了几个小时才搞明白,希望对有和我一样的朋友有所帮助。

5、函数的部分参数解释

inputs:上一层的输出,批标准化的输入,一般是四维的tensor(B,H,W,C),这里就不多说了,应该都知道。
axis:默认值是-1,也就是说默认的是最后一个维度,这个参数的意思是批标准化处理的维度是以最后一个维度进行的,也就是channel,当然你也可以改(万一有奇迹呢,AI有时候就是不按常理出牌)
momentum:默认是0.99,这个参数就是滑动平均的β值,当然了你也可以修改
epsilon:默认是1e-3,呐,这个就是标准化公式里面的ɛ参数,之前网上很多文章给出的公式并没有ɛ,所以导致我一直不明白这个是啥。
center:默认True,也就是是否使用标准化公式里面的β参数,默认肯定是要用的,不用的话,那就毫无意义了。
scale:默认True,也就是是否使用标准化公式里面的γ参数,同样需要使用。
beta_initializer:默认init_ops.zeros_initializer(),β参数的初始化,也就是默认初始化全为0。
gamma_initializer:默认init_ops.ones_initializer(),γ参数的初始化,也就是默认初始化全为1。
moving_mean_initializer:默认init_ops.zeros_initializer(),就是计算均值的滑动平均值时的初始化值,明白了滑动平均的计算方法后自然明白了。
moving_variance_initializer:默认init_ops.ones_initializer(),计算方差时的滑动平均值时的初始化值。
beta_regularizer:β权重正则化操作,也就是一般所说的正则化。
gamma_regularizer:γ权重正则化操作。
beta_constraint:现在还不知道是做啥用的,应该是一个函数之类的东东。
gamma_constraint:上同,不过不影响我们使用这个API
training:默认为False,是否是训练阶段,这个参数很关键,不然很坑人。
trainable:默认为True,这个我觉得就不要改了,没必要给自己找麻烦,就是把我们标准化公式里面的参数添加到GraphKeys.TRAINABLE_VARIABLES这个集合里面去,因为只有添加进去了,参数才能更新,毕竟γ和β是需要学习的参数。
后面还有一些参数我就不介绍了,和renorm相关的参数,我也没有去看那篇论文,有需要深入学习的朋友可以去看看论文。Batch Renormalization其实真正用到的参数也就那么两三个,但是了解更加清楚一些也很必要。

6、批标准化处理中的计算过程

我以图像数据为例,由于第一次写博客,也找不到好图,我就直接文字描述了,过程毕竟也不复杂。
假设我们现在有这样的数据格式(B,H,W,C)对应为(10,5,5,3)的数据,在经过卷积,池化等一系列操作之后,我们得到的特征是(10,3,3,64),也就是我们得到的是批次大小为10,map大小为33,通道数为64的features map,因为我们批标准化的维度是以channel进行的,我们可以结合传统机器学习的数据格式进行分析,是不是相当于我们现在有10条样本数据,而每一个样本数据的特征维度大小是64,而每一个特征值是33=9的向量,然后结合我们的标准化公式和滑动平均的公式,应该能够想明白计算过程了,原谅我也不知道咋说清楚。当然这是我的个人理解,如有不对的地方望指出。

7、使用过程中会遇到的坑

这里网上有很多相关文章,我就发一个链接为例吧,实在是不想写了,注意事项
第一次写,就写到这里吧,想写的好多呀,因为每次都发现自己当时搞明白的问题,过段时间又忘了,又要去查资料太麻烦了,以后希望能够写的越来越好吧。

这篇关于TensorFlow使用之tf.layers.batch_normalization函数详解的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/855685

相关文章

如何使用celery进行异步处理和定时任务(django)

《如何使用celery进行异步处理和定时任务(django)》文章介绍了Celery的基本概念、安装方法、如何使用Celery进行异步任务处理以及如何设置定时任务,通过Celery,可以在Web应用中... 目录一、celery的作用二、安装celery三、使用celery 异步执行任务四、使用celery

使用Python绘制蛇年春节祝福艺术图

《使用Python绘制蛇年春节祝福艺术图》:本文主要介绍如何使用Python的Matplotlib库绘制一幅富有创意的“蛇年有福”艺术图,这幅图结合了数字,蛇形,花朵等装饰,需要的可以参考下... 目录1. 绘图的基本概念2. 准备工作3. 实现代码解析3.1 设置绘图画布3.2 绘制数字“2025”3.3

Jsoncpp的安装与使用方式

《Jsoncpp的安装与使用方式》JsonCpp是一个用于解析和生成JSON数据的C++库,它支持解析JSON文件或字符串到C++对象,以及将C++对象序列化回JSON格式,安装JsonCpp可以通过... 目录安装jsoncppJsoncpp的使用Value类构造函数检测保存的数据类型提取数据对json数

python使用watchdog实现文件资源监控

《python使用watchdog实现文件资源监控》watchdog支持跨平台文件资源监控,可以检测指定文件夹下文件及文件夹变动,下面我们来看看Python如何使用watchdog实现文件资源监控吧... python文件监控库watchdogs简介随着Python在各种应用领域中的广泛使用,其生态环境也

Python中构建终端应用界面利器Blessed模块的使用

《Python中构建终端应用界面利器Blessed模块的使用》Blessed库作为一个轻量级且功能强大的解决方案,开始在开发者中赢得口碑,今天,我们就一起来探索一下它是如何让终端UI开发变得轻松而高... 目录一、安装与配置:简单、快速、无障碍二、基本功能:从彩色文本到动态交互1. 显示基本内容2. 创建链

springboot整合 xxl-job及使用步骤

《springboot整合xxl-job及使用步骤》XXL-JOB是一个分布式任务调度平台,用于解决分布式系统中的任务调度和管理问题,文章详细介绍了XXL-JOB的架构,包括调度中心、执行器和Web... 目录一、xxl-job是什么二、使用步骤1. 下载并运行管理端代码2. 访问管理页面,确认是否启动成功

Mysql 中的多表连接和连接类型详解

《Mysql中的多表连接和连接类型详解》这篇文章详细介绍了MySQL中的多表连接及其各种类型,包括内连接、左连接、右连接、全外连接、自连接和交叉连接,通过这些连接方式,可以将分散在不同表中的相关数据... 目录什么是多表连接?1. 内连接(INNER JOIN)2. 左连接(LEFT JOIN 或 LEFT

使用Nginx来共享文件的详细教程

《使用Nginx来共享文件的详细教程》有时我们想共享电脑上的某些文件,一个比较方便的做法是,开一个HTTP服务,指向文件所在的目录,这次我们用nginx来实现这个需求,本文将通过代码示例一步步教你使用... 在本教程中,我们将向您展示如何使用开源 Web 服务器 Nginx 设置文件共享服务器步骤 0 —

Java中switch-case结构的使用方法举例详解

《Java中switch-case结构的使用方法举例详解》:本文主要介绍Java中switch-case结构使用的相关资料,switch-case结构是Java中处理多个分支条件的一种有效方式,它... 目录前言一、switch-case结构的基本语法二、使用示例三、注意事项四、总结前言对于Java初学者

Linux内核之内核裁剪详解

《Linux内核之内核裁剪详解》Linux内核裁剪是通过移除不必要的功能和模块,调整配置参数来优化内核,以满足特定需求,裁剪的方法包括使用配置选项、模块化设计和优化配置参数,图形裁剪工具如makeme... 目录简介一、 裁剪的原因二、裁剪的方法三、图形裁剪工具四、操作说明五、make menuconfig