TensorFlow使用之tf.layers.batch_normalization函数详解

2024-03-28 12:58

本文主要是介绍TensorFlow使用之tf.layers.batch_normalization函数详解,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1、写在前面

这是我的处女作,其实想写写自己的博客有一段时间了,主要也是为了记录自己所学到的新知识点,以后可以再来回顾一下,另则加深印象。由于最近在准备做OCR识别的内容,后来遇到了tf.layers.batch_normalization()这个函数,经过多方的学习网上大佬们的文章之后,在此以最简单的方式来说说这个函数,并把自己学习的过程走过的弯路在此记下,希望有缘人能够看到,互相交流。

2、标准化

我看了很多其他的博客文章,谈及这个API的时候有的称之为批归一化,也有的称之为批标准化,我个人的观点是批标准化,主要原因是因为这个API在对数据进行处理时用到的公式,这个公式在后文会给出来,其次也是因为normalization这个单词的翻译也是标准化(原谅我这么肤浅),对于为什么对数据进行标准化处理之后一般都能够得到比较好的效果呢,个人认为是因为目前的机器学习一个基本前提假设都是数据独立同分布的,而标准化过程就是将经过卷积池化等一系列操作之后的数据特征仍然服从正态分布,从而能够取得一定的效果,顺便提一下标准化是对未激活的特征进行处理的,也就是说在模型构建的时候,在标准化层之前的卷积是不能使用激活函数的,激活函数要单独放在标准化层之后,至于为什么,我在其他文章也没有看到比较理想的答案,个人的理解是因为标准化层的存在是因为我们想要得到数据在一系列变换之后服从什么分布,自然不能对数据特征进行非线性变换,不然就不能得到正确的数据分布情况了。

3、TensorFlow中的标准化公式

网上很多文章写了关于标准化的公式,结果都不满意,因为对于理解tf.layers.batch_normalization这个API帮助不是很大,或者说准确的来说在TensorFlow中用到的标准化公式其实应该是这个公式,这个公式还是我在一个公众号里无意间看到的。

其中µ、v为批量数据的均值和方差,ɛ为防止分母出现零所增加的变量,γ和β是缩放(scale)、偏移(offset)系数,这个公式对于搞懂这个API参数帮助很大,至于为什么有γ和β其实很好理解,因为数据进过模型的特征提取过后我们就不能知道数据服从什么分布了,所以需要学习这些参数来确定特征提取之后的数据分布情况。

4、滑动平均(移动平均)

这篇文章说的是批标准化,为啥和滑动平均扯上关系了呢,是因为在上面的公式里面有µ、v参数,在模型训练阶段很自然的我们能够得到当前批次的µ、v值,但是对于测试和预测的时候就不行了,所以我们需要用到滑动平均值,具体的大家可以去看看这篇博客滑动平均,我们先记下滑动平均的公式
在这里插入图片描述
至于在tensorflow模型当中是如何计算的,我会在后文提及,因为我发现关于具体计算过程并没有相关文章介绍,不知道是不是这个问题太简单了,大家都选择跳过了呢,反正我是捣鼓了几个小时才搞明白,希望对有和我一样的朋友有所帮助。

5、函数的部分参数解释

inputs:上一层的输出,批标准化的输入,一般是四维的tensor(B,H,W,C),这里就不多说了,应该都知道。
axis:默认值是-1,也就是说默认的是最后一个维度,这个参数的意思是批标准化处理的维度是以最后一个维度进行的,也就是channel,当然你也可以改(万一有奇迹呢,AI有时候就是不按常理出牌)
momentum:默认是0.99,这个参数就是滑动平均的β值,当然了你也可以修改
epsilon:默认是1e-3,呐,这个就是标准化公式里面的ɛ参数,之前网上很多文章给出的公式并没有ɛ,所以导致我一直不明白这个是啥。
center:默认True,也就是是否使用标准化公式里面的β参数,默认肯定是要用的,不用的话,那就毫无意义了。
scale:默认True,也就是是否使用标准化公式里面的γ参数,同样需要使用。
beta_initializer:默认init_ops.zeros_initializer(),β参数的初始化,也就是默认初始化全为0。
gamma_initializer:默认init_ops.ones_initializer(),γ参数的初始化,也就是默认初始化全为1。
moving_mean_initializer:默认init_ops.zeros_initializer(),就是计算均值的滑动平均值时的初始化值,明白了滑动平均的计算方法后自然明白了。
moving_variance_initializer:默认init_ops.ones_initializer(),计算方差时的滑动平均值时的初始化值。
beta_regularizer:β权重正则化操作,也就是一般所说的正则化。
gamma_regularizer:γ权重正则化操作。
beta_constraint:现在还不知道是做啥用的,应该是一个函数之类的东东。
gamma_constraint:上同,不过不影响我们使用这个API
training:默认为False,是否是训练阶段,这个参数很关键,不然很坑人。
trainable:默认为True,这个我觉得就不要改了,没必要给自己找麻烦,就是把我们标准化公式里面的参数添加到GraphKeys.TRAINABLE_VARIABLES这个集合里面去,因为只有添加进去了,参数才能更新,毕竟γ和β是需要学习的参数。
后面还有一些参数我就不介绍了,和renorm相关的参数,我也没有去看那篇论文,有需要深入学习的朋友可以去看看论文。Batch Renormalization其实真正用到的参数也就那么两三个,但是了解更加清楚一些也很必要。

6、批标准化处理中的计算过程

我以图像数据为例,由于第一次写博客,也找不到好图,我就直接文字描述了,过程毕竟也不复杂。
假设我们现在有这样的数据格式(B,H,W,C)对应为(10,5,5,3)的数据,在经过卷积,池化等一系列操作之后,我们得到的特征是(10,3,3,64),也就是我们得到的是批次大小为10,map大小为33,通道数为64的features map,因为我们批标准化的维度是以channel进行的,我们可以结合传统机器学习的数据格式进行分析,是不是相当于我们现在有10条样本数据,而每一个样本数据的特征维度大小是64,而每一个特征值是33=9的向量,然后结合我们的标准化公式和滑动平均的公式,应该能够想明白计算过程了,原谅我也不知道咋说清楚。当然这是我的个人理解,如有不对的地方望指出。

7、使用过程中会遇到的坑

这里网上有很多相关文章,我就发一个链接为例吧,实在是不想写了,注意事项
第一次写,就写到这里吧,想写的好多呀,因为每次都发现自己当时搞明白的问题,过段时间又忘了,又要去查资料太麻烦了,以后希望能够写的越来越好吧。

这篇关于TensorFlow使用之tf.layers.batch_normalization函数详解的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/855685

相关文章

Debezium 与 Apache Kafka 的集成方式步骤详解

《Debezium与ApacheKafka的集成方式步骤详解》本文详细介绍了如何将Debezium与ApacheKafka集成,包括集成概述、步骤、注意事项等,通过KafkaConnect,D... 目录一、集成概述二、集成步骤1. 准备 Kafka 环境2. 配置 Kafka Connect3. 安装 D

Java中ArrayList和LinkedList有什么区别举例详解

《Java中ArrayList和LinkedList有什么区别举例详解》:本文主要介绍Java中ArrayList和LinkedList区别的相关资料,包括数据结构特性、核心操作性能、内存与GC影... 目录一、底层数据结构二、核心操作性能对比三、内存与 GC 影响四、扩容机制五、线程安全与并发方案六、工程

JavaScript中的reduce方法执行过程、使用场景及进阶用法

《JavaScript中的reduce方法执行过程、使用场景及进阶用法》:本文主要介绍JavaScript中的reduce方法执行过程、使用场景及进阶用法的相关资料,reduce是JavaScri... 目录1. 什么是reduce2. reduce语法2.1 语法2.2 参数说明3. reduce执行过程

如何使用Java实现请求deepseek

《如何使用Java实现请求deepseek》这篇文章主要为大家详细介绍了如何使用Java实现请求deepseek功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1.deepseek的api创建2.Java实现请求deepseek2.1 pom文件2.2 json转化文件2.2

python使用fastapi实现多语言国际化的操作指南

《python使用fastapi实现多语言国际化的操作指南》本文介绍了使用Python和FastAPI实现多语言国际化的操作指南,包括多语言架构技术栈、翻译管理、前端本地化、语言切换机制以及常见陷阱和... 目录多语言国际化实现指南项目多语言架构技术栈目录结构翻译工作流1. 翻译数据存储2. 翻译生成脚本

C++ Primer 多维数组的使用

《C++Primer多维数组的使用》本文主要介绍了多维数组在C++语言中的定义、初始化、下标引用以及使用范围for语句处理多维数组的方法,具有一定的参考价值,感兴趣的可以了解一下... 目录多维数组多维数组的初始化多维数组的下标引用使用范围for语句处理多维数组指针和多维数组多维数组严格来说,C++语言没

Spring Cloud LoadBalancer 负载均衡详解

《SpringCloudLoadBalancer负载均衡详解》本文介绍了如何在SpringCloud中使用SpringCloudLoadBalancer实现客户端负载均衡,并详细讲解了轮询策略和... 目录1. 在 idea 上运行多个服务2. 问题引入3. 负载均衡4. Spring Cloud Load

Springboot中分析SQL性能的两种方式详解

《Springboot中分析SQL性能的两种方式详解》文章介绍了SQL性能分析的两种方式:MyBatis-Plus性能分析插件和p6spy框架,MyBatis-Plus插件配置简单,适用于开发和测试环... 目录SQL性能分析的两种方式:功能介绍实现方式:实现步骤:SQL性能分析的两种方式:功能介绍记录

在 Spring Boot 中使用 @Autowired和 @Bean注解的示例详解

《在SpringBoot中使用@Autowired和@Bean注解的示例详解》本文通过一个示例演示了如何在SpringBoot中使用@Autowired和@Bean注解进行依赖注入和Bean... 目录在 Spring Boot 中使用 @Autowired 和 @Bean 注解示例背景1. 定义 Stud

使用 sql-research-assistant进行 SQL 数据库研究的实战指南(代码实现演示)

《使用sql-research-assistant进行SQL数据库研究的实战指南(代码实现演示)》本文介绍了sql-research-assistant工具,该工具基于LangChain框架,集... 目录技术背景介绍核心原理解析代码实现演示安装和配置项目集成LangSmith 配置(可选)启动服务应用场景