直觉化深度学习教程——偏置与激活函数之间的关系

本文主要是介绍直觉化深度学习教程——偏置与激活函数之间的关系，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

我们看到成熟的神经网络时，往往能看到偏置 $b$ 与激活函数Sigmoid或ReLU，但是它们是从何而来的呢？

通过探究，我们将获得更深刻的认识。

文章目录

@[toc]

偏置的前世今生
偏置的由来
偏置有什么意义

激活函数的放飞自我
激活函数有什么意义
为什么要用激活函数

偏置的前世今生

偏置的由来

用一张图就能说明白。来吧，少年，接图！
在这里插入图片描述

图1.偏置的前世今生

如果我的图做的有点杂乱，那咱们就稍微用用公式。

回忆一下我们之前讨论过的M-P模型，我们的激活函数 $f (z)$ 是一个以 $h$ 为阈值的阶跃函数，如公式（1）所示。
$f(z)=\begin{cases} 1&{z \ge h}\\ 0&{z < h} \end{cases}$
我们现在对它进行一点小小的变换，如公式(2)。
$f(z-h)=\begin{cases} 1&{z-h \ge 0}\\ 0&{z-h < 0} \end{cases}$
这样，我们可以用之前的加权和减去阈值的结果，令 $Z$ 表示新的加权和，代替 $z - h$ ，则有：
$f(Z)=\begin{cases} 1&{Z \ge 0}\\ 0&{Z < 0} \end{cases}$
我们回忆一下，
$z=w_1x_1+w_2x_2+w_3x_3$
推导，由于 $Z = z - h$ ，则有 $z = Z + h$ ，即新的加权和公式为
$Z=w_1x_1+w_2x_2+w_3x_3-h$
由于我们习惯用小写 $z$ 表示带权和，因此我们就把小写 $z$ 代替大写 $Z$ ，符号而已，你懂的；另外，由于公式（6）是一个典型的线性变换（严格地说是仿射变换），我们习惯把常数项 $h$ 叫偏置，且习惯用 $b$ 表示，我们令 $b = - h$ 。总之，我们把公式（3）和公式（6），放到一起，呈现如下：
$z=w_1x_1+w_2x_2+w_3x_3+b\\ \\ f(z)=\begin{cases} 1&{z \ge 0}\\ 0&{z < 0} \end{cases}$
哦了。此时，相当于加权和里多了一个偏置 $b$ ，可以把它看做是一个恒为常数1的输入上的权重。这时，你再看看图1，是不是豁然开朗？

偏置有什么意义

我们可以总结一下：前世里，那个阈值称为 $h$ ，归属激活函数，决定了激活函数输出跳变的那个位置；今生里，它换了个反转（即取了个负号）马甲，称为 $b$ ，投奔到了带权和的麾下，但意义没变。

至少有以下三条解读：

偏置表示激活函数被激活的难易程度，偏置越小，带权和z中的 $w_ix_i$ 项的求和结果必须变得非常大，才能使得激活函数输出为1（假设仍为阶跃激活函数），或者被激活（假设为别的激活函数，见后文）。
也可以把偏置是理解为 $w_0$ ，则偏置是最重要的权重！其他权重调得再好，没有好的偏置，都白搭。

激活函数的放飞自我

正是因为有了上面的过程，阈值没了，激活函数可以专注于进行非线性了，而不用再考虑阈值 $h$ 了。

但是，前面的激活函数 $f (x)$ 是一个阶跃函数，有两个问题：

加权和的强度信息无法传递到下一层
导数为0，反向传播时权重无法更新（个别点不能求导问题不大，只需要给个缺省导数值即可）

所以人们想出了sigmoid函数来近似阶跃函数，后来又发展出tanh函数，ReLU函数。如下面几个图所示。
在这里插入图片描述

图2.sigmoid函数

在这里插入图片描述

图3.tanh函数

在这里插入图片描述

图4.ReLU函数

这些函数的曲线一目了然，网上的公式很多，就不再罗列了。

sigmoid和tanh都会面临在输入加权和非常大、非常小时（即横坐标轴的两端），导数非常小，导致反向传播时的梯度消失问题；而ReLu克服了这一点，它的导数要么为1，不会出现梯度衰减，因此近些年ReLU几乎已经在隐层中全面取代了它的两个前辈。这部分我会在反向传播中详细解释。

看起来：所有的激活函数都是以0点为中心。事实是：在整个训练过程中，一直在随着偏置左右移动，直到训练结束才固定下来，最终也几乎不可能在0点处。

激活函数有什么意义

激活函数相当于对加权和输入的一种选择性投票，例如：

Sigmoid

对所有带权h和，都投支持票。带权和越小，支持力度越小；带权h和越大，支持力度大。
Tanh

对大于0的带权和，投支持票；对小于0的带权和，投反对票。
ReLU

对大于0的带权和，投支持票；对小于0的带权和，弃权。

为什么要用激活函数

提供非线性，这是神经网络可以逼近任意函数的关键！

至于非线性的“扭曲形状”不必care，因为通过充分地训练，损失函数会用"梯度"这个指挥棒，将隐层的权重和输出层的权重”调教“到一组合适的数值，这些权重的组合效应，将会把这个扭曲的超平面，逼近到数据的分类面！

这篇关于直觉化深度学习教程——偏置与激活函数之间的关系的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

直觉化深度学习教程——偏置与激活函数之间的关系

文章目录

@[toc]

偏置的前世今生
偏置的由来
偏置有什么意义

激活函数的放飞自我
激活函数有什么意义
为什么要用激活函数

文章目录

偏置的前世今生

偏置的由来

偏置有什么意义

激活函数的放飞自我

激活函数有什么意义

为什么要用激活函数

相关文章

深度解析Java DTO(最新推荐)

深度解析Java项目中包和包之间的联系

MySQL count()聚合函数详解

MySQL 中 ROW_NUMBER() 函数最佳实践

深度解析Python装饰器常见用法与进阶技巧

深度解析Spring Boot拦截器Interceptor与过滤器Filter的区别与实战指南

MySQL数据库的内嵌函数和联合查询实例代码

深度解析Spring AOP @Aspect 原理、实战与最佳实践教程

Python get()函数用法案例详解

python 常见数学公式函数使用详解(最新推荐)

直觉化深度学习教程——偏置与激活函数之间的关系

文章目录 @[toc] 偏置的前世今生偏置的由来偏置有什么意义 激活函数的放飞自我激活函数有什么意义为什么要用激活函数

文章目录

偏置的前世今生

偏置的由来

偏置有什么意义

激活函数的放飞自我

激活函数有什么意义

为什么要用激活函数

相关文章

文章目录

@[toc]

偏置的前世今生
偏置的由来
偏置有什么意义

激活函数的放飞自我
激活函数有什么意义
为什么要用激活函数