激活函数原函数和导数的绘制及饱和度-- 021

本文主要是介绍激活函数原函数和导数的绘制及饱和度-- 021，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

微信公众号：python宝
关注可了解更多的python相关知识。若有问题或建议，请公众号留言;

内容目录

一、激活函数简介二、Sigmoid三、tanh四、ReLU 五、其它激活函数及饱和度

一、激活函数简介

深度学习的发展一般分为三个阶段，感知机-->三层神经网络-->深度学习（表示学习）。早先的感知机由于采用线性模型，无法解决异或问题，表示能力受到限制。为此三层神经网络放弃了感知机良好的解释性，而引入非线性激活函数来增加模型的表示能力，非线性变换函数又被称为激活函数。

1）非线性激活函数的引入，使得模型能解决非线性问题；
2）引入激活函数之后，不再会有0损失的情况，损失函数采用对数损失，这也使得三层神经网络更像是三层多元（神经单元）逻辑回归的复合。

神经网络中每一个神经元都可以看作是一个逻辑回归模型，三层神经网络就是三层逻辑回归模型的复合，只是不像逻辑回归中只有一个神经元，一般输入层和隐藏层都是具有多个神经元，而输出层对应一个logistic回归单元或者softmax单元，或者一个线性回归模型。

如果不用激励函数（其实相当于激励函数是f(x) = x），在这种情况下你每一层输出都是上层输入的线性函数，很容易验证，无论你神经网络有多少层，输出都是输入的线性组合，与没有隐藏层效果相当，这种情况就是最原始的感知机（Perceptron）了。

如果使用激活函数,会给神经元引入了非线性因素，使得神经网络可以任意逼近任何非线性函数，这样神经网络就可以应用到众多的非线性模型中。

值得注意的是激活函数是一个数值操作，不涉及矩阵求导，线性函数中1/m是因为w是作用于m个样本，所以在确定负梯度方向时需要m个样本取均值。

二、Sigmoid

Sigmoid函数会造成梯度损失。

一个非常不好的地方在于Sigmoid在靠近1和0的两端时梯度几乎为0，而反向传播算法的梯度向下传播时，每过一层就会增加一个g′(z)项（Sigmoid关于每一层线性组合值的导数），且Sigmoid函数的导数满足f′(x)=f(x)(1−f(x))，又f(x)的值在(0, 1)之间，故f′(x)的值在(0, 0.25]之间，因此当神经网络层数非常深的时候，较深层的梯度值由于乘了很多值很小的数更变得很小，导致较深层的参数更新不动，这就是“梯度消失”现象。另外，如果使用Sigmoid函数，那么需要在权重初始化的时候非常小心，如果初始化的权重过大，经过线性激活函数也会导致大多数神经元变得饱和，没有办法更新参数。

Sigmoid输出并非zero-centered，不便于下层的计算

这就会导致经过Sigmoid激活函数之后的输出，作为后面一层的输入的时候是非0均值的，这个时候如果输入进入下一层神经元的时候全是正的，那么在更新参数时永远都是正梯度。怎么理解呢？比如下一层神经元的输入是x，参数是w和b，那么输出为f=wx+b，这个时候▽f(w)=x，所以如果x是0均值的数据，那么梯度就会有正有负，但是这个问题并不是很严重，因为一般神经网络在训练的时候

这篇关于激活函数原函数和导数的绘制及饱和度-- 021的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！