Rectified Linear Units, 线性修正单元激活函数

2023-10-20 16:50

本文主要是介绍Rectified Linear Units, 线性修正单元激活函数,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

ReLU

在神经网络中,常用到的激活函数有sigmoid函数:

f(x)=11+e−xf(x)=11+e−x
双曲正切函数:
f(x)=tanh(x)f(x)=tanh(x)
而本文要介绍的是另外一种激活函数,Rectified Linear Unit Function(ReLU, 线性激活函数) 
ReLU函数可以表示为
f(x)=max(0,x)f(x)=max(0,x)
显然,线性激活函数简单地将阈值设置在零点,计算开销大大降低,而且很多工作显示 ReLU 有助于提升效果

 

sigmoid、tanh、ReLU、softplus的对比曲线如下图所示: 
20161014154424473

使用ReLU函数时,有几个重要的优点和缺点: 
1. [优点]和sigmoid、tanh神经元昂贵的操作(指数等)相比,ReLU可以通过简单的零阈值矩阵进行激活,并且不受饱和的影响 
2. [优点]和sigmoid、tanh函数相比,ReLU可以大大加快随机梯度下降算法的收敛,普遍认为原因在于其具有线性、非饱和的形式 
3. [缺点]不幸的是,ReLU在训练时是非常脆弱的,并且可能会“死”。例如,流经ReLU神经元的一个大梯度可能导致权重更新后该神经元接收到任何数据点都不会再激活。如果发生这种情况,之后通过该单位点的梯度将永远是零。也就是说,ReLU可能会在训练过程中不可逆地死亡,并且破坏数据流形。例如,如果学习率太高,你可能会发现,多达40%的网络会“死”(即,在整个训练过程中神经元都没有激活)。而设置一个适当的学习率,可以在一定程度上避免这一问题。

ReLU还存在一些变体,如图所示: 
20161014162206313

概述如下:


Noisy ReLU

在ReLU中包含高斯噪声,便可以得到noisy ReLU:

f(x)=max(0,x+N(0,σ(x)))f(x)=max(0,x+N(0,σ(x)))
改变种ReLU常被用在机器视觉任务里的受限玻尔兹曼机(Restricted Boltzmann Machines)中

 


Leaky ReLU

Leaky ReLU是对于“ReLU死亡问题”的一次解决尝试 
可以表示为: 

f(x)={x,ax,if x>0otherwisef(x)={x,if x>0ax,otherwise

其中,a为一个较小值,如0.01等 
有研究表明采用这种形式的激活函数效果更好,但结果并不总是一致的

 

优势: 
1. Biological plausibility:单边,相比于反对称结构(antisymmetry)的tanh 
2. Sparse activation:基本上随机初始化的网络,只有有一半隐含层是处于激活状态,其余都是输出为0 
3. efficient gradient propagation:不像sigmoid那样出现梯度消失的问题 
4. efficient computation:只需比较、乘加运算。使用rectifier 作为非线性激活函数使得深度网络学习不需要pre-training,在大、复杂的数据上,相比于sigmoid函数等更加快速和更有效率。


Randomized Leaky ReLU

对于RReLU,训练过程中负数部分的斜坡是在一个范围内随机选取的,然后在测试过程中固定。在最近的Kaggle National Data Science Bowl (NDSB) 竞赛中,据悉RReLU由于其随机的特性可以有效地减少过拟合。


Conclusion

ReLU的各种变体在一定程度上都超越了原始的ReLU,而PReLU和RReLU似乎是更好的选择

—————————————————————————–


Web Reference

[1]Rectified Linear Unit (ReLU) 
[2]修正线性单元(Rectified linear unit,ReLU) 
[3][20140429] Rectified Linear Units

 

这篇关于Rectified Linear Units, 线性修正单元激活函数的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/248400

相关文章

hdu1171(母函数或多重背包)

题意:把物品分成两份,使得价值最接近 可以用背包,或者是母函数来解,母函数(1 + x^v+x^2v+.....+x^num*v)(1 + x^v+x^2v+.....+x^num*v)(1 + x^v+x^2v+.....+x^num*v) 其中指数为价值,每一项的数目为(该物品数+1)个 代码如下: #include<iostream>#include<algorithm>

C++操作符重载实例(独立函数)

C++操作符重载实例,我们把坐标值CVector的加法进行重载,计算c3=c1+c2时,也就是计算x3=x1+x2,y3=y1+y2,今天我们以独立函数的方式重载操作符+(加号),以下是C++代码: c1802.cpp源代码: D:\YcjWork\CppTour>vim c1802.cpp #include <iostream>using namespace std;/*** 以独立函数

线性因子模型 - 独立分量分析(ICA)篇

序言 线性因子模型是数据分析与机器学习中的一类重要模型,它们通过引入潜变量( latent variables \text{latent variables} latent variables)来更好地表征数据。其中,独立分量分析( ICA \text{ICA} ICA)作为线性因子模型的一种,以其独特的视角和广泛的应用领域而备受关注。 ICA \text{ICA} ICA旨在将观察到的复杂信号

函数式编程思想

我们经常会用到各种各样的编程思想,例如面向过程、面向对象。不过笔者在该博客简单介绍一下函数式编程思想. 如果对函数式编程思想进行概括,就是f(x) = na(x) , y=uf(x)…至于其他的编程思想,可能是y=a(x)+b(x)+c(x)…,也有可能是y=f(x)=f(x)/a + f(x)/b+f(x)/c… 面向过程的指令式编程 面向过程,简单理解就是y=a(x)+b(x)+c(x)

利用matlab bar函数绘制较为复杂的柱状图,并在图中进行适当标注

示例代码和结果如下:小疑问:如何自动选择合适的坐标位置对柱状图的数值大小进行标注?😂 clear; close all;x = 1:3;aa=[28.6321521955954 26.2453660695847 21.69102348512086.93747104431360 6.25442246899816 3.342835958564245.51365061796319 4.87

OpenCV结构分析与形状描述符(11)椭圆拟合函数fitEllipse()的使用

操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C++11 算法描述 围绕一组2D点拟合一个椭圆。 该函数计算出一个椭圆,该椭圆在最小二乘意义上最好地拟合一组2D点。它返回一个内切椭圆的旋转矩形。使用了由[90]描述的第一个算法。开发者应该注意,由于数据点靠近包含的 Mat 元素的边界,返回的椭圆/旋转矩形数据

理解分类器(linear)为什么可以做语义方向的指导?(解纠缠)

Attribute Manipulation(属性编辑)、disentanglement(解纠缠)常用的两种做法:线性探针和PCA_disentanglement和alignment-CSDN博客 在解纠缠的过程中,有一种非常简单的方法来引导G向某个方向进行生成,然后我们通过向不同的方向进行行走,那么就会得到这个属性上的图像。那么你利用多个方向进行生成,便得到了各种方向的图像,每个方向对应了很多

Unity3D 运动之Move函数和translate

CharacterController.Move 移动 function Move (motion : Vector3) : CollisionFlags Description描述 A more complex move function taking absolute movement deltas. 一个更加复杂的运动函数,每次都绝对运动。 Attempts to

✨机器学习笔记(二)—— 线性回归、代价函数、梯度下降

1️⃣线性回归(linear regression) f w , b ( x ) = w x + b f_{w,b}(x) = wx + b fw,b​(x)=wx+b 🎈A linear regression model predicting house prices: 如图是机器学习通过监督学习运用线性回归模型来预测房价的例子,当房屋大小为1250 f e e t 2 feet^

JavaSE(十三)——函数式编程(Lambda表达式、方法引用、Stream流)

函数式编程 函数式编程 是 Java 8 引入的一个重要特性,它允许开发者以函数作为一等公民(first-class citizens)的方式编程,即函数可以作为参数传递给其他函数,也可以作为返回值。 这极大地提高了代码的可读性、可维护性和复用性。函数式编程的核心概念包括高阶函数、Lambda 表达式、函数式接口、流(Streams)和 Optional 类等。 函数式编程的核心是Lambda