Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification

本文主要是介绍Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

序:在ISVRC2015 on ImageNet2012 classification dataset 上,取得了4.94%的 top-5 test error,这是第一次超越了人的识别了率(5.1%).
文章提出了两个内容:
(1) Parametric Rectified Linear Unit (PReLU) :使模型以接近0的额外计算代价和较小的过拟合风险训练模型。
(2) MSRA: 考虑到修正非线性的一种鲁棒的参数初始化方法,使得我们能够从头训练更深的模型,探索更深更宽的网络结构。

Introduction

神经网络的对训练数据的拟合能力不断提高,因为:(1)增加的复杂性(如增加的深度【25,29】,增大的宽度【33,24】,小步长的使用【33,24,2,25】)
(2)新的非线性激活【21,20,34,19,27,9】
(3)复杂层的设计【29,11】
另一方面,更好的泛化能力也取得,通过:
(1)有效的规则化技术【12,26,9,31】
(2)aggressive data augmentation【16,13,25,29】
(3)large-scale data【4,22】

在这些进步中,Rectified Linear Unit (ReLU),是近期深度网络成功的几个关键因素之一。It expedites (加快)convergence of training procedure [16], and leads to better solutions [21,8,20,34] than conventional sigmoid-like units.
尽管修正网络普遍,但是近期提出的模型和训练它们的理论指导【7,23】却很少关注这个修正器的属性。

He 从两个方面研究由修正器驱动的神经网络:
(1)PReLU:自适应地学习修正器的参数,以negligible extra computational cost 提高性能
(2) 明确的对非线性修正器进行建模,并提出一个sound initialization method,改方法帮助从头训练深度模型,并收敛。说的我们能更加灵活的探索更大的网络结构。

实验:在 1000-class ImageNet 2012 dataset, single-model result of 5.71% top-5 error, multi-model result achieves 4.94%
reported human-level performance: 5.1% [22]

Parametric Rectifiers

如下图所示:
这里写图片描述
这里写图片描述
对上式:
(1)若 ai=0 ,则转换成普通的ReLU; 否则PReLU
(2)若 ai 很小并且是个固定的值,就变成了Leaky ReLU (LReLU) in [20] ( ai=0.01 ). 在[20]中的实验表明LReLU相比较ReLU对精度有很小的影响。
(3) ai 是个可学习的参数,若通道共享,则每层只增加了一个参数 –channel-shared variant;
若通道不共享,则channel-wise.

Comparison experiments
在【10】的model E上进行实验:
这里写图片描述
这里写图片描述
PReLU channel-shared version 仅引入了13个参数,却提高了很大的性能1.1%gain.
另外注意到连个有趣的现象:
(1)第一个conv layer 有较大的系数,很可能类似Gabor-like filters such as edge or texture detectors。
(2)for channel-wise version, 较深的卷积层通常有较小的系数,这暗示随着深度的增加,激活的梯度变得更加非线性化。
学到的模型在较早的阶段往往保持更多的信息,在较深的阶段变得更加具有判别性。

参数初始化方法


借用: http://blog.csdn.net/qq_26898461/article/details/50996507

Gaussian


Weights are randomly drawn from Gaussian distributions with fixed mean (e.g., 0) and fixed standard deviation (e.g., 0.01).
This is the most common initialization method in deep learning.

Xavier

This method proposes to adopt a properly scaled uniform or Gaussian distribution for initialization.
In Caffe (an openframework for deep learning) [2], It initializes the weights in network by drawing them from a distribution with zero mean and a specific variance,
这里写图片描述
Where W is the initialization distribution for the neuron in question, and nin is the number of neurons feeding into it. The distribution used is typically Gaussian or uniform.
In Glorot & Bengio’s paper [1], itoriginally recommended using
这里写图片描述
Where n_out is the number of neurons the result is fed to.
Reference:
[1] X. Glorot and Y. Bengio. Understanding the difficulty of training deepfeedforward neural networks. In International Conference on Artificial Intelligence and Statistics, pages 249–256, 2010.
[2] Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Girshick, S.Guadarrama, and T. Darrell. Caffe: Convolutional architecture for fast featureembedding. arXiv:1408.5093, 2014.

MSRA

This method is proposed to solve the training of extremely deep rectified models directly from scratch [1].
In this method,weights are initialized with a zero-mean Gaussian distribution whose std is
这里写图片描述
Where 这里写图片描述 is the spatial filter size in layer l and dl1 is the number of filters in layer l1 .
Reference:
[1] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification, Technical report, arXiv, Feb. 2015

这篇关于Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/172020

相关文章

vue解决子组件样式覆盖问题scoped deep

《vue解决子组件样式覆盖问题scopeddeep》文章主要介绍了在Vue项目中处理全局样式和局部样式的方法,包括使用scoped属性和深度选择器(/deep/)来覆盖子组件的样式,作者建议所有组件... 目录前言scoped分析deep分析使用总结所有组件必须加scoped父组件覆盖子组件使用deep前言

MonoHuman: Animatable Human Neural Field from Monocular Video 翻译

MonoHuman:来自单目视频的可动画人类神经场 摘要。利用自由视图控制来动画化虚拟化身对于诸如虚拟现实和数字娱乐之类的各种应用来说是至关重要的。已有的研究试图利用神经辐射场(NeRF)的表征能力从单目视频中重建人体。最近的工作提出将变形网络移植到NeRF中,以进一步模拟人类神经场的动力学,从而动画化逼真的人类运动。然而,这种流水线要么依赖于姿态相关的表示,要么由于帧无关的优化而缺乏运动一致性

MiniCPM-V: A GPT-4V Level MLLM on Your Phone

MiniCPM-V: A GPT-4V Level MLLM on Your Phone 研究背景和动机 现有的MLLM通常需要大量的参数和计算资源,限制了其在实际应用中的范围。大部分MLLM需要部署在高性能云服务器上,这种高成本和高能耗的特点,阻碍了其在移动设备、离线和隐私保护场景中的应用。 文章主要贡献: 提出了MiniCPM-V系列模型,能在移动端设备上部署的MLLM。 性能优越:

Deep Ocr

1.圈出内容,文本那里要有内容.然后你保存,并'导出数据集'. 2.找出deep_ocr_recognition_training_workflow.hdev 文件.修改“DatasetFilename := 'Test.hdict'” 310行 write_deep_ocr (DeepOcrHandle, BestModelDeepOCRFilename) 3.推理test.hdev

PAT (Advanced Level) Practice——1011,1012

1011:  链接: 1011 World Cup Betting - PAT (Advanced Level) Practice (pintia.cn) 题意及解题思路: 简单来说就是给你3行数字,每一行都是按照W,T,L的顺序给出相应的赔率。我们需要找到每一行的W,T,L当中最大的一个数,累乘的结果再乘以0.65,按照例子写出表达式即可。 同时还需要记录每一次选择的是W,T还是L

线性代数|机器学习-P33卷积神经网络ImageNet和卷积规则

文章目录 1. ImageNet2. 卷积计算2.1 两个多项式卷积2.2 函数卷积2.3 循环卷积 3. 周期循环矩阵和非周期循环矩阵4. 循环卷积特征值4.1 卷积计算的分解4.2 运算量4.3 二维卷积公式 5. Kronecker Product 1. ImageNet ImageNet 的论文paper链接如下:详细请直接阅读相关论文即可 通过网盘分享的文件:image

Introduction to Deep Learning with PyTorch

1、Introduction to PyTorch, a Deep Learning Library 1.1、Importing PyTorch and related packages import torch# supports:## image data with torchvision## audio data with torchaudio## text data with t

Face Recognition简记1-A Performance Comparison of Loss Functions for Deep Face Recognition

创新点 1.各种loss的比较 总结 很久没见到这么专业的比较了,好高兴。 好像印证了一句话,没有免费的午餐。。。。 ArcFace 和 Angular Margin Softmax是性能比较突出的

【HDU】5023 A Corrupt Mayor's Performance Art 线段树

传送门:【HDU】5023 A Corrupt Mayor's Performance Art 题目分析:水水的线段树,首先颜色只有30种,所以状压就好了,然后每次查询就把区间内所有的颜色“或”出来,用位运算判断一下有哪些颜色就好了。。 代码如下: #include <cstdio>#include <cstring>#include <algorithm>#in

A fault diagnosis method of bearings based on deep transfer learning

A fault diagnosis method of bearings based on deep transfer learning 基于深度迁移学习的轴承故障诊断方法 ABSTRACT 近年来,许多深度迁移学习方法被广泛应用于不同工况下的轴承故障诊断,以解决数据分布移位问题。然而,在源域数据差异较大、特征分布不一致的情况下,深度迁移学习方法在轴承故障诊断中的准确率较低,因此本文提出了一种