CNN感性认识（四）——深度学习的基本认识

本文主要是介绍CNN感性认识（四）——深度学习的基本认识，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

参考资料：http://neuralnetworksanddeeplearning.com/chap6.html

一、介绍卷积神经网络（convolutional neural network）
① 感受野（local receiptive fields）
以MNITST为例，以前我们总是把神经网络的输入看成一条线，现在我们将它们看成一个28*28的方阵。
这里写图片描述
以前输入层到隐层是全连接的，现在只是某一部分输入神经元与某一部分隐层神经元连接，连接到隐层的小区域被称为感受野。

如果一个隐层神经元对应5*5的感受野，就可以得到24*24的隐层。
一般来说，感受野移动的步长是1，有时也可能取步长为2.
②共享权重和偏置
我们将令24*24的隐层神经元使用相同的偏置。
换句话说，对第j，k个隐层神经元，如前所述，感受野是5*5，输出是：
这里写图片描述
有时，我们称输入层到隐层的映射为特征映射（feature map）
将定义特征映射的权重称为共享权重（shared weight）
共享的权重和偏置用来定义核（kernal）或者滤波器（filter）
feature map不一定只有一个，1个map映射一种特征，多个map映射多种特征，产生多张隐层的方阵。
这里写图片描述
③池化层（pooling）
池化层是指，提取卷积层的输出，准备一个浓缩过的特征映射。
比如说，池化层中的每个单元浓缩2*2区域的神经元，池化的一种普遍方式是最大值池化（max-pooling），即一个pooling单元只输出2*2区域中最大的激励。
由于卷积层的输出是3层24*24，池化层就是3层12*12。
这里写图片描述

pooling层的好处是，在保留了主要信息的前提下，减少了后续层所需的参数的数目。
除了max-pooling以外，L2-pooling（取区域内所有激励的平方和开根号），ave-pooling也很常用。

在最后加上全连接层：
这里写图片描述

二、卷积神经网络的实际操作：
①使用ReLU，加上L2正则化，效果更佳；
②扩大训练数据：一个扩大训练数据的简单方法是，在每张图中替换掉一个像素，上下左右移动一个像素，可以减轻过拟合；
③插入一个额外的全连接层：配合dropout使用效果更佳；
使用这个策略，需要适当下降迭代次数（因为dropout减轻了过拟合，加快了训练速度），需要适当增加全连接层神经元的数量（因为dropout再训练时会省去一些神经元）。
④训练一个网络集合：让它们对结果投票。
⑤只对全连接层使用dropout，而不在其它层使用：因为共享权重意味着卷积滤波器必须从整张图学习，不容易过拟合，也就不需要dropout。
⑥为什么CNN的训练得以顺利进行？
使用卷积层减少了参数，使学习问题更简单；
使用更强大的正则化技术减轻过拟合；
使用ReLU而不是sigmoid激励，加速训练；
使用GPU并接受长时间的训练。
⑦网络究竟可以有多深？
resnet已经做到1000+层了。
三、其他CNN变体：
①递归神经网络（RNN，recurrent neural network）
②LSTM（long short-term memory units）
③波茨曼机（Boltzmann machines，deep belief nets，DBN）