# [cs231n （九）卷积神经网络 ][1]

本文主要是介绍# [cs231n （九）卷积神经网络 ][1]，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

cs231n （九）卷积神经网络

标签（空格分隔）：神经网络

文章目录

[cs231n （九）卷积神经网络 ][1]
同类文章
0.回顾
1. 引言
2. 总体概述
3. 构建卷积网络的每个层
- - 1. 卷积层
  - 2. pooling池化层
  - 3. 归一化层
  - 4. 全连接层
  - 5. 全连接层转化为卷积层
4. 如何构建卷积神经网络的结构
- - 1. 层的排列方式
  - 2. 层的大小设置规律
  - 3. 相关案例学习（LeNet/ AlexNet/ ZFNet/ GoogLeNet/ VGG）
  - 4. 一些计算上的考虑
6. 其他资源
转载和疑问声明
我祝各位帅哥，和美女，你们永远十八岁，嗨嘿嘿~~~

0.回顾

cs231n （一）图像分类识别讲了KNN
cs231n （二）讲了线性分类器：SVM和SoftMax
cs231n （三）优化问题及方法
cs231n （四）反向传播
cs231n （五）神经网络 part 1:构建架构
cs231n （六）神经网络 part 2:传入数据和损失
cs231n （七）神经网络 part 3 : 学习和评估
cs231n （八）神经网络总结：最小网络案例研究

1. 引言

经过一系列的学习终于抵达了传说中的卷积神经网络，他和一般的网络很类似，前面学过的东西这里全都能用上，那么有什么不同呢？

ConvNet结构假设输入是图像，这就允许我们将某些属性编码到体系结构中，来吧，一般究竟哈？~~~emmmm

2. 总体概述

总体结构就是：输入向量————>隐含层非线性变换————>输出

对于前面讲过的，CIFAR-10数据是32x32x3=3072（权重数），如果图像很大呢，比如一般图像的尺寸都达到了1000x1000x3 = 3000000（权重），这时候：

计算机说：我不干了，累死我算了
卷积网络中的神经元是三维排列的，卷积只与前一层的部分连接，那么对于DIFAR数据最后一层应该是1x1x10。

左边：三层神经网络右边：卷积神经网络

卷积神经网络由层组成，每层都有相应的API，用一些可导函数把输入的3D数据转换为输出的3D数据。

3. 构建卷积网络的每个层

主要由三层组成：卷积——————池化——————全连接层！
比如CIFAR数据的话：

输入层-————卷积层-————ReLU层（尺寸不变-———池化层-———全连接层
32x32x3————32x32x12——————32x32x12————————16x16x12————————1x1x10

输入数据变为——————输出数据
CNN由很多层一般包含上述几种层
每层输入是3D数据，然后使用可导函数把它变为3D输出数据
有的层含参数，有的没有（卷积层和全连接层有，ReLU层和池化层没）

上图中的结构是一个小型VGG网络

1. 卷积层

这层是核心层，主要是由一些滤波器构成，现在使用一套滤波器（比如12个），每层都会产生一个图数据，然后叠加就是此层的输出。

**例如：**输入数据体尺寸[32x32x3]（比如CIFAR-10的RGB图像），卷积核大小是5x5，那么卷积层中的每个神经元会有输入数据体中[5x5x3]区域的权重，共5x5x3=75个权重（还要加一个偏差参数）。注意这个连接在深度维度上的大小必须为3，和输入数据体的深度相同。

左边：输入数据，蓝色是5个卷积核叠加形成的
右边：计算的还是权重和输入的内积。

卷积层的输出： 由深度（多深），步长（一次移动多远），零填充（图像周围加零）决定。

输入数据尺寸：W 卷积核大小：F
步长:S 零填充数量：P

输出的尺寸就是： (W-F+2P)/S + 1

P取多少为好？输入与输出相同尺寸时候满足：P=(F-1)/2

参数共享：将深度维度上一个单独的2维通道（就是一层）看做深度切片（depth slice）
比如：一个数据体尺寸为[55x55x96]的就有96个深度切片，每个尺寸为[55x55]，每个深度切片上的神经元都使用同样的权重和偏差，

这样卷积层输出就有96个权重不同权重集，权重集合称为滤波器（filter），这96个滤波器的尺寸都是[11x11x3]，每个都被55x55个神经元共享？

Krizhevsky等学习到的滤波器例子

具体Numpy例子

位于(x,y)的深度列将会是X[x,y,:]
位于深度d的切片应该是X[:,:,d]

假设输入数据X的尺寸X.shape:(11,11,4)，不使用零填充，滤波器的尺寸：F=5，步长S=2，
输出尺寸就是(11-5)/2+1=4

V[0,0,0] = np.sum(X[:5,:5,:] * W0) + b0
V[1,0,0] = np.sum(X[2:7,:5,:] * W0) + b0
V[2,0,0] = np.sum(X[4:9,:5,:] * W0) + b0
V[3,0,0] = np.sum(X[6:11,:5,:] * W0) + b0

小结：总结一下卷积层的性质：

输入数据体的尺寸为$ W_1\times H_1\times D_1$

4个超参数：
- 滤波器的数量K

滤波器的空间尺寸F
步长S
零填充数量P

输出数据体的尺寸为$W_2\times H_2\times D_2 $，其中：$ W_2=(W_1-F+2P)/S+1$

$H_2=(H_1-F+2P)/S+1$ （宽度和高度的计算方法相同）
$D_2=K$

由于参数共享，每个滤波器包含 $F\cdot F\cdot D_1$ 个权重，卷积层一共有 $F\cdot F\cdot D_1\cdot K$ 个权重和 $K$ 个偏置。
在输出数据体中，第d个深度切片（空间尺寸是 $W_2\times H_2$ ），用第d个滤波器和输入数据进行有效卷积运算的结果（使用步长S），最后在加上第d个偏差。

对这些超参数，常见的设置: F=3，S=1，P=1
动态演示
输入： $W_1=5,H_1=5,D_1=3$
卷积层参数: $K = 2, F = 3, S = 2, P = 1$
输出: 是(5-3+2)/2+1=3

有2个滤波器，滤波器的尺寸是 $3\cdot 3$ ，它们的步长是2.

动图

1x1卷积，有意义: 因为如果我们处理的三维卷积，那么比点积更有效。
扩张卷积让滤波器中元素之间有间隙,在某维度上滤波器w的尺寸是3，
那么计算输入x的方式是： $w [0] * x [0] + w [1] * x [1] + w [2] * x [2]$ ，此时扩张为0.
那么计算为, 如果扩张为1： $w [0] * x [0] + w [1] * x [2] + w [2] * x [4]$