努力成为优秀视觉工程师的一天（二）

本文主要是介绍努力成为优秀视觉工程师的一天（二），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

1. 经典神经网络AlexNet的理解

（1）卷积层、池化层和全连接层的理解

从宏观的角度看，如果我们要对一幅图像进行识别，从图像处理--像素的角度来看，每个物体不同像素的组成构成了不同的特征，通过这些特征来区分物体是什么；那么卷积层就是从图像中提取各种特征，池化层就是为了简化特征提取最重要的特征，这样可以减少识别的时间，全连接层就是把这些特征都组合起来，这样才能判断这个图像中到底是什么东西

（2）卷积层是如何实现特征提取的

首先，从图像处理的角度，卷积本意是寻求两个图像的相似度，例如我们要提取图像中的圆，那么我们用一个圆的模板与之进行卷积，值最高的地方就是最相似的地方，这样就可以找到圆的位置了；广义来讲，也就实现了圆这个特征的提取，那么在深度学习中，我们是不知道我们要提取什么特征，那么卷积的核也就是模板是不知道的，这个参数呢也就是通过不断学习得到的，这样才能提取出图像中有用的特征

卷积核的厚度（第三维的尺寸）=被卷积的图像的通道数
卷积核的个数=卷积操作后输出的通道数（第三维的尺寸）

（3）池化层如何实现特征融合和降维的

池化也是一种类似卷积的操作，只是池化层的所有参数都是超参数，都是不用学习得到的。池化操作的降维改变的是图像的宽高，而不改变通道数。

（4）全连接层如何实现分类的

全连接层其实就是之前学深度学习时最简单的y=wx+b，通过第一层将卷积的结果再经过卷积生成列向量，通过激活函数将其进行非线性化，从而分类

总结，AlexNet是由五个卷积层和三个全连接层组成的八层网络，参数个数：60M，分类数目：1000类