如何理解卷积神经网络CNN的卷积核是四维向量

本文主要是介绍如何理解卷积神经网络CNN的卷积核是四维向量，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

这篇博客介绍卷积神经网络中的卷积操作，重点是关于卷积核的维度的理解，介绍卷积核从二维过渡到四维的理解方式。

首先定义下文会用到的符号
输入图片，三维向量，三个维度为M × N × P
输出图片，三维向量，三个维度为M’ × N’ × Q
卷积核，四维向量，四个维度为m × n × P × Q

关于卷积核为什么是四维向量，可以按照以下三个步骤理解：

理解步骤1. 卷积核为二维向量

在CNN的示意图中，最常见的画法就是输入图片、卷积核、输出图片都是二维向量。

这里假设有一张输入图片，尺寸为10*10，卷积核的尺寸为3*3，卷积核的滑动步长取1，那么，经过卷积操作，可以得到一张输出图片，尺寸为8*8，示意图如下。（眼熟吗？这就是最常见的示意图画法了）

在示意图中，暂且忽略尺寸的具体数值，假设有一张输入图片，为二维向量M × N，卷积核为二维向量m × n，经过二维卷积运算，得到一张输出图片，为二维向量M’ × N’。另外，为了便于说明，省去示意图上的网格，并且把输入图片、卷积核、输出图片都侧着画，就有了下面的示意图。

理解步骤2. 卷积核扩展为三维向量

在上一步骤中，假设输入图片只有一张图片，而在实际情况中，图片存在“通道”的概念，输入图片包含通道，例如，一张彩色图片包含RGB三个通道，每个通道可以当作一张图片，那么，输入图片其实不只一张，而是多张，假设有P张（每张不同），P张堆叠在一起，输入图片就从二维向量M × N变成了三维向量M × N × P。而对于卷积核，每张输入图片都需要一个单独的二维卷积核进行二维卷积运算，二维卷积核也就需要P个（每个不同），卷积核就从二维向量m × n变成了三维向量m × n × P。

输入图片里的每个M × N的二维向量和卷积核里的每个m × n的二维向量做二维卷积运算，可以得到P个M’ × N’ 的二维向量，P个M’ × N’ 的二维向量求和，加上偏置，构成一个M’ × N’ 的二维向量，也就是一张输出图片。这时，输出图片是二维向量M’ × N’。

理解步骤3. 卷积核扩展为四维向量

既然输入图片包含通道，输出图片也能包含通道。在上一步骤中，所做的操作是得到一张输出图片，那么，把上一步骤的操作执行Q次，就可以得到Q个M’ × N’ 的二维向量，也就是Q张输出图片，Q张堆叠在一起，输出图片就从二维向量M’ × N’变成了三维向量M’ × N’ × Q。因为上一步骤的操作执行Q次，而每次都需要一个单独的三维卷积核，三维卷积核也就需要Q个（每个不同），卷积核就从三维向量m × n × P变成了四维向量m × n × P × Q。