一文彻底搞懂CNN - 卷积和池化（Convolution And Pooling）

本文主要是介绍一文彻底搞懂CNN - 卷积和池化（Convolution And Pooling），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Convolutional Neural Network

CNN（卷积神经网络）最核心的两大操作就是卷积（Convolution）和池化（Pooling）。卷积用于特征提取，通过卷积核在输入数据上滑动计算加权和；池化用于特征降维，通过聚合统计池化窗口内的元素来减少数据空间大小。

Convolution And Pooling

一、_卷积（Convolution）

卷积（Convolution）：卷积是一种数学运算，在CNN中，它通过滑动窗口（也称为卷积核或滤波器）在输入图像或特征图上滑动，并计算窗口内元素与对应卷积核元素的加权和（包括偏置项），从而生成输出特征图。

Convolution

卷积是一种特殊的线性运算，用于提取图像中的局部特征。CNN通过使用一个或多个卷积核（也称为滤波器或特征检测器）在输入数据（如图像）上进行滑动窗口操作来提取特征。

卷积核（Convolution Kernel）： 一个可学习的权重矩阵，其大小通常远小于输入图像的大小，用于在输入图像上滑动并进行元素级的乘法累加操作。
特征图（Feature Map）：卷积操作的结果，每个特征图都代表了输入图像在不同卷积核下的特征响应。

Convolution

卷积的计算过程：通过卷积核在输入数据上滑动，计算每个位置上的加权和（包括偏置项），并可能应用激活函数，以生成输出特征图。

Convolution

卷积的重要参数：卷积的重要参数主要包括卷积核大小（Kernel Size）、步长（Stride）以及填充（Padding），它们共同决定了卷积层的输出特征图的尺寸和特性。

卷积核大小（Kernel Size）：决定了感受野的大小，即每次卷积操作能够覆盖的输入区域大小。
步长（Stride）：决定了卷积核在输入图像或特征图上滑动的距离。步长为1表示每次滑动一个像素，步长大于1则表示每次滑动多个像素。
填充（Padding）：在输入图像或特征图的边缘添加额外的零值，以控制输出特征图的尺寸。常见的填充方式有“valid”（无填充）和“same”（填充后输出尺寸与输入相同）。
通道数（Channels）：对于输入图像，通道数指的是颜色通道数（如RGB图像的通道数为3）。对于卷积层，输出特征图的通道数由卷积核的数量决定。

Convolution

_二、池化（Pooling）_

**池化（Pooling）：**池化是卷积神经网络中的一种下采样操作。它通过定义一个空间邻域（通常为矩形区域），并对该邻域内的特征进行统计处理（如取最大值、平均值等），从而生成新的特征图。池化操作通常紧随卷积层之后。

Pooling

池化操作在降低特征图空间大小的同时，保持了特征的空间层次结构，有助于减少计算量并提高模型的泛化能力。

Pooling

**池化的常见类型：****池化操作有多种方式，其中最常见的是最大值池化（Max Pooling）和 平均池化（Average Pooling）。**它们分别通过选取局部区域内的最大值和平均值来减少特征图的尺寸。

Pooling

池化的重要参数：池化窗口大小和步长是决定池化层输出尺寸的关键参数，窗口大小定义了覆盖区域，步长决定了滑动距离。

池化窗口大小（Kernel Size）：定义了池化操作的窗口大小，通常是一个正方形（如2x2、3x3等）。窗口大小决定了池化操作在输入数据上滑动时覆盖的区域大小。
步长（Stride）：步长定义了池化窗口在输入数据上滑动的距离。如果步长与窗口大小相同，则池化操作不会重叠。如果步长小于窗口大小，则池化操作会重叠。