深度学习入门:卷积神经网络 | CNN概述,图像基础知识,卷积层,池化层(超详解!!!)

本文主要是介绍深度学习入门:卷积神经网络 | CNN概述,图像基础知识,卷积层,池化层(超详解!!!),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

🍔 前言

🍔 图像基础知识

1. 像素和通道的理解

2. 小节

🍔 卷积层

1. 卷积计算

2. Padding

3. Stride

4. 多通道卷积计算

5. 多卷积核卷积计算

6. 特征图大小

7. PyTorch 卷积层 API

7. 小节

🍔 池化层

1. 池化层计算​编辑

2. Stride

3. Padding

4. 多通道池化计算

5. PyTorch 池化 API 使用

5. 小节


🍔 前言

CNN概述🤖

卷积神经网络是深度学习在计算机视觉领域的突破性成果. 在计算机视觉领域, 往往我们输入的图像都很大,使用全连接网络的话,计算的代价较高. 另外图像也很难保留原有的特征,导致图像处理的准确率不高.

卷积神经网络(Convolutional Neural Network)是含有卷积层神经网络. 卷积层的作用就是用来自动学习提取图像的特征.

CNN网络主要有三部分构成:卷积层池化层全连接层构成。

🐼 卷积层负责提取图像中的局部特征;

🐼 池化层用来大幅降低参数量级(降维);

🐼 全连接层类似人工神经网络的部分,用来输出想要的结果。

🍔 图像基础知识

学习目标

🍀 知道像素、通道等概念

🍀 掌握使用matplotlib加载图片方法


我们在进行图像任务时,需要了解图像的基础知识。图像是由像素点组成的,每个像素点的值范围为: [0, 255], 像素值越大意味着较亮。比如一张 200x200 的图像, 则是由 40000 个像素点组成, 如果每个像素点都是 0 的话, 意味着这是一张全黑的图像.

我们看到的彩色图一般都是多通道的图像, 所谓多通道可以理解为图像由多个不同的图像层叠加而成, 例如我们看到的彩色图像一般都是由 RGB 三个通道组成的,还有一些图像具有 RGBA 四个通道,最后一个通道为透明通道,该值越小,则图像越透明。

1. 像素和通道的理解

接下来,我们使用 matplotlib 库来实际理解下上面讲解的图像知识。

话不多说,直接上代码演示💯:

import numpy as np
import matplotlib.pyplot as plt# 1. 图像基本理解
def test01():img = np.zeros([200, 200])print(img)plt.imshow(img, cmap='gray', vmin=0, vmax=255)plt.show()img = np.full([255, 255], 255)print(img)plt.imshow(img, cmap='gray', vmin=0, vmax=255)plt.show()# 2. 图像的通道
def test02():img = plt.imread('data/彩色图片.png')# 修改数据的维度img = np.transpose(img, [2, 0, 1])# 打印所有通道for channel in img:print(channel)plt.imshow(channel)plt.show()# 修改透明度img[3] = 0.05img = np.transpose(img, [1, 2, 0])plt.imshow(img)plt.show()if __name__ == '__main__':test01()test02()

程序输出结果:

2. 小节

在本小节我们了解了图像的像素、通道相关概念。图像是由像素点组成的,像素值的范围 [0, 255] 值越小表示亮度越小,值越大,表名亮度值越大。一个全0的图像就是一副全黑图像。 一个复杂的图像则是由多个通道组合在一起形成的。

🍔 卷积层

学习目标

🍀 掌握卷积计算过程

🍀 掌握特征图大小计算方法

🍀 掌握PyTorch卷积层API


卷积层在深度学习中具有极其重要的地位,特别是在图像处理计算机视觉领域。它能够有效地提取图像中的特征,通过滑动窗口和权重共享机制,实现对图像的高效处理。学习卷积层不仅有助于理解深度学习的基本原理,也是掌握先进图像处理技术的关键。

接下来,我们开始学习卷积核的计算过程, 即: 卷积核是如何提取特征的.

1. 卷积计算

  1. input 表示输入的图像
  2. filter 表示卷积核, 也叫做滤波器
  3. input 经过 filter 的得到输出为最右侧的图像,该图叫做特征图

那么, 它是如何进行计算的呢?卷积运算本质上就是在滤波器和输入数据的局部区域间做点积。

左上角的点计算方法:

按照上面的计算方法可以得到最终的特征图为:

2. Padding

通过上面的卷积计算过程,我们发现最终的特征图比原始图像小很多,如果想要保持经过卷积后的图像大小不变, 可以在原图周围添加 padding 来实现.

3. Stride

按照步长为1来移动卷积核,计算特征图如下所示:

如果我们把 Stride 增大为2,也是可以提取特征图的,如下图所示:

4. 多通道卷积计算

实际中的图像都是多个通道组成的,我们怎么计算卷积呢?

计算方法如下: 1. 当输入有多个通道(Channel), 例如 RGB 三个通道, 此时要求卷积核需要拥有相同的通道数数. 2. 每个卷积核通道与对应的输入图像的各个通道进行卷积. 3. 将每个通道的卷积结果按位相加得到最终的特征图.

如下图所示:

5. 多卷积核卷积计算

上面的例子里我们只使用一个卷积核进行特征提取, 实际对图像进行特征提取时, 我们需要使用多个卷积核进行特征提取. 这个多个卷积核可以理解为从不同到的视角、不同的角度对图像特征进行提取.

那么, 当使用多个卷积核时, 应该怎么进行特征提取呢?

6. 特征图大小

输出特征图的大小与以下参数息息相关:

  1. size: 卷积核/过滤器大小,一般会选择为奇数,比如有 1*1, 3*3, 5*5*
  2. Padding: 零填充的方式
  3. Stride: 步长

那计算方法如下图所示:

  1. 输入图像大小: W x W
  2. 卷积核大小: F x F
  3. Stride: S
  4. Padding: P
  5. 输出图像大小: N x N

以下图为例:

  1. 图像大小: 5 x 5
  2. 卷积核大小: 3 x 3
  3. Stride: 1
  4. Padding: 1
  5. (5 - 3 + 2) / 1 + 1 = 5, 即得到的特征图大小为: 5 x 5

7. PyTorch 卷积层 API

我们接下来对下面的图片进行特征提取:

test01 函数使用一个多通道卷积核进行特征提取, test02 函数使用 3 个多听到卷积核进行特征提取:

import torch
import torch.nn as nn
import matplotlib.pyplot as plt# 显示图像
def show(img):# 输入形状: (Height, Width, Channel)plt.imshow(img)plt.axis('off')plt.show()# 1. 单个多通道卷积核
def test01():# 读取图像, 形状: (640, 640, 4)img = plt.imread('data/彩色图片.png')show(img)# 构建卷积层# 由于 out_channels 为 1, 相当于只有一个4通道卷积核conv = nn.Conv2d(in_channels=4, out_channels=1, kernel_size=3, stride=1, padding=1)# 输入形状: (BatchSize, Channel, Height, Width)# mg形状: torch.Size([4, 640, 640])img = torch.tensor(img).permute(2, 0, 1)# img 形状: torch.Size([1, 4, 640, 640])img = img.unsqueeze(0)# 输入卷积层, new_img 形状: torch.Size([1, 1, 640, 640])new_img = conv(img)# new_img 形状: torch.Size([640, 640, 1])new_img = new_img.squeeze(0).permute(1, 2, 0)show(new_img.detach().numpy())# 2. 多个多通道卷积核
def test02():# 读取图像, 形状: (640, 640, 4)img = plt.imread('data/彩色图片.png')show(img)# 构建卷积层# 由于 out_channels 为 3, 相当于只有 3 个4通道卷积核conv = nn.Conv2d(in_channels=4, out_channels=3, kernel_size=3, stride=1, padding=1)# 输入形状: (BatchSize, Channel, Height, Width)# img形状: torch.Size([3, 640, 640])img = torch.tensor(img).permute(2, 0, 1)# img 形状: torch.Size([1, 3, 640, 640])img = img.unsqueeze(0)# 输入卷积层, new_img 形状: torch.Size([1, 3, 640, 640])new_img = conv(img)# new_img 形状: torch.Size([640, 640, 3])new_img = new_img.squeeze(0).permute(1, 2, 0)# 打印三个特征图show(new_img[:, :, 0].unsqueeze(2).detach().numpy())show(new_img[:, :, 1].unsqueeze(2).detach().numpy())show(new_img[:, :, 2].unsqueeze(2).detach().numpy())if __name__ == '__main__':test01()test02()

程序输出结果:

7. 小节

本小节主要学习卷积层相关知识,卷积层主要用于提取图像特征,避免对复杂图像特征的手动提取,经过实践表明,基于卷积核实现的自动特征提取在很多场景下的效果要好于手动特征提取。

🍔 池化层

学习目标

🍀 掌握池化计算过程

🍀 掌握PyTorch池化层API


池化层 (Pooling) 降低维度, 缩减模型大小,提高计算速度. 即: 主要对卷积层学习到的特征图进行下采样(SubSampling)处理.

池化层主要有两种:

  1. 最大池化
  2. 平均池化

1. 池化层计算

最大池化:

  1. max(0, 1, 3, 4)
  2. max(1, 2, 4, 5)
  3. max(3, 4, 6, 7)
  4. max(4, 5, 7, 8)

平均池化:

  1. mean(0, 1, 3, 4)
  2. mean(1, 2, 4, 5)
  3. mean(3, 4, 6, 7)
  4. mean(4, 5, 7, 8)

2. Stride

最大池化:

  1. max(0, 1, 4, 5)
  2. max(2, 3, 6, 7)
  3. max(8, 9, 12, 13)
  4. max(10, 11, 14, 15)

平均池化:

  1. mean(0, 1, 4, 5)
  2. mean(2, 3, 6, 7)
  3. mean(8, 9, 12, 13)
  4. mean(10, 11, 14, 15)

3. Padding

最大池化:

  1. max(0, 0, 0, 0)
  2. max(0, 0, 0, 1)
  3. max(0, 0, 1, 2)
  4. max(0, 0, 2, 0)
  5. ... 以此类推

平均池化:

  1. mean(0, 0, 0, 0)
  2. mean(0, 0, 0, 1)
  3. mean(0, 0, 1, 2)
  4. mean(0, 0, 2, 0)
  5. ... 以此类推

4. 多通道池化计算

在处理多通道输入数据时,池化层对每个输入通道分别池化,而不是像卷积层那样将各个通道的输入相加。这意味着池化层的输出和输入的通道数是相等。

5. PyTorch 池化 API 使用

import torch
import torch.nn as nn# 1. API 基本使用
def test01():inputs = torch.tensor([[0, 1, 2], [3, 4, 5], [6, 7, 8]]).float()inputs = inputs.unsqueeze(0).unsqueeze(0)# 1. 最大池化# 输入形状: (N, C, H, W)polling = nn.MaxPool2d(kernel_size=2, stride=1, padding=0)output = polling(inputs)print(output)# 2. 平均池化polling = nn.AvgPool2d(kernel_size=2, stride=1, padding=0)output = polling(inputs)print(output)# 2. stride 步长
def test02():inputs = torch.tensor([[0, 1, 2, 3], [4, 5, 6, 7], [8, 9, 10, 11], [12, 13, 14, 15]]).float()inputs = inputs.unsqueeze(0).unsqueeze(0)# 1. 最大池化polling = nn.MaxPool2d(kernel_size=2, stride=2, padding=0)output = polling(inputs)print(output)# 2. 平均池化polling = nn.AvgPool2d(kernel_size=2, stride=2, padding=0)output = polling(inputs)print(output)# 3. padding 填充
def test03():inputs = torch.tensor([[0, 1, 2], [3, 4, 5], [6, 7, 8]]).float()inputs = inputs.unsqueeze(0).unsqueeze(0)# 1. 最大池化polling = nn.MaxPool2d(kernel_size=2, stride=1, padding=1)output = polling(inputs)print(output)# 2. 平均池化polling = nn.AvgPool2d(kernel_size=2, stride=1, padding=1)output = polling(inputs)print(output)# 4. 多通道池化
def test04():inputs = torch.tensor([[[0, 1, 2], [3, 4, 5], [6, 7, 8]],[[10, 20, 30], [40, 50, 60], [70, 80, 90]],[[11, 22, 33], [44, 55, 66], [77, 88, 99]]]).float()inputs = inputs.unsqueeze(0)# 最大池化polling = nn.MaxPool2d(kernel_size=2, stride=1, padding=0)output = polling(inputs)print(output)if __name__ == '__main__':test04()

5. 小节

本小节主要学习了池化层的相关知识,池化层主要用于减少数据的维度。其主要分为: 最大池化、平均池化,我们在进行图像分类任务时,可以使用最大池化。

这篇关于深度学习入门:卷积神经网络 | CNN概述,图像基础知识,卷积层,池化层(超详解!!!)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1095624

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

Spring Security基于数据库验证流程详解

Spring Security 校验流程图 相关解释说明(认真看哦) AbstractAuthenticationProcessingFilter 抽象类 /*** 调用 #requiresAuthentication(HttpServletRequest, HttpServletResponse) 决定是否需要进行验证操作。* 如果需要验证,则会调用 #attemptAuthentica

Spring Security 从入门到进阶系列教程

Spring Security 入门系列 《保护 Web 应用的安全》 《Spring-Security-入门(一):登录与退出》 《Spring-Security-入门(二):基于数据库验证》 《Spring-Security-入门(三):密码加密》 《Spring-Security-入门(四):自定义-Filter》 《Spring-Security-入门(五):在 Sprin

基于人工智能的图像分类系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像分类是计算机视觉中的一个重要任务,目标是自动识别图像中的对象类别。通过卷积神经网络(CNN)等深度学习技术,我们可以构建高效的图像分类系统,广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统,包括环境

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

linux-基础知识3

打包和压缩 zip 安装zip软件包 yum -y install zip unzip 压缩打包命令: zip -q -r -d -u 压缩包文件名 目录和文件名列表 -q:不显示命令执行过程-r:递归处理,打包各级子目录和文件-u:把文件增加/替换到压缩包中-d:从压缩包中删除指定的文件 解压:unzip 压缩包名 打包文件 把压缩包从服务器下载到本地 把压缩包上传到服务器(zip

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

计组基础知识

操作系统的特征 并发共享虚拟异步 操作系统的功能 1、资源分配,资源回收硬件资源 CPU、内存、硬盘、I/O设备。2、为应⽤程序提供服务操作系统将硬件资源的操作封装起来,提供相对统⼀的接⼝(系统调⽤)供开发者调⽤。3、管理应⽤程序即控制进程的⽣命周期:进程开始时的环境配置和资源分配、进程结束后的资源回收、进程调度等。4、操作系统内核的功能(1)进程调度能⼒: 管理进程、线