广州大学计算机视觉实验五:简易数字识别

2024-03-16 07:50

本文主要是介绍广州大学计算机视觉实验五:简易数字识别,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

相关资料

广州大学计算机视觉实验一:图像处理入门
广州大学计算机视觉实验二:摄像机几何
广州大学计算机视觉实验三:图像滤波
广州大学计算机视觉实验四:图像分割
广州大学计算机视觉实验五:简易数字识别
广州大学计算机视觉实验六:车牌识别
六份实验报告下载链接Click me🔗

实验五 简易数字识别

  • 相关资料
  • 一、实验目的
  • 二、基本要求
  • 三、实验软件
  • 四、实验内容
    • 1. 使用filter bank提取的纹理特征进行最近邻分类
    • 2. 使用全连接神经网络进行分类
  • 五、实验过程
    • 1. 使用filter bank提取的纹理特征进行最近邻分类
    • 2. 使用全连接神经网络进行分类

一、实验目的

本实验课程是计算机、智能、物联网等专业学生的一门专业课程,通过实验,帮助学生更好地掌握计算机视觉相关概念、技术、原理、应用等;通过实验提高学生编写实验报告、总结实验结果的能力;使学生对计算机视觉、模式识别实现等有比较深入的认识。
1.掌握模式识别中涉及的相关概念、算法。
2.熟悉计算机视觉中的具体编程方法;
3.掌握问题表示、求解及编程实现。

二、基本要求

1.实验前,复习《计算机视觉与模式识别》课程中的有关内容。
2.准备好实验数据。
3.编程要独立完成,程序应加适当的注释。
4.完成实验报告。

三、实验软件

使用Python实现。

四、实验内容

在Mnist数据集上进行手写数字识别

1. 使用filter bank提取的纹理特征进行最近邻分类

拼接图片各个像素(或各个小块)的滤波器响应,作为feature向量,在训练数据集上进行最近邻搜索,打上标签

2. 使用全连接神经网络进行分类

在训练数据集上训练单层或多层的全连接网络,进行分类

五、实验过程

1. 使用filter bank提取的纹理特征进行最近邻分类

拼接图片各个像素(或各个小块)的滤波器响应,作为feature向量,在训练数据集上进行最近邻搜索,打上标签

1、先获取Mnist数据集,直接使用深度学习框架keras自带的数据包

import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import datasets #导入经典数据集加载模块(x,y),(x_test,y_test)=datasets.mnist.load_data()
print(x.shape)
print(y.shape)
print(x_test.shape)
print(y_test.shape)print(x[0].shape)
import matplotlib.pyplot as plt
plt.imshow(x[0],cmap="gray")
plt.show()

在这里插入图片描述

可以看到有6万的训练集以及1万的验证集。

2、采用第四个实验的filter bank分别对训练集和验证集进行提取特征
因为mnist图像较小,所以卷积核大小也调整为15*15,并且减少滤波器的数量至20个。
在这里插入图片描述

#使用filter banks提取训练集特征
x_fea = x.copy().reshape(-1,28,28)
hyper_col_x = np.zeros([x_fea.shape[0],28,28,20])
for i in range(0,20):    kernel = F[:,:,i]for j in range(0,x_fea.shape[0]):hyper_col_x[j,:,:,i] = cv2.filter2D(x_fea[j,:,:],-1,kernel)
x_fea = hyper_col_x.copy().reshape(-1,28*28*20)#使用filter banks提取验证集特征
x_test_fea = x_test.copy().reshape(-1,28,28)
hyper_col = np.zeros([x_test_fea.shape[0],28,28,20])
for i in range(0,20):    kernel = F[:,:,i]for j in range(0,x_test_fea.shape[0]):hyper_col[j,:,:,i] = cv2.filter2D(x_test_fea[j,:,:],-1,kernel)
x_test_fea = hyper_col.copy().reshape(-1,28*28*20)

20个滤波器卷积提取得到的特征维度还是蛮高的,282820 =15680
,直接进行KNN分类显然需要耗费大量计算资源,运行时间也过长。
所以考虑降维,常用的无监督降维有PCA,但在这里使用卷积神经网络中经常用的平均池化,降维至28*28。

x_fea = hyper_col_x.copy().mean(axis=3).reshape(-1,28*28)
x_test_fea = hyper_col.copy().mean(axis=3).reshape(-1,28*28)

在这里插入图片描述

降维后采用KNN进行分类,可以看到准确率还能达到0.897,说明该算法的效果还是蛮不错的。

在这里插入图片描述

2. 使用全连接神经网络进行分类

在训练数据集上训练单层或多层的全连接网络,进行分类
我们自定义的全连接层:

model = tf.keras.Sequential()
model.add(layers.Dense(1024, activation='relu'))
model.add(layers.Dense(512, activation='relu'))
model.add(layers.Dense(128, activation='relu'))
model.add(layers.Dense(10, activation='softmax'))

选择合适的损失函数,这里选择交叉熵函数。
优化算法采用Adam 算法,它和传统的随机梯度下降不同,SGD随机梯度下降保持单一的学习率(即 alpha)更新所有的权重,学习率在训练过程中并不会改变,Adam则会采用自适应性学习率。

训练过程:
在这里插入图片描述

可以看到训练集的准确率达到0.9948,验证集的准确率达到0.9726,说明MLP的效果是非常不错的,并且不需要人为地去提取特征,非常便捷,相较于第一种filter bank+KNN的传统分类方法,神经网络现在的应用更为普遍。
训练集和验证集训练20代的精度和损失可视化如下:
可以看到训练集和验证集的loss都是同步下降,而精度同步上升,说明训练集与验证集分布差异不大,训练过程出现了一点过拟合现象,增强数据增强即可弥补这一缺陷。

在这里插入图片描述

完整代码如下:

import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers
from keras.layers import Dropout
from tensorflow.keras import datasets #导入经典数据集加载模块(x,y),(x_test,y_test)=datasets.mnist.load_data()
print(x.shape)
print(y.shape)
print(x_test.shape)
print(y_test.shape)print(x[0].shape)
import matplotlib.pyplot as plt
plt.imshow(x[0],cmap="gray")
plt.show()x=x.reshape(x.shape[0],28*28)
x_test=x_test.reshape(x_test.shape[0],28*28)model = tf.keras.Sequential()
model.add(layers.Dense(1024, activation='relu'))
model.add(layers.Dense(512, activation='relu'))
model.add(layers.Dense(128, activation='relu'))
model.add(layers.Dense(10, activation='softmax'))#选择合适的损失函数,这里选择交叉熵函数
model.compile(optimizer=tf.keras.optimizers.Adam(3e-4),loss=tf.losses.SparseCategoricalCrossentropy(),metrics=[tf.keras.metrics.SparseCategoricalAccuracy()])history = model.fit(x, y, epochs=20, batch_size=256,validation_data=(x_test, y_test))import matplotlib.pyplot as plt
acc = history.history['sparse_categorical_accuracy']
val_acc = history.history['val_sparse_categorical_accuracy']
loss = history.history['loss']
val_loss = history.history['val_loss']epochs = range(len(acc))plt.plot(epochs, acc, 'b', label='Training accuracy')
plt.plot(epochs, val_acc, 'r', label='Validation accuracy')
plt.title('Training and validation accuracy')
plt.legend()plt.figure()plt.plot(epochs, loss, 'b', label='Training Loss')
plt.plot(epochs, val_loss, 'r', label='Validation Loss')
plt.title('Training and validation loss')
plt.legend()plt.show()

这篇关于广州大学计算机视觉实验五:简易数字识别的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/814799

相关文章

使用Python实现一个简易计算器的新手指南

《使用Python实现一个简易计算器的新手指南》计算器是编程入门的经典项目,它涵盖了变量、输入输出、条件判断等核心编程概念,通过这个小项目,可以快速掌握Python的基础语法,并为后续更复杂的项目打下... 目录准备工作基础概念解析分步实现计算器第一步:获取用户输入第二步:实现基本运算第三步:显示计算结果进

Python开发简易网络服务器的示例详解(新手入门)

《Python开发简易网络服务器的示例详解(新手入门)》网络服务器是互联网基础设施的核心组件,它本质上是一个持续运行的程序,负责监听特定端口,本文将使用Python开发一个简单的网络服务器,感兴趣的小... 目录网络服务器基础概念python内置服务器模块1. HTTP服务器模块2. Socket服务器模块

基于Python实现数字限制在指定范围内的五种方式

《基于Python实现数字限制在指定范围内的五种方式》在编程中,数字范围限制是常见需求,无论是游戏开发中的角色属性值、金融计算中的利率调整,还是传感器数据处理中的异常值过滤,都需要将数字控制在合理范围... 目录引言一、基础条件判断法二、数学运算巧解法三、装饰器模式法四、自定义类封装法五、NumPy数组处理

基于Python实现简易视频剪辑工具

《基于Python实现简易视频剪辑工具》这篇文章主要为大家详细介绍了如何用Python打造一个功能完备的简易视频剪辑工具,包括视频文件导入与格式转换,基础剪辑操作,音频处理等功能,感兴趣的小伙伴可以了... 目录一、技术选型与环境搭建二、核心功能模块实现1. 视频基础操作2. 音频处理3. 特效与转场三、高

Python中图片与PDF识别文本(OCR)的全面指南

《Python中图片与PDF识别文本(OCR)的全面指南》在数据爆炸时代,80%的企业数据以非结构化形式存在,其中PDF和图像是最主要的载体,本文将深入探索Python中OCR技术如何将这些数字纸张转... 目录一、OCR技术核心原理二、python图像识别四大工具库1. Pytesseract - 经典O

Python基于微信OCR引擎实现高效图片文字识别

《Python基于微信OCR引擎实现高效图片文字识别》这篇文章主要为大家详细介绍了一款基于微信OCR引擎的图片文字识别桌面应用开发全过程,可以实现从图片拖拽识别到文字提取,感兴趣的小伙伴可以跟随小编一... 目录一、项目概述1.1 开发背景1.2 技术选型1.3 核心优势二、功能详解2.1 核心功能模块2.

Python验证码识别方式(使用pytesseract库)

《Python验证码识别方式(使用pytesseract库)》:本文主要介绍Python验证码识别方式(使用pytesseract库),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全... 目录1、安装Tesseract-OCR2、在python中使用3、本地图片识别4、结合playwrigh

无法启动此程序因为计算机丢失api-ms-win-core-path-l1-1-0.dll修复方案

《无法启动此程序因为计算机丢失api-ms-win-core-path-l1-1-0.dll修复方案》:本文主要介绍了无法启动此程序,详细内容请阅读本文,希望能对你有所帮助... 在计算机使用过程中,我们经常会遇到一些错误提示,其中之一就是"api-ms-win-core-path-l1-1-0.dll丢失

使用Python和PaddleOCR实现图文识别的代码和步骤

《使用Python和PaddleOCR实现图文识别的代码和步骤》在当今数字化时代,图文识别技术的应用越来越广泛,如文档数字化、信息提取等,PaddleOCR是百度开源的一款强大的OCR工具包,它集成了... 目录一、引言二、环境准备2.1 安装 python2.2 安装 PaddlePaddle2.3 安装

Python实现特殊字符判断并去掉非字母和数字的特殊字符

《Python实现特殊字符判断并去掉非字母和数字的特殊字符》在Python中,可以通过多种方法来判断字符串中是否包含非字母、数字的特殊字符,并将这些特殊字符去掉,本文为大家整理了一些常用的,希望对大家... 目录1. 使用正则表达式判断字符串中是否包含特殊字符去掉字符串中的特殊字符2. 使用 str.isa