广州大学计算机视觉实验五:简易数字识别

2024-03-16 07:50

本文主要是介绍广州大学计算机视觉实验五:简易数字识别,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

相关资料

广州大学计算机视觉实验一:图像处理入门
广州大学计算机视觉实验二:摄像机几何
广州大学计算机视觉实验三:图像滤波
广州大学计算机视觉实验四:图像分割
广州大学计算机视觉实验五:简易数字识别
广州大学计算机视觉实验六:车牌识别
六份实验报告下载链接Click me🔗

实验五 简易数字识别

  • 相关资料
  • 一、实验目的
  • 二、基本要求
  • 三、实验软件
  • 四、实验内容
    • 1. 使用filter bank提取的纹理特征进行最近邻分类
    • 2. 使用全连接神经网络进行分类
  • 五、实验过程
    • 1. 使用filter bank提取的纹理特征进行最近邻分类
    • 2. 使用全连接神经网络进行分类

一、实验目的

本实验课程是计算机、智能、物联网等专业学生的一门专业课程,通过实验,帮助学生更好地掌握计算机视觉相关概念、技术、原理、应用等;通过实验提高学生编写实验报告、总结实验结果的能力;使学生对计算机视觉、模式识别实现等有比较深入的认识。
1.掌握模式识别中涉及的相关概念、算法。
2.熟悉计算机视觉中的具体编程方法;
3.掌握问题表示、求解及编程实现。

二、基本要求

1.实验前,复习《计算机视觉与模式识别》课程中的有关内容。
2.准备好实验数据。
3.编程要独立完成,程序应加适当的注释。
4.完成实验报告。

三、实验软件

使用Python实现。

四、实验内容

在Mnist数据集上进行手写数字识别

1. 使用filter bank提取的纹理特征进行最近邻分类

拼接图片各个像素(或各个小块)的滤波器响应,作为feature向量,在训练数据集上进行最近邻搜索,打上标签

2. 使用全连接神经网络进行分类

在训练数据集上训练单层或多层的全连接网络,进行分类

五、实验过程

1. 使用filter bank提取的纹理特征进行最近邻分类

拼接图片各个像素(或各个小块)的滤波器响应,作为feature向量,在训练数据集上进行最近邻搜索,打上标签

1、先获取Mnist数据集,直接使用深度学习框架keras自带的数据包

import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import datasets #导入经典数据集加载模块(x,y),(x_test,y_test)=datasets.mnist.load_data()
print(x.shape)
print(y.shape)
print(x_test.shape)
print(y_test.shape)print(x[0].shape)
import matplotlib.pyplot as plt
plt.imshow(x[0],cmap="gray")
plt.show()

在这里插入图片描述

可以看到有6万的训练集以及1万的验证集。

2、采用第四个实验的filter bank分别对训练集和验证集进行提取特征
因为mnist图像较小,所以卷积核大小也调整为15*15,并且减少滤波器的数量至20个。
在这里插入图片描述

#使用filter banks提取训练集特征
x_fea = x.copy().reshape(-1,28,28)
hyper_col_x = np.zeros([x_fea.shape[0],28,28,20])
for i in range(0,20):    kernel = F[:,:,i]for j in range(0,x_fea.shape[0]):hyper_col_x[j,:,:,i] = cv2.filter2D(x_fea[j,:,:],-1,kernel)
x_fea = hyper_col_x.copy().reshape(-1,28*28*20)#使用filter banks提取验证集特征
x_test_fea = x_test.copy().reshape(-1,28,28)
hyper_col = np.zeros([x_test_fea.shape[0],28,28,20])
for i in range(0,20):    kernel = F[:,:,i]for j in range(0,x_test_fea.shape[0]):hyper_col[j,:,:,i] = cv2.filter2D(x_test_fea[j,:,:],-1,kernel)
x_test_fea = hyper_col.copy().reshape(-1,28*28*20)

20个滤波器卷积提取得到的特征维度还是蛮高的,282820 =15680
,直接进行KNN分类显然需要耗费大量计算资源,运行时间也过长。
所以考虑降维,常用的无监督降维有PCA,但在这里使用卷积神经网络中经常用的平均池化,降维至28*28。

x_fea = hyper_col_x.copy().mean(axis=3).reshape(-1,28*28)
x_test_fea = hyper_col.copy().mean(axis=3).reshape(-1,28*28)

在这里插入图片描述

降维后采用KNN进行分类,可以看到准确率还能达到0.897,说明该算法的效果还是蛮不错的。

在这里插入图片描述

2. 使用全连接神经网络进行分类

在训练数据集上训练单层或多层的全连接网络,进行分类
我们自定义的全连接层:

model = tf.keras.Sequential()
model.add(layers.Dense(1024, activation='relu'))
model.add(layers.Dense(512, activation='relu'))
model.add(layers.Dense(128, activation='relu'))
model.add(layers.Dense(10, activation='softmax'))

选择合适的损失函数,这里选择交叉熵函数。
优化算法采用Adam 算法,它和传统的随机梯度下降不同,SGD随机梯度下降保持单一的学习率(即 alpha)更新所有的权重,学习率在训练过程中并不会改变,Adam则会采用自适应性学习率。

训练过程:
在这里插入图片描述

可以看到训练集的准确率达到0.9948,验证集的准确率达到0.9726,说明MLP的效果是非常不错的,并且不需要人为地去提取特征,非常便捷,相较于第一种filter bank+KNN的传统分类方法,神经网络现在的应用更为普遍。
训练集和验证集训练20代的精度和损失可视化如下:
可以看到训练集和验证集的loss都是同步下降,而精度同步上升,说明训练集与验证集分布差异不大,训练过程出现了一点过拟合现象,增强数据增强即可弥补这一缺陷。

在这里插入图片描述

完整代码如下:

import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers
from keras.layers import Dropout
from tensorflow.keras import datasets #导入经典数据集加载模块(x,y),(x_test,y_test)=datasets.mnist.load_data()
print(x.shape)
print(y.shape)
print(x_test.shape)
print(y_test.shape)print(x[0].shape)
import matplotlib.pyplot as plt
plt.imshow(x[0],cmap="gray")
plt.show()x=x.reshape(x.shape[0],28*28)
x_test=x_test.reshape(x_test.shape[0],28*28)model = tf.keras.Sequential()
model.add(layers.Dense(1024, activation='relu'))
model.add(layers.Dense(512, activation='relu'))
model.add(layers.Dense(128, activation='relu'))
model.add(layers.Dense(10, activation='softmax'))#选择合适的损失函数,这里选择交叉熵函数
model.compile(optimizer=tf.keras.optimizers.Adam(3e-4),loss=tf.losses.SparseCategoricalCrossentropy(),metrics=[tf.keras.metrics.SparseCategoricalAccuracy()])history = model.fit(x, y, epochs=20, batch_size=256,validation_data=(x_test, y_test))import matplotlib.pyplot as plt
acc = history.history['sparse_categorical_accuracy']
val_acc = history.history['val_sparse_categorical_accuracy']
loss = history.history['loss']
val_loss = history.history['val_loss']epochs = range(len(acc))plt.plot(epochs, acc, 'b', label='Training accuracy')
plt.plot(epochs, val_acc, 'r', label='Validation accuracy')
plt.title('Training and validation accuracy')
plt.legend()plt.figure()plt.plot(epochs, loss, 'b', label='Training Loss')
plt.plot(epochs, val_loss, 'r', label='Validation Loss')
plt.title('Training and validation loss')
plt.legend()plt.show()

这篇关于广州大学计算机视觉实验五:简易数字识别的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/814799

相关文章

使用PyTorch实现手写数字识别功能

《使用PyTorch实现手写数字识别功能》在人工智能的世界里,计算机视觉是最具魅力的领域之一,通过PyTorch这一强大的深度学习框架,我们将在经典的MNIST数据集上,见证一个神经网络从零开始学会识... 目录当计算机学会“看”数字搭建开发环境MNIST数据集解析1. 认识手写数字数据库2. 数据预处理的

java字符串数字补齐位数详解

《java字符串数字补齐位数详解》:本文主要介绍java字符串数字补齐位数,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Java字符串数字补齐位数一、使用String.format()方法二、Apache Commons Lang库方法三、Java 11+的St

Pytorch微调BERT实现命名实体识别

《Pytorch微调BERT实现命名实体识别》命名实体识别(NER)是自然语言处理(NLP)中的一项关键任务,它涉及识别和分类文本中的关键实体,BERT是一种强大的语言表示模型,在各种NLP任务中显著... 目录环境准备加载预训练BERT模型准备数据集标记与对齐微调 BERT最后总结环境准备在继续之前,确

讯飞webapi语音识别接口调用示例代码(python)

《讯飞webapi语音识别接口调用示例代码(python)》:本文主要介绍如何使用Python3调用讯飞WebAPI语音识别接口,重点解决了在处理语音识别结果时判断是否为最后一帧的问题,通过运行代... 目录前言一、环境二、引入库三、代码实例四、运行结果五、总结前言基于python3 讯飞webAPI语音

Python结合Flask框架构建一个简易的远程控制系统

《Python结合Flask框架构建一个简易的远程控制系统》这篇文章主要为大家详细介绍了如何使用Python与Flask框架构建一个简易的远程控制系统,能够远程执行操作命令(如关机、重启、锁屏等),还... 目录1.概述2.功能使用系统命令执行实时屏幕监控3. BUG修复过程1. Authorization

使用Python开发一个图像标注与OCR识别工具

《使用Python开发一个图像标注与OCR识别工具》:本文主要介绍一个使用Python开发的工具,允许用户在图像上进行矩形标注,使用OCR对标注区域进行文本识别,并将结果保存为Excel文件,感兴... 目录项目简介1. 图像加载与显示2. 矩形标注3. OCR识别4. 标注的保存与加载5. 裁剪与重置图像

Python爬虫selenium验证之中文识别点选+图片验证码案例(最新推荐)

《Python爬虫selenium验证之中文识别点选+图片验证码案例(最新推荐)》本文介绍了如何使用Python和Selenium结合ddddocr库实现图片验证码的识别和点击功能,感兴趣的朋友一起看... 目录1.获取图片2.目标识别3.背景坐标识别3.1 ddddocr3.2 打码平台4.坐标点击5.图

如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别详解

《如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别详解》:本文主要介绍如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别的相关资料,描述了如何使用海康威视设备网络SD... 目录前言开发流程问题和解决方案dll库加载不到的问题老旧版本sdk不兼容的问题关键实现流程总结前言作为

Java数字转换工具类NumberUtil的使用

《Java数字转换工具类NumberUtil的使用》NumberUtil是一个功能强大的Java工具类,用于处理数字的各种操作,包括数值运算、格式化、随机数生成和数值判断,下面就来介绍一下Number... 目录一、NumberUtil类概述二、主要功能介绍1. 数值运算2. 格式化3. 数值判断4. 随机

python实现简易SSL的项目实践

《python实现简易SSL的项目实践》本文主要介绍了python实现简易SSL的项目实践,包括CA.py、server.py和client.py三个模块,文中通过示例代码介绍的非常详细,对大家的学习... 目录运行环境运行前准备程序实现与流程说明运行截图代码CA.pyclient.pyserver.py参