图像识别完整项目之Swin-Transformer,从获取关键词数据集到训练的完整过程

本文主要是介绍图像识别完整项目之Swin-Transformer,从获取关键词数据集到训练的完整过程,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

0. 前言

图像分类的大部分经典神经网络已经全部介绍完,并且已经作了测试

代码已经全部上传到资源,根据文章名或者关键词搜索即可

LeNet :pytorch 搭建 LeNet 网络对 CIFAR-10 图片分类

AlexNet : pytorch 搭建AlexNet 对花进行分类

Vgg : pytorch 搭建 VGG 网络

GoogLeNet : pytorch 搭建GoogLeNet

ResNet : ResNet 训练CIFAR10数据集,并做图片分类


关于轻量级网络

MobileNet 系列:

  • V1 :MobileNet V1 图像分类
  • V2 :MobileNet V2 图像分类
  • V3 :MobileNet V3 图像分类

ShuffleNet 系列:

  • V1 : ShuffleNet V1 对花数据集训练
  • V2 : ShuffleNet V2 迁移学习对花数据集训练

EfficientNet 系列:

  • V1 :EfficientNet 分类花数据集
  • V2 :EfficientNet V2 

Swin-Transformer :Swin-Transformer 在图像识别中的应用


本章将根据 Swin-Transformer 网络对图像分类ending,包括如何获取数据集,训练网络、预测图像等等。

本文从头实现对Marvel superhero 进行分类记录,项目下载在后面

代码尽量简单,小白均可运行,不需要定义复杂的变量

网络精度高,采用迁移学习

1. 项目目录

文件目录如下所示:

注:项目的文件夹和代码不可更改,要不然会报错,至于超参数的更改下面会介绍!!

inference 是预测的文件夹,将预测的图像放在该文件夹下,可以实现批预测

my_dataset_from_net 爬虫脚本,可以自动从网络上下载图片

run_results  网络训练之后生成的信息,包括类别json文件、loss和accuracy精度曲线、学习率衰减曲线、训练过程日志、已经训练集和测试集的混淆矩阵

weights 下面存放的是Swin-Transformer 的预训练权重

py 文件:

  • model Swin-Transformer 网络
  • predict 预测脚本
  • process_data 根据爬虫下载的图片,自动划分训练集和测试,并且提出损坏图像
  • train 训练部分
  • utils 工具函数

详细的可以参考README 文件

2. 获取数据集

当然最开始要配置好环境和requirements.txt 文件

获取数据集在 my_dataset_from_net 文件下,运行文件下的main.py 可以得到:

脚本会自动在该文件下生成download_images文件目录,然后会根据关键词生成子文件夹

批下载的话,可以新建txt文件,按照这样操作就行:

按照下面操作:

选中baidu API ,load file就是刚刚新建的txt文件

Max number per keywords 就是每个关键词下载的图像个数,Threads 最好设定小一点,否则可能会漏下载

下载过程如下:

下载完成如下:

3. 对下载的图像处理、划分训练集和测试集

代码是 process_data.py 文件,因为代码用中文可能报错,这里要将文件夹改成英文

该脚本会自动删除那些 PIL 打不开的文件

代码会自动将每个子文件夹下按照 0.2比例划分测试集 

运行 process_data.py 结果如下:

代码会在主目录下生成数据

4. 开始训练

训练代码是 train.py 文件

4.1 超参数设定

超参数如下:

关于--freeze-layers,设定为True,只会训练MLP权重。False会训练全部网络

    parser = argparse.ArgumentParser()parser.add_argument('--epochs', type=int, default=100)parser.add_argument('--batch-size', type=int, default=32)parser.add_argument('--lr', type=float, default=0.0001)parser.add_argument('--lrf', type=float, default=0.1)parser.add_argument('--freeze-layers', type=bool, default=False)     # 是否冻结权重

至于分类的个数啊、对应标签json文件等等,这里使用 datasets.ImageFolder,代码会自动生成,不需要设定!!

只需要更改上面超参数就行!!

4.2 训练过程

将train这部分代码放开,可以查看网络训练图像信息

如下:

训练过程:

代码会自动计算分类的类别个数

训练结果:

4.3 生成的训练日志

生成的结果全部保存在run_results目录下:

json 文件:

loss-accuracy-curve:

学习率衰减曲线:

训练集和测试集的混淆矩阵:

训练日志:

5. 预测脚本

预测脚本在 inference 中,predict.py 会预测该目录下所有图片

不需要任何更改!!

运行 predict.py结果如下:

结果展示:

6. 项目的一些问题和下载

完整项目下载:图像识别完整项目之Swin-Transformer,从获取关键词数据集到训练的完整过程

爬虫下载图片的时候,下载的数目往往和设定的不一致,这个只需要将数目调大就行。事实上,本项目每个类别仅有200多张图片仍能有不错的表现

爬虫下载的图片有时候会出现不能打开的错误,但是在process_data脚本处理的时候,是没有报错的。

训练过程也没有出现错误,可能是process_data脚本的问题

如果不放心,可以手动删除,

预测的时候,因为预处理train mean和train std的原因,会计算的很慢,如果将项目部署的话,可以手动设定

这篇关于图像识别完整项目之Swin-Transformer,从获取关键词数据集到训练的完整过程的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/504636

相关文章

Python MySQL如何通过Binlog获取变更记录恢复数据

《PythonMySQL如何通过Binlog获取变更记录恢复数据》本文介绍了如何使用Python和pymysqlreplication库通过MySQL的二进制日志(Binlog)获取数据库的变更记录... 目录python mysql通过Binlog获取变更记录恢复数据1.安装pymysqlreplicat

Linux使用dd命令来复制和转换数据的操作方法

《Linux使用dd命令来复制和转换数据的操作方法》Linux中的dd命令是一个功能强大的数据复制和转换实用程序,它以较低级别运行,通常用于创建可启动的USB驱动器、克隆磁盘和生成随机数据等任务,本文... 目录简介功能和能力语法常用选项示例用法基础用法创建可启动www.chinasem.cn的 USB 驱动

在MyBatis的XML映射文件中<trim>元素所有场景下的完整使用示例代码

《在MyBatis的XML映射文件中<trim>元素所有场景下的完整使用示例代码》在MyBatis的XML映射文件中,trim元素用于动态添加SQL语句的一部分,处理前缀、后缀及多余的逗号或连接符,示... 在MyBATis的XML映射文件中,<trim>元素用于动态地添加SQL语句的一部分,例如SET或W

C#实现获取电脑中的端口号和硬件信息

《C#实现获取电脑中的端口号和硬件信息》这篇文章主要为大家详细介绍了C#实现获取电脑中的端口号和硬件信息的相关方法,文中的示例代码讲解详细,有需要的小伙伴可以参考一下... 我们经常在使用一个串口软件的时候,发现软件中的端口号并不是普通的COM1,而是带有硬件信息的。那么如果我们使用C#编写软件时候,如

Oracle数据库使用 listagg去重删除重复数据的方法汇总

《Oracle数据库使用listagg去重删除重复数据的方法汇总》文章介绍了在Oracle数据库中使用LISTAGG和XMLAGG函数进行字符串聚合并去重的方法,包括去重聚合、使用XML解析和CLO... 目录案例表第一种:使用wm_concat() + distinct去重聚合第二种:使用listagg,

SpringBoot 整合 Grizzly的过程

《SpringBoot整合Grizzly的过程》Grizzly是一个高性能的、异步的、非阻塞的HTTP服务器框架,它可以与SpringBoot一起提供比传统的Tomcat或Jet... 目录为什么选择 Grizzly?Spring Boot + Grizzly 整合的优势添加依赖自定义 Grizzly 作为

C#实现WinForm控件焦点的获取与失去

《C#实现WinForm控件焦点的获取与失去》在一个数据输入表单中,当用户从一个文本框切换到另一个文本框时,需要准确地判断焦点的转移,以便进行数据验证、提示信息显示等操作,本文将探讨Winform控件... 目录前言获取焦点改变TabIndex属性值调用Focus方法失去焦点总结最后前言在一个数据输入表单

Python实现将实体类列表数据导出到Excel文件

《Python实现将实体类列表数据导出到Excel文件》在数据处理和报告生成中,将实体类的列表数据导出到Excel文件是一项常见任务,Python提供了多种库来实现这一目标,下面就来跟随小编一起学习一... 目录一、环境准备二、定义实体类三、创建实体类列表四、将实体类列表转换为DataFrame五、导出Da

Python实现数据清洗的18种方法

《Python实现数据清洗的18种方法》本文主要介绍了Python实现数据清洗的18种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学... 目录1. 去除字符串两边空格2. 转换数据类型3. 大小写转换4. 移除列表中的重复元素5. 快速统

通过C#获取PDF中指定文本或所有文本的字体信息

《通过C#获取PDF中指定文本或所有文本的字体信息》在设计和出版行业中,字体的选择和使用对最终作品的质量有着重要影响,然而,有时我们可能会遇到包含未知字体的PDF文件,这使得我们无法准确地复制或修改文... 目录引言C# 获取PDF中指定文本的字体信息C# 获取PDF文档中用到的所有字体信息引言在设计和出