【王树森】Vision Transformer (ViT) 用于图片分类(个人向笔记)

2024-09-01 00:12

本文主要是介绍【王树森】Vision Transformer (ViT) 用于图片分类(个人向笔记),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

图片分类任务

  • 给定一张图片,现在要求神经网络能够输出它对这个图片的分类结果。下图表示神经网络有40%的信心认定这个图片是狗
    在这里插入图片描述
  • ResNet(CNN)曾经是是图像分类的最好模型
  • 在有足够大数据做预训练的情况下,ViT要强于ResNet
  • ViT 就是Transformer Encoder网络

Split Image into Patches

  • 在划分图片的时候,需要指定两个超参数
    • patch size: 一个patch的大小,如 16 × 16 16×16 16×16
    • stride: 如果划分的时候没有重叠,那么stride就等于大小 16 × 16 16×16 16×16
      在这里插入图片描述

Vectorization

  • 把每一个patch(张量),拉伸成一个向量,即直接展平:加入patch是一个 d 1 × d 2 × d 3 d_1×d_2×d_3 d1×d2×d3 的张量,那么向量就是 d 1 d 2 d 3 × 1 d_1d_2d_3×1 d1d2d3×1
    在这里插入图片描述
  • 对每个向量做线性变换,将其降维,变换矩阵的参数都是共享的:
    在这里插入图片描述
  • 由于图片的相对位置是有意义的,所以我们还要加上位置信息,即要对位置进行编码。在下面的两张图中,显然左右两张图是不一样的。但是如果不加位置编码,则它们对于 Transformer 来说就是一样的
  • 我们需要把位置编码加到刚刚变换后的向量里面,现在每个 z z z 即是 patch 内容的表征,又是相对位置关系的表征。论文中表明如果不用位置编码,会掉 3 个百分点的准确率。而用何种位置编码的结果都差不多在这里插入图片描述
  • 我们还会用到一个 CLS,这和上节课的 BERT 是类似的。把 CLS 也做一个 Embedding 和其他向量一起加入多头自注意力的计算。可以堆叠多个多头自注意力层和全连接层
    在这里插入图片描述
  • 我们把这些多头自注意力层和全连接层简化为一个 Encoder 网络,输出从 c 0 c_0 c0 c n c_n cn 一共 n + 1 n+1 n+1 个向量,其中向量 c 1 c_1 c1 c n c_n cn 没有用,可以直接忽略掉。有用的是向量 c 0 c_0 c0,可以把它看作是从图片中提取的特征向量,用作分类任务:
    在这里插入图片描述
  • c 0 c_0 c0 输入 Softmax 分类器,p 的维度取决于有多少个种类:
    在这里插入图片描述
  • 已经搭建好了神经网络,那么我们训练的第一步就是随机初始化神经网络参数,然后在数据集 A 上做一个预训练,其中 A 一定要大
    在这里插入图片描述
  • 在得到预训练的参数后,我们再用一个比较小的数据集 B 进行训练,这个步骤被称为微调,其中数据集 B 是任务的数据集
    在这里插入图片描述
  • 最后在测试集上进行测试,评价模型的表现
    在这里插入图片描述

Image Classification Accuracies

  • 当预训练的数据集不够大的时候,其实 Transformer 的表现并不是很好,弱于 ResNet
  • 当预训练集的大小为中等时,Transformer 的效果与 ResNet 相当
  • 当预训练集的大小为大时,Transformer 准确率会比 ResNet 高 1%
  • 如果预训练数据集更大,那么 Transformer 的准确率还会提升
    在这里插入图片描述

这篇关于【王树森】Vision Transformer (ViT) 用于图片分类(个人向笔记)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1125395

相关文章

Java实现将HTML文件与字符串转换为图片

《Java实现将HTML文件与字符串转换为图片》在Java开发中,我们经常会遇到将HTML内容转换为图片的需求,本文小编就来和大家详细讲讲如何使用FreeSpire.DocforJava库来实现这一功... 目录前言核心实现:html 转图片完整代码场景 1:转换本地 HTML 文件为图片场景 2:转换 H

Java实现在Word文档中添加文本水印和图片水印的操作指南

《Java实现在Word文档中添加文本水印和图片水印的操作指南》在当今数字时代,文档的自动化处理与安全防护变得尤为重要,无论是为了保护版权、推广品牌,还是为了在文档中加入特定的标识,为Word文档添加... 目录引言Spire.Doc for Java:高效Word文档处理的利器代码实战:使用Java为Wo

基于C#实现PDF转图片的详细教程

《基于C#实现PDF转图片的详细教程》在数字化办公场景中,PDF文件的可视化处理需求日益增长,本文将围绕Spire.PDFfor.NET这一工具,详解如何通过C#将PDF转换为JPG、PNG等主流图片... 目录引言一、组件部署二、快速入门:PDF 转图片的核心 C# 代码三、分辨率设置 - 清晰度的决定因

Python从Word文档中提取图片并生成PPT的操作代码

《Python从Word文档中提取图片并生成PPT的操作代码》在日常办公场景中,我们经常需要从Word文档中提取图片,并将这些图片整理到PowerPoint幻灯片中,手动完成这一任务既耗时又容易出错,... 目录引言背景与需求解决方案概述代码解析代码核心逻辑说明总结引言在日常办公场景中,我们经常需要从 W

使用Python实现无损放大图片功能

《使用Python实现无损放大图片功能》本文介绍了如何使用Python的Pillow库进行无损图片放大,区分了JPEG和PNG格式在放大过程中的特点,并给出了示例代码,JPEG格式可能受压缩影响,需先... 目录一、什么是无损放大?二、实现方法步骤1:读取图片步骤2:无损放大图片步骤3:保存图片三、示php

Python学习笔记之getattr和hasattr用法示例详解

《Python学习笔记之getattr和hasattr用法示例详解》在Python中,hasattr()、getattr()和setattr()是一组内置函数,用于对对象的属性进行操作和查询,这篇文章... 目录1.getattr用法详解1.1 基本作用1.2 示例1.3 原理2.hasattr用法详解2.

Java使用Thumbnailator库实现图片处理与压缩功能

《Java使用Thumbnailator库实现图片处理与压缩功能》Thumbnailator是高性能Java图像处理库,支持缩放、旋转、水印添加、裁剪及格式转换,提供易用API和性能优化,适合Web应... 目录1. 图片处理库Thumbnailator介绍2. 基本和指定大小图片缩放功能2.1 图片缩放的

基于Python实现一个图片拆分工具

《基于Python实现一个图片拆分工具》这篇文章主要为大家详细介绍了如何基于Python实现一个图片拆分工具,可以根据需要的行数和列数进行拆分,感兴趣的小伙伴可以跟随小编一起学习一下... 简单介绍先自己选择输入的图片,默认是输出到项目文件夹中,可以自己选择其他的文件夹,选择需要拆分的行数和列数,可以通过

MySQL中的索引结构和分类实战案例详解

《MySQL中的索引结构和分类实战案例详解》本文详解MySQL索引结构与分类,涵盖B树、B+树、哈希及全文索引,分析其原理与优劣势,并结合实战案例探讨创建、管理及优化技巧,助力提升查询性能,感兴趣的朋... 目录一、索引概述1.1 索引的定义与作用1.2 索引的基本原理二、索引结构详解2.1 B树索引2.2

利用Python脚本实现批量将图片转换为WebP格式

《利用Python脚本实现批量将图片转换为WebP格式》Python语言的简洁语法和库支持使其成为图像处理的理想选择,本文将介绍如何利用Python实现批量将图片转换为WebP格式的脚本,WebP作为... 目录简介1. python在图像处理中的应用2. WebP格式的原理和优势2.1 WebP格式与传统