PVT(Pyramid Vision Transformer)算法整理

本文主要是介绍PVT(Pyramid Vision Transformer)算法整理，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

整体架构

整个“金字塔”架构分为4个stage，每个stage内的基础结构是相似的，即：

Patch Embedding：目的在于将信息分块，降低单张图的图片大小，但会增加数据的深度
Transformer Encoder：目的在于计算图片的attention value，由于深度变大了，计算复杂度会变大，所以在这里作者使用了Special Reduction来减小计算复杂度

具体模块

Patch Embedding

Patch Embedding部分与ViT中对与图片的分块操作是一样的，即：

将原图切成总数为 $p_i\times p_i$ 的patches

具体操作：
使用卷积操作， $\mathrm{kernal\_size}=\frac{H}{p_i}，\mathrm{stride}=\frac{H}{p_i}$

将每个patch内的数据拉平，然后进行LayerNorm，此时每个patch内的数据大小为 $\frac{H_{i-1}W_{i-1}}{p_i^2}\times C_i$

Transformer Encoder

ViT中的Attention计算过程可以用如下公式表示：

$Q=W_qx+b_q\quad K=W_kx+b_k\quad V=W_vx+b_v\\ \mathrm{Attention}(Q,K,V)=\mathrm{Softmax}(\frac{QK^T}{\sqrt{d_{head}}})V$
假设输入( $x$ )的大小为 $HW\times C$ ，则 $Q.\mathrm{shape}=K.\mathrm{shape}=V.\mathrm{shape}=HW\times C'$

PVT中的Attention计算过程可以用如下公式表示：

$\mathrm{SRA}(Q,K,V)=\mathrm{Concat}(head_0,...head_{N_i})W^o,\\ (head_j=\mathrm{Attention}(QW_j^Q,\mathrm{SR}(K)W_j^K,\mathrm{SR}(V)W_j^V))\\ \mathrm{SR}(x)=\mathrm{Norm(Reshape}(x,R^i)W^S)\\ \mathrm{Attention}(Q,K,V)=\mathrm{Softmax}(\frac{QK^T}{\sqrt{d_{head}}})V$
假设输入( $x$ )的大小为 $HW\times C$ ，则 $Q.\mathrm{shape}=HW\times C'，K.\mathrm{shape}=V.\mathrm{shape}=\frac{HW}{R_i^2}\times C'$ ，可以看出，使用这个方法之后，最终得到的结果的维度不变，但计算Attention的值时，参数的数量减少了很多

代码链接

https://github.com/whai362/PVT

这篇关于PVT(Pyramid Vision Transformer)算法整理的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

PVT(Pyramid Vision Transformer)算法整理

整体架构

具体模块

Patch Embedding

Transformer Encoder

代码链接

相关文章

MySQL 迁移至 Doris 最佳实践方案(最新整理)

SpringSecurity整合redission序列化问题小结(最新整理)

MySQL 多列 IN 查询之语法、性能与实战技巧(最新整理)

Javaee多线程之进程和线程之间的区别和联系(最新整理)

Spring IoC 容器的使用详解(最新整理)

MySQL 删除数据详解(最新整理)

Java中的雪花算法Snowflake解析与实践技巧

Python变量与数据类型全解析(最新整理)

MyBatis Plus 中 update_time 字段自动填充失效的原因分析及解决方案(最新整理)

MySQL复杂SQL之多表联查/子查询详细介绍(最新整理)