【论文+代码】VISION PERMUTATOR 即插即用的多层感知器(MLP)模块

本文主要是介绍【论文+代码】VISION PERMUTATOR 即插即用的多层感知器(MLP)模块,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

  • 论文
    • 模块
    • 创新点
  • 代码
    • 模块
    • 分析
      • 代码讲解

论文

本文的研究成果在项目的实现过程中起到了至关重要的作用。以下是本文的详细信息:

文章链接: VISION PERMUTATOR: A PERMUTABLE MLP-LIKE ARCHITECTURE FOR VISUAL RECOGNITION

模块

创新点

在多个方面进行了创新和改进,以下是项目的主要创新点:

代码

代码链接 https://github.com/houqb/VisionPermutator/blob/main

模块

核心算法和模型训练。

import torch.nn as nnclass VisionPermutator(nn.Module):""" Vision Permutator视觉排列器,是一个用于图像处理的神经网络模型"""def __init__(self, layers, img_size=224, patch_size=4, in_chans=3, num_classes=1000,embed_dims=None, transitions=None, segment_dim=None, mlp_ratios=None, skip_lam=1.0,qkv_bias=False, qk_scale=None, drop_rate=0., attn_drop_rate=0., drop_path_rate=0.,norm_layer=nn.LayerNorm, mlp_fn=WeightedPermuteMLP):super().__init__()self.num_classes = num_classes# 将输入图像分割成小块,并进行初步的嵌入self.patch_embed = PatchEmbed(img_size=img_size, patch_size=patch_size, in_chans=in_chans, embed_dim=embed_dims[0])network = []# 构建整个网络的架构for i in range(len(layers)):# 添加基础模块到网络中stage = basic_blocks(embed_dims[i], i, layers, segment_dim[i], mlp_ratio=mlp_ratios[i], qkv_bias=qkv_bias,qk_scale=qk_scale, attn_drop=attn_drop_rate, drop_path_rate=drop_path_rate, norm_layer=norm_layer, skip_lam=skip_lam,mlp_fn=mlp_fn)network.append(stage)if i >= len(layers) - 1:breakif transitions[i] or embed_dims[i] != embed_dims[i+1]:# 如果需要转换,添加下采样层patch_size = 2 if transitions[i] else 1network.append(Downsample(embed_dims[i], embed_dims[i+1], patch_size))# 将网络模块列表封装成 nn.ModuleListself.network = nn.ModuleList(network)# 添加归一化层self.norm = norm_layer(embed_dims[-1])# 分类头部,进行最终的类别预测self.head = nn.Linear(embed_dims[-1], num_classes) if num_classes > 0 else nn.Identity()self.apply(self._init_weights)def _init_weights(self, m):# 初始化模型权重if isinstance(m, nn.Linear):trunc_normal_(m.weight, std=.02)if isinstance(m, nn.Linear) and m.bias is not None:nn.init.constant_(m.bias, 0)elif isinstance(m, nn.LayerNorm):nn.init.constant_(m.bias, 0)nn.init.constant_(m.weight, 1.0)def get_classifier(self):# 获取分类器return self.headdef reset_classifier(self, num_classes, global_pool=''):# 重置分类器,用于迁移学习或微调self.num_classes = num_classesself.head = nn.Linear(self.embed_dim, num_classes) if num_classes > 0 else nn.Identity()def forward_embeddings(self, x):# 处理输入图像,进行初步的嵌入x = self.patch_embed(x)# 将张量维度从 (B, C, H, W) 转换为 (B, H, W, C)x = x.permute(0, 2, 3, 1)return xdef forward_tokens(self, x):# 依次通过网络的每个模块for idx, block in enumerate(self.network):x = block(x)# 展平张量以适应分类头部的输入要求B, H, W, C = x.shapex = x.reshape(B, -1, C)return xdef forward(self, x):# 前向传播的入口函数# 首先,进行初步嵌入处理x = self.forward_embeddings(x)# 接着,通过所有网络模块进行处理x = self.forward_tokens(x)# 最后,进行归一化处理,并通过分类头部进行类别预测x = self.norm(x)# 将所有位置的特征平均,得到最终的预测结果return self.head(x.mean(1))

分析

https://github.com/houqb/VisionPermutator/blob/main/models/vip.py

import torch.nn as nnclass VisionPermutator(nn.Module):""" Vision Permutator视觉排列器,是一个用于图像处理的神经网络模型"""def __init__(self, layers, img_size=224, patch_size=4, in_chans=3, num_classes=1000,embed_dims=None, transitions=None, segment_dim=None, mlp_ratios=None, skip_lam=1.0,qkv_bias=False, qk_scale=None, drop_rate=0., attn_drop_rate=0., drop_path_rate=0.,norm_layer=nn.LayerNorm, mlp_fn=WeightedPermuteMLP):super().__init__()self.num_classes = num_classes# 将输入图像分割成小块,并进行初步的嵌入self.patch_embed = PatchEmbed(img_size=img_size, patch_size=patch_size, in_chans=in_chans, embed_dim=embed_dims[0])network = []# 构建整个网络的架构for i in range(len(layers)):# 添加基础模块到网络中stage = basic_blocks(embed_dims[i], i, layers, segment_dim[i], mlp_ratio=mlp_ratios[i], qkv_bias=qkv_bias,qk_scale=qk_scale, attn_drop=attn_drop_rate, drop_path_rate=drop_path_rate, norm_layer=norm_layer, skip_lam=skip_lam,mlp_fn=mlp_fn)network.append(stage)if i >= len(layers) - 1:breakif transitions[i] or embed_dims[i] != embed_dims[i+1]:# 如果需要转换,添加下采样层patch_size = 2 if transitions[i] else 1network.append(Downsample(embed_dims[i], embed_dims[i+1], patch_size))# 将网络模块列表封装成 nn.ModuleListself.network = nn.ModuleList(network)# 添加归一化层self.norm = norm_layer(embed_dims[-1])# 分类头部,进行最终的类别预测self.head = nn.Linear(embed_dims[-1], num_classes) if num_classes > 0 else nn.Identity()self.apply(self._init_weights)def _init_weights(self, m):# 初始化模型权重if isinstance(m, nn.Linear):trunc_normal_(m.weight, std=.02)if isinstance(m, nn.Linear) and m.bias is not None:nn.init.constant_(m.bias, 0)elif isinstance(m, nn.LayerNorm):nn.init.constant_(m.bias, 0)nn.init.constant_(m.weight, 1.0)def get_classifier(self):# 获取分类器return self.headdef reset_classifier(self, num_classes, global_pool=''):# 重置分类器,用于迁移学习或微调self.num_classes = num_classesself.head = nn.Linear(self.embed_dim, num_classes) if num_classes > 0 else nn.Identity()def forward_embeddings(self, x):# 处理输入图像,进行初步的嵌入x = self.patch_embed(x)# 将张量维度从 (B, C, H, W) 转换为 (B, H, W, C)x = x.permute(0, 2, 3, 1)return xdef forward_tokens(self, x):# 依次通过网络的每个模块for idx, block in enumerate(self.network):x = block(x)# 展平张量以适应分类头部的输入要求B, H, W, C = x.shapex = x.reshape(B, -1, C)return xdef forward(self, x):# 前向传播的入口函数# 首先,进行初步嵌入处理x = self.forward_embeddings(x)# 接着,通过所有网络模块进行处理x = self.forward_tokens(x)# 最后,进行归一化处理,并通过分类头部进行类别预测x = self.norm(x)# 将所有位置的特征平均,得到最终的预测结果return self.head(x.mean(1))

代码讲解

forward 函数是模型的主要执行路径,它将输入图像转化为嵌入特征,通过网络模块进行处理,归一化后通过分类头部输出预测结果。这一步步的处理确保了模型能够有效地提取图像特征,并进行准确的分类。

  1. 初始化函数 (__init__)

    • 初始化模型,设置各种参数,并构建网络结构。
    • patch_embed 将输入图像分割成小块并进行初步的嵌入。
    • network 是一个包含多个阶段和下采样层的模块列表。
    • normhead 分别是归一化层和分类头部,用于最终的预测。
  2. 权重初始化函数 (_init_weights)

    • 初始化线性层和归一化层的权重和偏置。
  3. 获取分类器函数 (get_classifier)

    • 返回分类头部,主要用于评估或微调。
  4. 重置分类器函数 (reset_classifier)

    • 重置分类头部,以适应不同的分类任务。
  5. 前向嵌入函数 (forward_embeddings)

    • 对输入图像进行初步处理,将其分割成小块并嵌入到更高维度的特征空间。
  6. 前向处理函数 (forward_tokens)

    • 通过所有网络模块进行处理,将特征进一步提取和转换。
  7. 前向传播函数 (forward)

    • 这个函数是整个模型的核心:
      1. 首先调用 forward_embeddings 对输入图像进行初步处理,将其转换为嵌入特征。
      2. 然后调用 forward_tokens 依次通过所有网络模块进行特征提取和转换。
      3. 接着对特征进行归一化处理。
      4. 最后,通过分类头部进行类别预测。这里使用了全局平均池化 (x.mean(1)),将所有位置的特征平均,得到一个最终的特征向量,输入到分类头部进行预测。

这篇关于【论文+代码】VISION PERMUTATOR 即插即用的多层感知器(MLP)模块的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1036076

相关文章

Java调用DeepSeek API的最佳实践及详细代码示例

《Java调用DeepSeekAPI的最佳实践及详细代码示例》:本文主要介绍如何使用Java调用DeepSeekAPI,包括获取API密钥、添加HTTP客户端依赖、创建HTTP请求、处理响应、... 目录1. 获取API密钥2. 添加HTTP客户端依赖3. 创建HTTP请求4. 处理响应5. 错误处理6.

使用 sql-research-assistant进行 SQL 数据库研究的实战指南(代码实现演示)

《使用sql-research-assistant进行SQL数据库研究的实战指南(代码实现演示)》本文介绍了sql-research-assistant工具,该工具基于LangChain框架,集... 目录技术背景介绍核心原理解析代码实现演示安装和配置项目集成LangSmith 配置(可选)启动服务应用场景

Python中顺序结构和循环结构示例代码

《Python中顺序结构和循环结构示例代码》:本文主要介绍Python中的条件语句和循环语句,条件语句用于根据条件执行不同的代码块,循环语句用于重复执行一段代码,文章还详细说明了range函数的使... 目录一、条件语句(1)条件语句的定义(2)条件语句的语法(a)单分支 if(b)双分支 if-else(

MySQL数据库函数之JSON_EXTRACT示例代码

《MySQL数据库函数之JSON_EXTRACT示例代码》:本文主要介绍MySQL数据库函数之JSON_EXTRACT的相关资料,JSON_EXTRACT()函数用于从JSON文档中提取值,支持对... 目录前言基本语法路径表达式示例示例 1: 提取简单值示例 2: 提取嵌套值示例 3: 提取数组中的值注意

CSS3中使用flex和grid实现等高元素布局的示例代码

《CSS3中使用flex和grid实现等高元素布局的示例代码》:本文主要介绍了使用CSS3中的Flexbox和Grid布局实现等高元素布局的方法,通过简单的两列实现、每行放置3列以及全部代码的展示,展示了这两种布局方式的实现细节和效果,详细内容请阅读本文,希望能对你有所帮助... 过往的实现方法是使用浮动加

JAVA调用Deepseek的api完成基本对话简单代码示例

《JAVA调用Deepseek的api完成基本对话简单代码示例》:本文主要介绍JAVA调用Deepseek的api完成基本对话的相关资料,文中详细讲解了如何获取DeepSeekAPI密钥、添加H... 获取API密钥首先,从DeepSeek平台获取API密钥,用于身份验证。添加HTTP客户端依赖使用Jav

Java实现状态模式的示例代码

《Java实现状态模式的示例代码》状态模式是一种行为型设计模式,允许对象根据其内部状态改变行为,本文主要介绍了Java实现状态模式的示例代码,文中通过示例代码介绍的非常详细,需要的朋友们下面随着小编来... 目录一、简介1、定义2、状态模式的结构二、Java实现案例1、电灯开关状态案例2、番茄工作法状态案例

Python利用自带模块实现屏幕像素高效操作

《Python利用自带模块实现屏幕像素高效操作》这篇文章主要为大家详细介绍了Python如何利用自带模块实现屏幕像素高效操作,文中的示例代码讲解详,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1、获取屏幕放缩比例2、获取屏幕指定坐标处像素颜色3、一个简单的使用案例4、总结1、获取屏幕放缩比例from

nginx-rtmp-module模块实现视频点播的示例代码

《nginx-rtmp-module模块实现视频点播的示例代码》本文主要介绍了nginx-rtmp-module模块实现视频点播,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习... 目录预置条件Nginx点播基本配置点播远程文件指定多个播放位置参考预置条件配置点播服务器 192.

CSS自定义浏览器滚动条样式完整代码

《CSS自定义浏览器滚动条样式完整代码》:本文主要介绍了如何使用CSS自定义浏览器滚动条的样式,包括隐藏滚动条的角落、设置滚动条的基本样式、轨道样式和滑块样式,并提供了完整的CSS代码示例,通过这些技巧,你可以为你的网站添加个性化的滚动条样式,从而提升用户体验,详细内容请阅读本文,希望能对你有所帮助...