文献阅读:MAGE: MAsked Generative Encoder to Unify Representation Learning and Image Synthesis

本文主要是介绍文献阅读:MAGE: MAsked Generative Encoder to Unify Representation Learning and Image Synthesis,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文献阅读:MAGE: MAsked Generative Encoder to Unify Representation Learning and Image Synthesis


论文链接:

paper

代码地址:

code


MAE

掩码自动编码器(MAE):屏蔽输入图像的随机patch并重建丢失的像素。它基于两个核心设计。
在这里插入图片描述

  • 首先,文章开发了一种非对称的编码器-解码器架构:其中一个编码器仅对可见的patch进行操作,另一个轻量级解码器从潜在表示和掩码标记重建原始图像。
  • 文章发现掩蔽高比例的输入图像,例如75%,产生了一个非平凡且有意义的自我监督任务。将这两种设计结合起来,能够高效地训练大型模型。

首先,我们为每个输入补丁生成一个标记(通过添加位置嵌入的线性投影)。接下来,我们将随机洗牌列表,并根据屏蔽比率删除列表的最后一部分。这个过程为编码器产生一个小的目标子集,等价于不用替换的方法采样patch。编码后,我们将一个掩码令牌列表添加到已编码的补丁列表中,并对整个列表进行反洗牌(颠倒随机洗牌操作),以将所有令牌与其目标对齐。解码器被应用于这个完整的列表(添加了位置嵌入)。如前所述,不需要进行稀疏操作。这个简单的实现引入了可以忽略不计的开销,因为拖曳和反洗牌操作是快速的。

在这里插入图片描述

在预训练之后,丢弃解码器,并将编码器应用于未损坏的图像(完整的补丁集)以执行识别任务。

方法

  • Masking:将图像划分为规则的非重叠小块,然后对一个子集的小块进行采样,并屏蔽(即移除)其余的小块。具有高掩蔽比的随机采样在很大程度上消除了冗余。
  • MAE encoder:编码器是一个ViT,通过添加位置嵌入的线性投影来嵌入补丁,然后通过一系列Transformer块来处理结果集。(每个掩码标记都是一个共享的学习向量,是可以学习得到的。我们将位置嵌入添加到此完整集合中的所有标记;没有这一点,掩码令牌将没有关于它们在图像中的位置的信息。)
  • MAE decoder :MAE解码器的输入是由编码的可见patch和遮盖patch组成
  • Reconstruction target:本文做了两种实验,第一种是直接产出pixel,然后计算MSE。第二种是对每一个patch计算均值方差,然后归一化。实验发现,归一化处理后representation的质量有提升。

  • 提出了MAsked Generative Encoder(MAGE),这是第一个统一图像生成和自监督表示学习的框架。
  • 在掩模图像建模预训练中使用可变掩模比可以允许在相同的训练框架下进行生成训练(非常高的掩模比)和表示学习(较低的掩模率)。
  • MAGE提出了基于图像语义符的 masked image token modeling 方法

它是一种新的方法,可以通过一个基于token的masked image modeling (MIM)框架,使用不同的masking比例,来统一图像生成和自监督表示学习


在这里插入图片描述
现有方法通常使用像素上的简单重建损失,从而导致输出模糊。


  • 不同于以前的MIM方法,MAGE的输入和重建目标都是语义标记。
  • 对于生成,不仅允许MAGE迭代执行图像生成任务,还允许MAGE学习掩码tokens的概率分布。
  • 对于表示学习,使用tokens作为输入和输出允许网络在高语义级别上运行,而不会丢失低级细节。
    在这里插入图片描述

在这里插入图片描述

VQGAN模型是一种用于图像生成的模型,它结合了离散化编码和Transformer的技术。
离散化编码是指使用一个codebook来表示模型中间特征,每个codebook中的编码都对应一个特定的图像块。
Transformer是一种基于自注意力机制的序列模型,可以捕捉长距离的依赖关系,并且可以并行化处理。
VQGAN模型的整体架构如下:
编码器:将输入图像分成多个patches,并将每个patch映射为一个线性嵌入,然后通过寻找codebook中的最近邻编码来得到离散化的特征。
生成器:使用Transformer作为生成器,将离散化的特征作为输入序列,并输出与codebook相同长度的序列,然后通过查找codebook中对应的编码来重建图像。
判别器:使用PatchGAN作为判别器,对生成的图像和真实图像进行判别,并提供对抗损失。
  • Tokenization:采用与VQGAN模型中的第一阶段相同的设置,模型对语义标记而不是原始像素进行操作。 (离散化编码是指使用一个codebook来表示模型中间特征,每个codebook中的编码都对应一个特定的图像块。将输入图像分成多个patches,并将每个patch映射为一个线性嵌入,然后通过寻找codebook中的最近邻编码来得到离散化的特征。)
  • Masking Strategy:从以0.55为中心、左截0.5、右截1的截断高斯分布中随机采样掩蔽比mr。 如果tokens输入序列的长度为l,随机屏蔽掉mr·ltokens,并用可学习的掩码tokens替换它们。由于mr≥0.5,我们进一步从这些屏蔽tokens中随机丢弃0.5·ltokens。
  • Encoder-Decoder Design:将一个可学习的“假”类标记[C0]连接到输入序列。然后将级联序列馈送到视觉变换器(ViT)编码器-解码器结构中,并将其编码到潜在特征空间中。
  • 在解码之前,编码器学习的类tokens特征[C]将编码器的输出填充到完整的输入长度。然后,解码器使用填充的特征来重建原始tokens。
  • 将一个可学习的“假”类标记[C0]连接到输入序列。然后将级联序列馈送到视觉变换器(ViT)编码器-解码器结构中。ViT编码器将掩蔽和丢弃后的tokens序列作为输入,并将其编码到潜在特征空间中。如MAE所示,类标记位置可以概括输入图像的全局特征。因此,我们使用每个图像特有的[C]来填充编码器输出,而不是使用在不同图像之间共享的可学习掩码tokens。我们在附录中表明,与使用掩蔽tokens相比,该设计提高了生成和表示学习性能(如MAE中所做)。然后,解码器使用填充的特征来重建原始tokens。
  • Reconstructive Training : 在这里插入图片描述表示目标tokens,在这里插入图片描述
    表示确定要屏蔽tokens的对应二进制掩码。

在这里插入图片描述
(YM是Y中的未屏蔽tokens的(子集),p(yi|YM)是编码器网络预测的概率,以未屏蔽tokens为条件。在MAE之后,我们只优化了掩码tokens的损失(优化所有tokens的损失会降低生成和表示学习性能)

  • Contrastive Co-training:在对编码器输出进行全局平均池化而获得的特性之上添加了两层MLP。然后在MLP头的输出上添加InfoNCE损失[44]:

在这里插入图片描述
在这里插入图片描述


Experiment

在这里插入图片描述
预训练模型可以自然地执行类无条件图像生成,而无需对模型参数进行任何微调。

“强”增强(即随机调整作物规模从0.2到1),较弱的增强(随机调整作物比例从0.8到1)更差。a) 从MAGE生成的图像经过默认的强增强训练,即裁剪出图像的较大部分。(b) 从用弱增强训练的MAGE生成的图像,即裁剪出图像的较小部分。
在这里插入图片描述
使用默认增强生成的图像可以放大和缩小得多,但图像仍然真实且质量高。

一个可能的原因是,用于计算FID的ImageNet验证集的大小调整为256并居中裁剪。由于FID是基于生成的图像和ImageNet验证集中的图像之间的相似性计算的,因此如果生成的图像的比例较小,FID将更高。然而,这并不一定意味着生成的图像的视觉质量更差。

在这里插入图片描述
在这里插入图片描述
MAGE在ViT-B上比MAE高6.7%,在ViT-L上比MAE高3.1%,在所有MIM方法中实现了最先进的结果。
此外,MAGE-C在ViT-B和ViT-L中的准确率分别达到78.2%和80.9%。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
MAGE在ImageNet-1k上使用不同掩蔽比分布的线性探测和类无条件生成的结果。结果表明,可变的掩蔽比是实现生成所必需的。此外,使用可变掩蔽比还使得表示学习能够学习更好的特征并实现更好的线性探测性能。
在这里插入图片描述
在这里插入图片描述
首先,在生成过程中,它允许网络在下一次迭代中迭代使用其输出作为输入,从而实现高质量和多样化的图像重建和生成,如图2和图4所示。
第二,它允许整个网络在语义级别上运行,而不丢失低级细节,从而提取更好的表示。我们通过比较使用MAE和MAGE训练的ViT-B的每个变压器块的特征上的线性探针性能来证明这一点。如图6所示,在整个编码器中,每个变压器块的MAGE线性探头精度始终高于MAE。
第三,量化器防止VQGAN CNN编码器创建的快捷方式。如果我们直接使用提取的特征通过没有量化的VQGAN编码器作为变压器的输入,由于相邻特征像素的感受野具有显著的重叠,因此使用附近的未量化特征像素来推断掩蔽的特征像素要容易得多。如表6所示,在相同的掩蔽策略下,使用未量化的特征实现了低得多的重建损失(3.31 vs.5.76),但线性探针精度也低得多(49.5%vs.74.7%)。这表明预训练任务太容易,导致了快捷解决方案,因此导致了较差的表示。因此,量化步骤对于学习良好的表示是必要的。

这篇关于文献阅读:MAGE: MAsked Generative Encoder to Unify Representation Learning and Image Synthesis的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/380580

相关文章

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

lvgl8.3.6 控件垂直布局 label控件在image控件的下方显示

在使用 LVGL 8.3.6 创建一个垂直布局,其中 label 控件位于 image 控件下方,你可以使用 lv_obj_set_flex_flow 来设置布局为垂直,并确保 label 控件在 image 控件后添加。这里是如何步骤性地实现它的一个基本示例: 创建父容器:首先创建一个容器对象,该对象将作为布局的基础。设置容器为垂直布局:使用 lv_obj_set_flex_flow 设置容器

软件架构模式:5 分钟阅读

原文: https://orkhanscience.medium.com/software-architecture-patterns-5-mins-read-e9e3c8eb47d2 软件架构模式:5 分钟阅读 当有人潜入软件工程世界时,有一天他需要学习软件架构模式的基础知识。当我刚接触编码时,我不知道从哪里获得简要介绍现有架构模式的资源,这样它就不会太详细和混乱,而是非常抽象和易

【阅读文献】一个使用大语言模型的端到端语音概要

摘要 ssum框架(Speech Summarization)为了 从说话人的语音提出对应的文本二题出。 ssum面临的挑战: 控制长语音的输入捕捉 the intricate cross-mdoel mapping 在长语音输入和短文本之间。 ssum端到端模型框架 使用 Q-Former 作为 语音和文本的中介连接 ,并且使用LLMs去从语音特征正确地产生文本。 采取 multi-st

简单的Q-learning|小明的一维世界(3)

简单的Q-learning|小明的一维世界(1) 简单的Q-learning|小明的一维世界(2) 一维的加速度世界 这个世界,小明只能控制自己的加速度,并且只能对加速度进行如下三种操作:增加1、减少1、或者不变。所以行动空间为: { u 1 = − 1 , u 2 = 0 , u 3 = 1 } \{u_1=-1, u_2=0, u_3=1\} {u1​=−1,u2​=0,u3​=1}

简单的Q-learning|小明的一维世界(2)

上篇介绍了小明的一维世界模型 、Q-learning的状态空间、行动空间、奖励函数、Q-table、Q table更新公式、以及从Q值导出策略的公式等。最后给出最简单的一维位置世界的Q-learning例子,从给出其状态空间、行动空间、以及稠密与稀疏两种奖励函数的设置方式。下面将继续深入,GO! 一维的速度世界 这个世界,小明只能控制自己的速度,并且只能对速度进行如下三种操作:增加1、减

深度学习--对抗生成网络(GAN, Generative Adversarial Network)

对抗生成网络(GAN, Generative Adversarial Network)是一种深度学习模型,由Ian Goodfellow等人在2014年提出。GAN主要用于生成数据,通过两个神经网络相互对抗,来生成以假乱真的新数据。以下是对GAN的详细阐述,包括其概念、作用、核心要点、实现过程、代码实现和适用场景。 1. 概念 GAN由两个神经网络组成:生成器(Generator)和判别器(D

AI文献综述神器,有这一款就够了!

我是娜姐 @迪娜学姐 ,一个SCI医学期刊编辑,探索用AI工具提效论文写作和发表。 当前的AI辅助文献综述的工具有很多,如果说功能最强大的,娜姐无疑要推SciSpace了。 SciSpace利用强大的AI算法,理解并建立研究论文之间的联系,可以大大提升文献综述的质量和效率。并且其功能还在不断更新和完善。        1 强大的语义搜索功能 传统的关键词搜索可能会遗漏相关文献,Sc

访问controller404:The origin server did not find a current representation for the target resource

ider build->rebuild project。Rebuild:对选定的目标(Project),进行强制性编译,不管目标是否是被修改过。由于 Rebuild 的目标只有 Project,所以 Rebuild 每次花的时间会比较长。 参考:资料