Textual Inversion：使用文本反转个性化文本到图像的生成

本文主要是介绍Textual Inversion：使用文本反转个性化文本到图像的生成，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

系列文章目录

DreamBooth：个性化的文本到图像扩散模型

文章目录

系列文章目录
一、研究动机
二、模型方法
- - 1、潜在扩散模型
  - 2、文本嵌入
  - 3、文本反演
三、Textual Inversion与dreambooth的对比
四、Textual Inversion效果
- - 1、图像变化
  - 2、文本引导合成
  - 3、风格迁移

Textual Inversion模型：将独特的对象注入新场景，将它们转换成不同的风格，转移姿势，减少偏见，甚至想象新产品。

inversion反演：使用生成网络操作图像通常需要找到给定图像的相应潜在表示，这一过程称为反演。

在 GAN 文献中，这种反转是通过基于优化的技术或使用编码器来完成的。优化方法直接优化潜在向量，这样通过 GAN 将其输入将重新创建目标图像。编码器利用大型图像集来训练将图像映射到其潜在表示的网络。

一、研究动机

文本到图像模型的使用受到用户通过文本描述所需目标的能力的限制。
将新概念引入大型模型通常很困难：
- 如果针对每个新概念使用扩展数据集重新训练模型，成本会比较高，并且对于少数示例进行微调容易导致灾难性遗忘
- 如果采用冻结模型并训练转换模块的方法，则容易忘记先验知识，或者在与新学习的概念同时访问它时面临困难

因此，文章通过在预训练的文本到图像模型的文本嵌入空间中查找新词来克服这些挑战：仅使用用户提供的概念（例如对象或风格）的 3-5 个图像，我们学习通过冻结文本到图像模型的嵌入空间中的新“单词”来表示它。这些“词”可以组成自然语言句子，直观地指导个性化创作。

二、模型方法

模型中文本反演的架构设计：

首先需要定义一个在现有模型中没有的关键词 $S *$ 来表示我们希望学习的新概念，也被称为pseudo word；
新的关键词会和其他的关键词一样，学习到对应的特征嵌入 $V *$ 。这样就将新概念注入到了模型的词汇中；
然后，这个pseudo word就会像其他词一样被正常处理，并可用于为生成模型编写新的句子。

由于上述过程只是在SD的子模块text_encoder中的token embedding部分通过训练增加了pseudo word的嵌入向量，其他模块均保持不变，所以训练速度超快，效果也很明显。

在这里插入图片描述

1、潜在扩散模型

LDM 由两个核心组件组成：

首先，自动编码器在大量图像上进行预训练：
- 编码器 E 学习将图像 $x∈ D_x$ 映射到潜在空间 $z = E (x)$ ，通过 KL 散度损失或矢量量化进行正则化。
- 解码器 D 学习将此类潜伏映射回图像，使得 $D (E (x)) \approx x$ 。
扩散模型，经过训练以在学习的潜在空间内生成代码。这种扩散模型可以以类标签、分割掩模甚至联合训练的文本嵌入模型的输出为条件。

模型采用 Rombach 等人公开的 14 亿参数文本到图像模型，它是在 LAION-400M 数据集上进行预训练的。

2、文本嵌入

模型的文本嵌入端采用的是BERT文本编码器。输入字符串中的每个单词或者子单词都被转换为一个标记，它是某个预定义字典中的索引。然后，每个标记都链接到一个唯一的嵌入向量，可以通过基于索引的查找来检索该嵌入向量。这些嵌入向量通常作为文本编码器 cθ 的一部分进行学习。
Textual Inversion选择这个嵌入空间作为反演的目标。具体来说，指定一个占位符字符串 S* 来表示希望学习的新概念。对嵌入过程进行干预，并用新的、学习过的嵌入 v* 替换与标记化字符串相关的向量，本质上是将概念“注入”到词汇中。通过这样做，可以组成包含该概念的新句子，就像使用任何其他单词一样。

3、文本反演

为了找到这些新的嵌入，模型使用一小组图像（通常是 3-5 张），它们描述了跨多种设置（例如不同的背景或姿势）的目标概念。我们通过直接优化找到 v*，通过最小化从小集合中采样的图像上等式的 LDM 损失。为了调节生成，我们随机采样源自 CLIP ImageNet 模板的中性上下文文本。其中包含“S* 的照片”、“S* 的演绎”等形式的提示。优化目标可以定义为：
在这里插入图片描述

三、Textual Inversion与dreambooth的对比

任务： Textual Inversion与dreambooth从任务描述来看基本上是一样的，都是仅使用3-5张用户提供的概念的图像将独特的对象注入新场景，将它们转换成不同的风格；
标识符： DreamBooth使用了稀有的单词重新和新主题关联，将唯一标识符与特定的主题绑定在一起。一旦主题被嵌入到模型的输出域中，那么唯一标识符就可以用来合成在不同场景中背景化的主题的全新逼真图像；而Textual Inversion是没有的单词，新加了单词，学习通过固定文本到图像模型的嵌入空间中的新“单词”来表示它；
风格迁移： Textual Inversion论文中实现了风格迁移，DreamBooth没做，但是理论上也可以做；
效果： Textual Inversion的效果不如DreamBooth；
训练过程： DreamBooth训练过程中所有的模型参数都会微调，Textual Inversion只训练新词特征字典，因此，DreamBooth为了抗遗忘的prior preservation loss自然在Textual Inversion也不需要了。

四、Textual Inversion效果

1、图像变化

文本反演可用于使用单个pseudo word来创建对象的变体。它能够使用单个词的嵌入来捕捉对象更加精细的细节。
在这里插入图片描述

2、文本引导合成

文本反演可以通过将学习到的pseudo word与新的条件文本相结合来创建新颖的场景。我们可以从上图中生成的图像看到，利用的pseudo word和新条件文本中的语义概念可以创建新的场景。由于SD中的UNet是使用预先训练好的大规模文本到图像模型建立的，因此一个通过学文本反演学习好的嵌入可以在不同扩散模型中重复使用。
在这里插入图片描述