AIGC 007-E4T基于编码器的域调优用于文本到图像模型的快速个性化!

本文主要是介绍AIGC 007-E4T基于编码器的域调优用于文本到图像模型的快速个性化!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

AIGC 007-E4T基于编码器的域调优用于文本到图像模型的快速个性化!


文章目录

    • 0 论文工作
    • 1 论文方法
    • 2 效果

0 论文工作

这篇论文提出了一种使用领域特定编码器来快速将文本到图像模型适配到新领域的方案。这种被称为基于编码器的领域微调 (E4T) 的方法,专注于微调一个轻量级编码器,将领域特定的文本提示投影到与预训练文本到图像模型更一致的空间中。通过利用预训练的文本到图像模型,EDT 避免了训练整个模型,从而显著减少了训练时间和资源消耗。
文本到图像个性化的目的是教一个预先训练过的扩散模型对用户提供的新颖概念进行推理,并将它们嵌入到自然语言提示引导下的新场景中。然而,目前的个性化方法面临着漫长的培训时间、高存储需求或身份丢失的问题。为了克服这些限制,论文提出了一种基于编码器的域调优方法。该方法的关键见解是,通过对来自给定领域的大量概念进行欠拟合,用以改进泛化,并创建一个更易于快速添加新概念的模型相同的域。具体来说,使用了两个组件:首先,一个编码器,它将来自给定域的目标概念的单一图像作为输入,一个特定的面孔,并学习将其映射到一个表示该概念的单词嵌入中。第二,一组针对文本到图像模型的规则化的权重偏移量,用来学习如何有效地摄取额外的概念。这些组件一起被用于指导对看不见的概念的学习,允许只使用一张图像和多达5个训练步骤来个性化一个模型——加速个性化化n从几十分钟到几秒,同时保持质量。
这个方法有点像一个lora加textual-inversion.严格来说这些方法都是需要用a100起步的显卡来微调。相比之下lora和controlnet显得更加友好,在3090系显卡上就能玩转。虽然作者说他们的速度快了,但是前提是依赖性能优越的显卡。
论文链接

1 论文方法

EDT 包含两个主要部分:
领域特定编码器: 这是一个轻量级的神经网络,经过训练将领域特定的文本提示投影到共享的嵌入空间中。编码器学习表示领域特定的词汇和概念,捕捉目标领域的独特特征。
冻结的文本到图像模型: 使用一个预训练的文本到图像模型(例如 Stable Diffusion),不做任何修改。编码器的输出被用作冻结模型的输入,允许模型根据领域特定编码的文本提示生成图像。
训练过程涉及微调领域特定编码器,以最小化编码的文本提示与冻结文本到图像模型中的对应潜在表示之间的差异。
在这里插入图片描述
该方法有效地适应了预先训练好的扩散模型(中间)来处理新的概念。训练了两个组件,一个单词嵌入编码器(左)和权重偏移量(右)。编码器的预测是扩散模型嵌入空间中的一种新代码,它最好地描述了输入概念。此外,优化学习的权重偏移,使文本到图像模型专门化到目标领域(例如,猫)。偏移量是学习到的常数,通过一个神经网络进行正则化。在培训期间,使用𝑥0=𝐼𝑐。其中𝑥𝑇是从高斯先验,𝑥𝑡不再是𝐼𝑐的一个嘈杂版本。
实现:
论文展示了 E4T 的实际实现,并展示了其在各种领域(包括特定艺术风格、物体类别和视觉效果)上的有效性。该实现使用基于 Transformer 的编码器,并通过对比学习目标进行训练。
优点:
快速个性化: 与传统微调方法相比,E4T 显著减少了训练时间,允许快速适应新领域。
资源高效: 通过冻结文本到图像模型,E4T 需要更少的计算资源和数据。
领域特定适应性: 领域特定编码器使模型能够捕捉目标领域的独特特征,从而实现更准确和相关的图像生成。
泛化性: 编码器可以应用于各种领域和图像生成任务。
缺点:
控制有限: 冻结的文本到图像模型限制了对生成过程的控制能力,只能捕捉到领域特定的词汇。

2 效果

在这里插入图片描述

这篇关于AIGC 007-E4T基于编码器的域调优用于文本到图像模型的快速个性化!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1009088

相关文章

0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型的操作流程

《0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeekR1模型的操作流程》DeepSeekR1模型凭借其强大的自然语言处理能力,在未来具有广阔的应用前景,有望在多个领域发... 目录0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型,3步搞定一个应

Deepseek R1模型本地化部署+API接口调用详细教程(释放AI生产力)

《DeepseekR1模型本地化部署+API接口调用详细教程(释放AI生产力)》本文介绍了本地部署DeepSeekR1模型和通过API调用将其集成到VSCode中的过程,作者详细步骤展示了如何下载和... 目录前言一、deepseek R1模型与chatGPT o1系列模型对比二、本地部署步骤1.安装oll

Spring AI Alibaba接入大模型时的依赖问题小结

《SpringAIAlibaba接入大模型时的依赖问题小结》文章介绍了如何在pom.xml文件中配置SpringAIAlibaba依赖,并提供了一个示例pom.xml文件,同时,建议将Maven仓... 目录(一)pom.XML文件:(二)application.yml配置文件(一)pom.xml文件:首

如何在本地部署 DeepSeek Janus Pro 文生图大模型

《如何在本地部署DeepSeekJanusPro文生图大模型》DeepSeekJanusPro模型在本地成功部署,支持图片理解和文生图功能,通过Gradio界面进行交互,展示了其强大的多模态处... 目录什么是 Janus Pro1. 安装 conda2. 创建 python 虚拟环境3. 克隆 janus

本地私有化部署DeepSeek模型的详细教程

《本地私有化部署DeepSeek模型的详细教程》DeepSeek模型是一种强大的语言模型,本地私有化部署可以让用户在自己的环境中安全、高效地使用该模型,避免数据传输到外部带来的安全风险,同时也能根据自... 目录一、引言二、环境准备(一)硬件要求(二)软件要求(三)创建虚拟环境三、安装依赖库四、获取 Dee

C#使用DeepSeek API实现自然语言处理,文本分类和情感分析

《C#使用DeepSeekAPI实现自然语言处理,文本分类和情感分析》在C#中使用DeepSeekAPI可以实现多种功能,例如自然语言处理、文本分类、情感分析等,本文主要为大家介绍了具体实现步骤,... 目录准备工作文本生成文本分类问答系统代码生成翻译功能文本摘要文本校对图像描述生成总结在C#中使用Deep

DeepSeek模型本地部署的详细教程

《DeepSeek模型本地部署的详细教程》DeepSeek作为一款开源且性能强大的大语言模型,提供了灵活的本地部署方案,让用户能够在本地环境中高效运行模型,同时保护数据隐私,在本地成功部署DeepSe... 目录一、环境准备(一)硬件需求(二)软件依赖二、安装Ollama三、下载并部署DeepSeek模型选

Golang的CSP模型简介(最新推荐)

《Golang的CSP模型简介(最新推荐)》Golang采用了CSP(CommunicatingSequentialProcesses,通信顺序进程)并发模型,通过goroutine和channe... 目录前言一、介绍1. 什么是 CSP 模型2. Goroutine3. Channel4. Channe

基于WinForm+Halcon实现图像缩放与交互功能

《基于WinForm+Halcon实现图像缩放与交互功能》本文主要讲述在WinForm中结合Halcon实现图像缩放、平移及实时显示灰度值等交互功能,包括初始化窗口的不同方式,以及通过特定事件添加相应... 目录前言初始化窗口添加图像缩放功能添加图像平移功能添加实时显示灰度值功能示例代码总结最后前言本文将

通过C#获取PDF中指定文本或所有文本的字体信息

《通过C#获取PDF中指定文本或所有文本的字体信息》在设计和出版行业中,字体的选择和使用对最终作品的质量有着重要影响,然而,有时我们可能会遇到包含未知字体的PDF文件,这使得我们无法准确地复制或修改文... 目录引言C# 获取PDF中指定文本的字体信息C# 获取PDF文档中用到的所有字体信息引言在设计和出