北交字节联合提出ClassDiffusion: 使用显式类别引导的一致性个性化生成。

本文主要是介绍北交字节联合提出ClassDiffusion: 使用显式类别引导的一致性个性化生成。,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在个性化生成领域, 微调可能会引起过拟合导致模型无法生成与提示词一致的结果。针对这个问题,北交&字节联合提出ClassDiffusion,来提升个性化生成的一致性。

通过两个重要观察及理论分析提出了新的观点:一致性的损失是个性化概念语义偏移导致的, 还引入了BLIP2-T 来为个性化生成领域提供更公平有效的指标。

一只狗和太阳镜的故事,展示了一只狗是如何获得诺贝尔文学奖的,以及一副太阳镜的命运。

相关链接

项目主页: https://classdiffusion.github.io/

论文地址: https://arxiv.org/abs/2405.17532v1

代码地址:https://github.com/Rbrq03/ClassDiffusion

论文阅读

ClassDiffusion:使用明确的类指导进行更一致的个性化调优

摘要

最近的文本到图像定制工作已被证明能够成功生成给定概念的图像,方法是通过对一些示例微调扩散模型。然而,这些方法往往会过度拟合概念,导致在多种条件下无法创建概念(例如,在生成“戴耳机的狗”时缺少耳机)。

有趣的是,我们注意到微调之前的基础模型表现出将基础概念与其他元素组合的能力(例如,戴耳机的狗),这意味着只有在个性化调整后,组合能力才会消失。

受此观察的启发,我们提出了 ClassDiffusion,这是一种简单的技术,它利用语义保存损失在学习新概念时明确调节概念空间。尽管它很简单,但这有助于避免在对目标概念进行微调时出现语义漂移。

大量的定性和定量实验表明,使用语义保存损失可以有效提高微调模型的组合能力。为了应对 CLIP-T 指标的无效评估,我们引入了 BLIP2-T 指标,这是针对该特定领域的更公平、更有效的评估指标。我们还提供了深入的实证研究和理论分析,以更好地理解所提出的损失的作用。最后,我们还将 ClassDiffusion 扩展到个性化视频生成,展示了其灵活性。

方法概述

ClassDiffusion 概述。我们的语义保存损失 (SPL) 是通过测量从同一文本转换器(使用 EOS 标记作为 CLIP 之后的文本特征)中提取的具有个性化标记的短语和仅具有超类的短语之间的余弦距离来计算的。

实验

单一概念比较

ClassDiffusion方法与具有单一给定概念的基线进行定性比较。

多个概念比较

ClassDiffusion方法与具有多个给定概念的自定义扩散(CD)进行定性比较。

个性化视频

实验分析

(a)每个点代表由形容词和“狗”组合而成的短语的 CLIP 文本嵌入(例如,一只可爱的狗)。经过微调后,定制概念(蓝点代表微调前的概念,红点代表微调后的概念)远离文本特征空间中“狗”分布的中心。

(b)使用提示“一张在游泳池里游泳的狗的照片”时,与狗 token 对应的交叉注意图的可视化结果。

理论分析

在个性化调整过程中,随着狗的分布缩小,狗和耳机的条件分布也会缩小。这逐渐增加了在此分布中采样的难度,导致组合生成能力减弱。我们的 ClassDiffusion 通过结合语义保留损失 (SPL) 来缓解这种情况,以最大限度地减少个性化概念与其超类的语义漂移。

待做事项

  • ClassDiffusion的训练代码

  • ClassDiffusion的推理代码

  • BLIP2-T评分管道

  • 用ClassDiffusion生成视频的推理代码

结论

在这项工作中,我们强调了由于个性化而削弱了构图能力的问题并从实验观察微调和信息理论观点中分析了这一问题的原因。 然后,我们引入一种称为ClassDiffusion的新方法,通过还原原始语义空间,减轻了合成能力的弱化。 最后,我们提出了全面的实验结果,展示了ClassDiffusion和它为相互关联的领域提供了新的视角。

这篇关于北交字节联合提出ClassDiffusion: 使用显式类别引导的一致性个性化生成。的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1055678

相关文章

Mysql中RelayLog中继日志的使用

《Mysql中RelayLog中继日志的使用》MySQLRelayLog中继日志是主从复制架构中的核心组件,负责将从主库获取的Binlog事件暂存并应用到从库,本文就来详细的介绍一下RelayLog中... 目录一、什么是 Relay Log(中继日志)二、Relay Log 的工作流程三、Relay Lo

使用Redis实现会话管理的示例代码

《使用Redis实现会话管理的示例代码》文章介绍了如何使用Redis实现会话管理,包括会话的创建、读取、更新和删除操作,通过设置会话超时时间并重置,可以确保会话在用户持续活动期间不会过期,此外,展示了... 目录1. 会话管理的基本概念2. 使用Redis实现会话管理2.1 引入依赖2.2 会话管理基本操作

Springboot请求和响应相关注解及使用场景分析

《Springboot请求和响应相关注解及使用场景分析》本文介绍了SpringBoot中用于处理HTTP请求和构建HTTP响应的常用注解,包括@RequestMapping、@RequestParam... 目录1. 请求处理注解@RequestMapping@GetMapping, @PostMappin

springboot3.x使用@NacosValue无法获取配置信息的解决过程

《springboot3.x使用@NacosValue无法获取配置信息的解决过程》在SpringBoot3.x中升级Nacos依赖后,使用@NacosValue无法动态获取配置,通过引入SpringC... 目录一、python问题描述二、解决方案总结一、问题描述springboot从2android.x

SpringBoot整合AOP及使用案例实战

《SpringBoot整合AOP及使用案例实战》本文详细介绍了SpringAOP中的切入点表达式,重点讲解了execution表达式的语法和用法,通过案例实战,展示了AOP的基本使用、结合自定义注解以... 目录一、 引入依赖二、切入点表达式详解三、案例实战1. AOP基本使用2. AOP结合自定义注解3.

Python中Request的安装以及简单的使用方法图文教程

《Python中Request的安装以及简单的使用方法图文教程》python里的request库经常被用于进行网络爬虫,想要学习网络爬虫的同学必须得安装request这个第三方库,:本文主要介绍P... 目录1.Requests 安装cmd 窗口安装为pycharm安装在pycharm设置中为项目安装req

使用Python将PDF表格自动提取并写入Word文档表格

《使用Python将PDF表格自动提取并写入Word文档表格》在实际办公与数据处理场景中,PDF文件里的表格往往无法直接复制到Word中,本文将介绍如何使用Python从PDF文件中提取表格数据,并将... 目录引言1. 加载 PDF 文件并准备 Word 文档2. 提取 PDF 表格并创建 Word 表格

使用Python实现局域网远程监控电脑屏幕的方法

《使用Python实现局域网远程监控电脑屏幕的方法》文章介绍了两种使用Python在局域网内实现远程监控电脑屏幕的方法,方法一使用mss和socket,方法二使用PyAutoGUI和Flask,每种方... 目录方法一:使用mss和socket实现屏幕共享服务端(被监控端)客户端(监控端)方法二:使用PyA

Python使用Matplotlib和Seaborn绘制常用图表的技巧

《Python使用Matplotlib和Seaborn绘制常用图表的技巧》Python作为数据科学领域的明星语言,拥有强大且丰富的可视化库,其中最著名的莫过于Matplotlib和Seaborn,本篇... 目录1. 引言:数据可视化的力量2. 前置知识与环境准备2.1. 必备知识2.2. 安装所需库2.3

Python数据验证神器Pydantic库的使用和实践中的避坑指南

《Python数据验证神器Pydantic库的使用和实践中的避坑指南》Pydantic是一个用于数据验证和设置的库,可以显著简化API接口开发,文章通过一个实际案例,展示了Pydantic如何在生产环... 目录1️⃣ 崩溃时刻:当你的API接口又双叒崩了!2️⃣ 神兵天降:3行代码解决验证难题3️⃣ 深度