【论文精读】DALLE3:Improving Image Generation with Better Captions 通过更好的文本标注改进图像生成

本文主要是介绍【论文精读】DALLE3:Improving Image Generation with Better Captions 通过更好的文本标注改进图像生成,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 一、文章概览
  • 二、数据重标注
    • (一)现在训练数据的文本标注主要存在的问题
    • (二)创建图像标注器
    • (三)微调图像标注器
  • 三、评估重新标注的数据集
    • (一)混合合成标注和真实标注
    • (二)评估方法
    • (三)问题一:评估在不同类型的标注上训练的模型之间的性能差异
    • (四)评估合成标注与真实标注的最佳混合比例
    • (五)实际应用
  • 四、对比DALLE3与其他模型的效果
    • (一)自动评估
    • (二)人工评估


DALLE3的核心:如何通过更好的文本标注让图像生成质量提升

一、文章概览

  • 提出问题: 现有的文本到图像模型很难遵循详细的图像描述,并且经常忽略单词或混淆提示的含义。
  • 作出假设: 假设这个问题是因为训练数据集中的噪声和不准确的图像标题。
  • 解决方案: 训练一个图片标注器用于生成标注,然后使用它来重新捕获训练数据集。
  • 主要工作: 训练了DALLE3,发现对生成的图片标注进行训练确实能提升生成模型的性能,并且提出了一套评估生成模型的方案。

在这里插入图片描述

二、数据重标注

(一)现在训练数据的文本标注主要存在的问题

  1. 厨房中的水槽或人行道上的停车标志等物体的存在以及对这些物体的描述。
  2. 场景中对象的位置以及这些对象的数量。
  3. 常识细节,例如场景中物体的颜色和大小。
  4. 图像中显示的文本。

更糟糕的是,在互联网上找到的字幕通常根本不正确;描述图像的切向相关细节。例如,在通常用于生成图像标题的替代文本中经常会发现广告。

(二)创建图像标注器

用于预测文本的传统语言模型:

  • 分词器将文本字符串分解为离散的标记: t = [ t 1 , t 2 , . . . , t n ] t=[t_1,t_2,...,t_n] t=[t1,t2,...,tn]
  • 通过最大化似然函数来构建文本的语言模型:
    L ( t ) = ∑ j l o g P ( t j ∣ t j − k , . . . , t j − 1 ; Θ ) L(t)=\sum_j logP(t_j|t_{j-k},...,t_{j-1};\Theta) L(t)=jlogP(tjtjk,...,tj1;Θ)

本文的图像标注器:

  • 基于CLIP的图像嵌入函数 F ( i ) F(i) F(i)对语言模型进行了条件调整:

图像有数千个像素值组成,因此需要一个压缩的表示空间,CLIP就提供了这一点

L ( t , i ) = ∑ j l o g P ( t j ∣ t j − k , . . . , t j − 1 ; z j ; F ( i ) ; Θ ) L(t,i)=\sum_j logP(t_j|t_{j-k},...,t_{j-1};z_j;F(i);\Theta) L(t,i)=jlogP(tjtjk,...,tj1;zj;F(i);Θ)

(三)微调图像标注器

作者训练了两种标注模式:

  • 短标注(SSC):只描述主要物体
  • 详细描述(DSC):不仅描述主体,还描述环境,背景,文字 风格等

在这里插入图片描述

三、评估重新标注的数据集

作者在评估生成文本标注对模型性能的影响时,主要集中讨论了两个问题:

  • 使用每种类型的合成标注对性能的影响。 (长标注、短标注)
  • 合成标注与真实标注的最佳混合比例。

(一)混合合成标注和真实标注

考虑到图像标注器会出现过拟合现象(过度拟合数据集中的分布规律),作者将合成标注和真实标注进行混合。混合发生在数据采样时,文章会以固定的百分比机会随机选择合成标注和真实标注。

(二)评估方法

文章采用的评估指标:CLIP 分数

CLIP 分数与文本图像相似度有很强的相关性

CLIP分数的计算方式:

  • 首先使用公共 CLIP ViT-B/32图像编码器来生成图像嵌入 z i z_i zi
  • 然后使用文本编码器为图像创建文本嵌入标题 z t z_t zt
  • 将 CLIP 分数计算为余弦相似度 C
    C ( z i , z t ) = z i . z t ∣ ∣ z i ∣ ∣ ∣ ∣ z t ∣ ∣ C(z_i,z_t)=\frac{z_i. z_t}{||z_i|| ||z_t||} C(zi,zt)=∣∣zi∣∣∣∣zt∣∣zi.zt

(三)问题一:评估在不同类型的标注上训练的模型之间的性能差异

作者设计了三个不同的模型:

  1. 仅根据真实标注训练的文本到图像模型。
  2. 在 95% 的短合成标注上训练的文本到图像模型。
  3. 在 95% 的描述性合成标注上训练的文本到图像模型。

对于每个模型,作者分别使用真实标注(左图)描述性合成标注(右图) 进行了两次评估计算:
在这里插入图片描述
结果表明:

  • 在基于真实标注进行评估时,两种基于合成标注训练的模型的 CLIP 评分性能都比基线模型稍好,而在描述性合成标注上进行评估时,性能明显更好。这表明在训练文本到图像模型时使用合成标注没有任何缺点。
  • 合成标注的评估曲线的方差要低得多。这说明重新标注确实可以被视为一种平均操作。
  • 在合成标注上评估的图像生成模型在所有训练的模型中也获得了更高的净 CLIP 分数,这支持了合成​​标注与其相应图像具有更好绑定的概念。

(四)评估合成标注与真实标注的最佳混合比例

作者使用了 65%、80%、90% 和 95% 四种混合比例的描述性合成标注训练了四个图像生成模型。实验进行到一半时,评估显示 65% 的混合物在所有评估中都远远落后于其他混合物,因此作者放弃了它。

在这里插入图片描述

结果表明: 更高程度的合成标注混合始终可以提高模型的 CLIP 分数。

(五)实际应用

由于用户在实际应用过程中,可能不会发出长的、高度描述性的标注的分布,因此可以借助大型语言模型帮助用户直接扩写,具体来说,可以使用 LLM进行“上采样”,将短的prompt转换成长的prompt,这样不仅可以添加缺失的细节,还可以消除复杂关系的歧义。
在这里插入图片描述

四、对比DALLE3与其他模型的效果

作者使用95%的合成标注和5%的真实标注对DALLE3进行训练,并使用自动评估和人工评估两种方式对DALLE3与其他模型的效果进行了对比。

(一)自动评估

评估指标:

  • CLIP score
  • Drawbench:基于lmagen提出的一系列比较全面的测评pompts,用GPT-V来评估生成图片和prompts的匹配度(实际上是用生成模型评估生成模型)
  • T2l-Compbench:与Drawbench类似,只是换了不同的prompts体系和不同的评估模型
    在这里插入图片描述
    结果表明,DALL-E 3 在所有评估的基准测试中都是最先进的。

(二)人工评估

人工评估主要考察的三个方面:

  • prompt following:向评估者呈现提供给文本到图像模型的完整上采样标题,并要求“选择哪个图像更好地对应于标题”。
  • style:要求评估者根据图片本身的风格舒适度进行选择。
  • coherence:要求评估者选择哪张图像包含更连贯的对象。

针对于前面两个方面,作者使用了自建的prompts体系去评估,coherence则使用MSCOCO数据集中的一些标注作为prompts体系(主要是因为MSCOCO中没有虚幻的场景)。Drawbench评估方法与自动评估的prompts体系一直,但是用人工来评判生成的图片和prompts是不是致,而不是用GPT-V这种生成模型。
在这里插入图片描述
结果显示,在所有三个方面,尤其是在prompt following方面,DALL-E 3 生成的图像在大多数情况下都比所有竞争对手更受人类评分者的青睐。

参考:【DALLE3论文】openAI最新图像生成模型

这篇关于【论文精读】DALLE3:Improving Image Generation with Better Captions 通过更好的文本标注改进图像生成的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/833566

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于人工智能的图像分类系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像分类是计算机视觉中的一个重要任务,目标是自动识别图像中的对象类别。通过卷积神经网络(CNN)等深度学习技术,我们可以构建高效的图像分类系统,广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统,包括环境

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

pdfmake生成pdf的使用

实际项目中有时会有根据填写的表单数据或者其他格式的数据,将数据自动填充到pdf文件中根据固定模板生成pdf文件的需求 文章目录 利用pdfmake生成pdf文件1.下载安装pdfmake第三方包2.封装生成pdf文件的共用配置3.生成pdf文件的文件模板内容4.调用方法生成pdf 利用pdfmake生成pdf文件 1.下载安装pdfmake第三方包 npm i pdfma

poj 1258 Agri-Net(最小生成树模板代码)

感觉用这题来当模板更适合。 题意就是给你邻接矩阵求最小生成树啦。~ prim代码:效率很高。172k...0ms。 #include<stdio.h>#include<algorithm>using namespace std;const int MaxN = 101;const int INF = 0x3f3f3f3f;int g[MaxN][MaxN];int n

poj 1287 Networking(prim or kruscal最小生成树)

题意给你点与点间距离,求最小生成树。 注意点是,两点之间可能有不同的路,输入的时候选择最小的,和之前有道最短路WA的题目类似。 prim代码: #include<stdio.h>const int MaxN = 51;const int INF = 0x3f3f3f3f;int g[MaxN][MaxN];int P;int prim(){bool vis[MaxN];

poj 2349 Arctic Network uva 10369(prim or kruscal最小生成树)

题目很麻烦,因为不熟悉最小生成树的算法调试了好久。 感觉网上的题目解释都没说得很清楚,不适合新手。自己写一个。 题意:给你点的坐标,然后两点间可以有两种方式来通信:第一种是卫星通信,第二种是无线电通信。 卫星通信:任何两个有卫星频道的点间都可以直接建立连接,与点间的距离无关; 无线电通信:两个点之间的距离不能超过D,无线电收发器的功率越大,D越大,越昂贵。 计算无线电收发器D

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X

hdu 1102 uva 10397(最小生成树prim)

hdu 1102: 题意: 给一个邻接矩阵,给一些村庄间已经修的路,问最小生成树。 解析: 把已经修的路的权值改为0,套个prim()。 注意prim 最外层循坏为n-1。 代码: #include <iostream>#include <cstdio>#include <cstdlib>#include <algorithm>#include <cstri

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学