captions专题

【论文精读】DALLE3：Improving Image Generation with Better Captions 通过更好的文本标注改进图像生成

文章目录一、文章概览二、数据重标注（一）现在训练数据的文本标注主要存在的问题（二）创建图像标注器（三）微调图像标注器三、评估重新标注的数据集（一）混合合成标注和真实标注（二）评估方法（三）问题一：评估在不同类型的标注上训练的模型之间的性能差异（四）评估合成标注与真实标注的最佳混合比例（五）实际应用四、对比DALLE3与其他模型的效果（一）自动评估（二）人工评估 DALL

DALL·E 3:Improving Image Generation with Better Captions

论文链接：https://cdn.openai.com/papers/dall-e-3.pdf DALLE3 API：https://github.com/Agora-X/Dalle3 官网链接：添加链接描述 DALLE3讲解视频：B站视频推荐DALLE2的讲解视频：B站：跟李沐学AI 之前精讲的DALLE2论文北理&上海AI Lab&清华提出 Mini DALL·E 3：h

多模态大模型：关于Better Captions那些事儿

Overview Better Captions are important for LMM training一、ShareGPT4V1.1、Motivation1.2、ShareGPT4V数据集构建1.3、ShareGPT4V-7B模型二、CAPSFUSION2.1、Motivation2.2、CAPsFUSION方法与数据集2.3、结果2.3.1、Model Performance2.

betrayed-by-captions

首个将图像分割和图像的Caption生成统一起来进行开放词汇学习的框架。CGG 在没有额外的大规模数据集预训练的情况下，在COCO的OVIS上取得了6.8%的性能提升，在开放集合全景分割上提升了15%的性能。论文地址：https://arxiv.org/abs/2301.00805 代码地址：https://github.com/jianzongwu/betrayed-by-captions