【论文精读04】AltCLIP: Altering the Language Encoder in CLIP for Extended Language Capabilities

本文主要是介绍【论文精读04】AltCLIP: Altering the Language Encoder in CLIP for Extended Language Capabilities,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

【论文精读04】AltCLIP: Altering the Language Encoder in CLIP for Extended Language Capabilities

论文链接:https://arxiv.org/pdf/2211.06679v2.pdf

源码:https://github.com/FlagAI-Open/FlagAI

从题目上可以看出,这篇论文的工作是对CLIP结构进行调整,以此来提高模型的语言理解能力。很有意思、有想法的一篇文章,借此做一个简单的精读,如有解读不当,请批评指正。

领域关键词:对比学习;多模态;零次学习

文章目录

  • 【论文精读04】AltCLIP: Altering the Language Encoder in CLIP for Extended Language Capabilities
    • 1.摘要
    • 2.结论
    • 3.引言
    • 4.相关工作
    • 5.方法
      • 5.1 教师学习阶段
      • 5.2 对比学习阶段
    • 6.模型训练
    • 7.实验

1.摘要

在这项工作中,我们提出了一个概念上简单和有效的方法来训练一个强大的双语/多语言的多模态表示模型。设计一个预训练好的多语言文本编码器——XLM-R来替代CLIP中的文本编码器,并通过一个两阶段的训练模式——教师学习和对比学习来对齐语言-图像表示。我们在一系列任务上设置了最先进的性能,包括ImageNet-CN、Flicker30kCN、COCO-CN和XTD。此外,我们与CLIP在几乎所有任务上都获得了非常接近的性能,这表明人们可以简单地改变CLIP中的文本编码器,以扩展功能,如多语言理解。

2.结论

结论的前半部分和摘要差不多,这里不赘述。重点记录一下后半部分。

在中文上,我们的方法有新的SOTA的性能:在多个zero-shot图像分类和检索任务上。**我们只需使用数千万的文本数据和二百万文本图像进行训练,而此前大多数的工作则需要在数亿的文本图像对上训练。**未来的工作包括:尝试改变图像编码器,以结合从不同的数据分布中学习到的视觉信号,并消除可能需要机器翻译的数据,进而构建一个多语言多模态预训练模型。

3.引言

现有研究工作存在的问题:

(1)训练一个好的语言图像表示模型通常需要大量的文本图像对和大量的计算资源。

(2)现有的跨语言或多语言设置下的工作主要关注模型的检索性能,而忽略了模型的泛化能力。

我们提出了一种名为Alter自我CLIP(AltCLIP)的双语模型,该模型在ImageNet和多模态检索任务中都取得了很好的性能。我们的AltCLIP在一个两阶段的框架下学习了一个强大的双语语言图像表示(见图1)。**第一阶段,我们使用教师学习来提取从CLIP中学到的知识。第二阶段,我们采用对比学习对少量的中文和英语文本-图像对训练模型。**我们通过对广泛的英-中基准的实验,证明了我们的方法的有效性。此外,我们在中文的多重图像分类和检索任务上建立了新的最新的结果。我们进一步扩展了这种方法,训练一个多语言多模态模型,我们称之为AltCLIPM9。

在这里插入图片描述

4.相关工作

这一部分主要介绍了一下CLIP、知识蒸馏等方法背景,比较基础所以略过。XLM-R模型是Facebook在2020年提出的,大致内容是采用无监督的方法训练了一个多语言模型(基于transformer的、多语言mask的),在2.5TB新创建的100种语言的干净CommonCrawl数据上进行训练。

XLM-R(Conneau等人,2020年)是一种多语言语言模型,它在广泛的跨语言任务中取得了强大的性能。在我们的工作中,我们使用XLM-R模型作为底层文本编码器,并将其与用CLIP训练的图像编码器对齐,以实现在跨语言和跨模态任务上的竞争性能。

XLM-R论文:https://arxiv.org/abs/1911.02116

5.方法

我们提出了一种两阶段的方法来学习良好的双语和多语言语言图像表示模型。在第一阶段,我们遵循Carlsson等人(2022年)的工作,使用教师学习从CLIP文本编码器中学习多语言文本编码器。在这一步的训练中不需要图像,只使用并行的语言对数据。在第二阶段,我们利用对比学习方法对输入数据是文本-图像对的模型进一步微调。图1总结了我们的过程。

5.1 教师学习阶段

在这一阶段,我们将CLIP的text encoder作为教师模型,将XLM-R作为学生模型。此外,添加一个全连接层,将XLMR模型的输出转换为与教师编码器相同的输出维度。我们使用英汉并行文本数据来提取文本-图像对齐的知识。

给定并行文本输入 ( s e n t 1 , s e n t 2 ) (sent_1,sent_2) (sent1,sent2),教师文本编码器从输入的 s e n t 1 sent_1 sent1中生成学习目标,即 [ T O S ] [TOS] [TOS]标记的嵌入,用 x t o s t x_{tos}^t xtost表示。学生文本编码器从输入的 s e n t 2 sent_2 sent2中生成嵌入的 x c l s s x^s_{cls} xclss。我们最小化了 x t o s t x_{tos}^t xtost x c l s s x^s_{cls} xclss之间的均方误差(MSE)。经过这样的训练后,学生文本编码器可以保持其大部分的多语言能力,并获得两种语言的文本-图像对齐能力。请注意,教师编码器只在培训时使用。在推理时,只使用学生编码器作为文本编码器。

为了证明我们的方法在包含更多语言方面是可扩展的,我们构建了一个多语言版本,它支持九种不同的语言:英语(En)、汉语(Zh)、西班牙语(Es)、法语(Fr)、俄语(Ru)、阿拉伯语(Ar)、日语(Ja)、韩语(Ko)和意大利语(It)。对于多语言版本,我们将更多的语言与英语对齐,其概念和架构与双语版本相同。

5.2 对比学习阶段

这一阶段将CLIP中的ViT作为图像编码器,上一阶段训练得到的XLM-R作为文本编码器;注意,这里的图像编码器在训练阶段是被冻住的,只更新文本编码器中的参数。

6.模型训练

两个阶段所使用的数据集以及超参数设置详见原文。。。

7.实验

在不同数据集上和SOTA的对比实验结果(表2)

在这里插入图片描述

表2:Flickr30k和MSCOCO英文检索任务的实验结果。在这些模型中使用的所有图像编码器都是ViT-L,以便进行公平的比较。 A l t C L I P T AltCLIP_T AltCLIPT表示教师学习阶段后的模型,AltCLIP表示对比学习阶段后的模型。 † † 表示我们报告论文的原始结果。

在这里插入图片描述

表3:对多语言跨模态检索数据集XTD的比较结果。在M-CLIP之后,我们报告图像到文本的Recall@10。使用OpenCLIP项目发布的图像编码器进行表示(Ilharco等人,2021年)。

表4:消融实验。CL表示对比学习阶段的使用,而EN-EN、 E N − C N M T EN-CN_{MT} ENCNMT E N − C N H T EN-CN_{HT} ENCNHT表示在教师学习阶段使用的并行数据。具体来说,EN-EN表示使用英语英语文本对;EN-CN表示使用英汉并行文本,其中 E N − C N M T EN-CN_{MT} ENCNMT表示机器翻译对, E N − C N H T EN-CN_{HT} ENCNHT表示人类翻译数据,即TSL2019。所有被比较的模型都经过了10个时代的预训练。

我们使用altclip引导的扩散模型从中文和英文提示中生成图像,具体的实验结果参见原文,这里篇幅有限不再记录。

这篇关于【论文精读04】AltCLIP: Altering the Language Encoder in CLIP for Extended Language Capabilities的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/212917

相关文章

科研绘图系列:R语言扩展物种堆积图(Extended Stacked Barplot)

介绍 R语言的扩展物种堆积图是一种数据可视化工具,它不仅展示了物种的堆积结果,还整合了不同样本分组之间的差异性分析结果。这种图形表示方法能够直观地比较不同物种在各个分组中的显著性差异,为研究者提供了一种有效的数据解读方式。 加载R包 knitr::opts_chunk$set(warning = F, message = F)library(tidyverse)library(phyl

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

取得 Git 仓库 —— Git 学习笔记 04

取得 Git 仓库 —— Git 学习笔记 04 我认为, Git 的学习分为两大块:一是工作区、索引、本地版本库之间的交互;二是本地版本库和远程版本库之间的交互。第一块是基础,第二块是难点。 下面,我们就围绕着第一部分内容来学习,先不考虑远程仓库,只考虑本地仓库。 怎样取得项目的 Git 仓库? 有两种取得 Git 项目仓库的方法。第一种是在本地创建一个新的仓库,第二种是把其他地方的某个

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin

[论文笔记]LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

引言 今天带来第一篇量化论文LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale笔记。 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 大语言模型已被广泛采用,但推理时需要大量的GPU内存。我们开发了一种Int8矩阵乘法的过程,用于Transformer中的前馈和注意力投影层,这可以将推理所需

UML- 统一建模语言(Unified Modeling Language)创建项目的序列图及类图

陈科肇 ============= 1.主要模型 在UML系统开发中有三个主要的模型: 功能模型:从用户的角度展示系统的功能,包括用例图。 对象模型:采用对象、属性、操作、关联等概念展示系统的结构和基础,包括类图、对象图、包图。 动态模型:展现系统的内部行为。 包括序列图、活动图、状态图。 因为要创建个人空间项目并不是一个很大的项目,我这里只须关注两种图的创建就可以了,而在开始创建UML图