【提示学习论文】PMF:Efficient Multimodal Fusion via Interactive Prompting论文原理

本文主要是介绍【提示学习论文】PMF:Efficient Multimodal Fusion via Interactive Prompting论文原理,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Efficient Multimodal Fusion via Interactive Prompting(CVPR2023)

  • 基于交互式提示的高效多模态融合方法
  • 减少针对下游任务微调模型的计算成本
  • 提出模块化多模态融合架构,促进不同模态之间的相互交互
  • 将普通提示分为三种类型,仅在单模态transformer深层添加提示向量,显著减少训练内存的使用

1 Introduction

  • 提示微调方法采用顺序模块化结构,预训练图像transformer模型后接着语言transformer模型,因此跨模态学习的两个主要问题:单向路径学习和模型层数显著增加。
  • 减少了需要更新的参数数量,但没有减少训练期间的内存使用量

2 Related works

在这里插入图片描述
提出Prompt-base Multimodal Fusion method(PMF),具有高内存效率

  • 具有高灵活性,促进不同模态之间的双向交互,语言模型与图像模型以并行方式构建,不同模态的token可以通过类似交叉注意力的操作来学习相互交互
  • 使用三种类型的交互式提示(查询提示、查询上下文提示、融合上下文提示)来动态学习,查询提示和查询上下文提示可以看作一对问题和答案,提取两种模态之间交换所需的信息。融合上下文提示会为传递的答案提供上下文,以促进融合
  • 考虑到计算反向传播提示的梯度非常消耗内存,本文仅在单模态transformer的深层添加提示

3 Prompt-based Multimodal Fusion基于提示的多模态融合方法

PMF三部分:

  • 视觉和语言的单模态Transformer
  • 基本特征提取
  • 基于交互式提示,将两个单模态 Transformer 层集成为多模态 Transformer 层

3.1 单模态Transformer

图像和文本最终都会得到一个连续的嵌入序列,将特殊的标记CLS与其拼接,输入Transformer中。对于每个transformer层,输入经过包括多头自注意力、层归一化、多层感知器在内的模块,最后通过残差连接添加到原始输入中。
在这里插入图片描述

3.2 单模态基部特征提取

在这里插入图片描述
图像和文本输入首先分别被处理并输入到单模态transformer层中提取基本特征。在此阶段,每个编码器的工作方式与在单模态任务中的工作方式完全相同。
每个编码器的基本特征提取:
在这里插入图片描述

  • Lf:融合层起始层数,越小越早融合
  • Θ:预训练参数

3.3 多模态融合层-交互式提示

在这里插入图片描述
每个融合层由查询阶段、融合阶段组成,提取的单模态基本特征通过多个多模态融合层进行融合。

  • Querying查询阶段
    在这里插入图片描述
    输入序列为原图像序列z+查询上下文提示qcp+查询提示qp
    在这里插入图片描述
    输入translayer,得到输出
    在这里插入图片描述
    将查询提示qp进行非线性映射

  • Fusion融合阶段

在这里插入图片描述

输入原文本序列+融合上下文提示fcp+查询提示qp非线性映射后的yqp
在这里插入图片描述
输入经过FusionLayer,得到输出

4 Experiments

4.1 数据集

UPMC Food-101:包含101种食物的图像和文本描述
MM-IMDB:包含电影情节概要、电影海报、类型
SNLI-VE:多模态分类数据集

4.2 现有方法和baselines

  • 微调单模态模型:例如BERT和ViT,取ViT和BERT中最后一层的CLS标记的输出表示,并将其输入到一个线性分类器中进行分类。
  • VPT和P-BERT:每个变换器层的输入序列都与一个长度为10的提示向量连接起来。在训练过程中,仅更新连接的提示向量和最终线性分类器。
  • LateConcat和Linear:强基线方法,即将ViT和BERT的CLS标记的输出特征连接起来,然后将连接的特征输入到一个线性分类器中。
  • MMBT和MBT:作者重新实现了MMBT(Multimodal Multi-BERT)和MBT(Multimodal BERT)方法,使用vit-base模型作为视觉编码器和bert-base模型作为文本编码器,以进行公平和受控比较。
  • PromptFuse和BlindPrompt:在单模态预训练模型上利用提示进行多模态融合,提示的长度设置为20。

4.3 实现细节

  • 预训练的骨干网络和初始化:作者在所有实验中都使用了ImageNet-21k预训练的vit-base模型作为视觉编码器,以及bert-base-uncased模型作为语言编码器。所有预训练的检查点均来自于huggingface。所有提示向量都通过高斯分布进行初始化,均值为0,标准差为0.02。
  • 网络训练:作者在所有实验中使用了SGD优化器,动量设置为0.9,权重衰减设置为1e-4。对于SNLI-VE数据集,批量大小设置为64,对于UPMC Food-101和MM-IMDB数据集,批量大小设置为32。在所有实验中应用了交叉熵损失函数,并且对于UPMC Food-101和MM-IMDB数据集,类标签按其逆频率加权。更多细节可以在补充材料中找到。

4.4 结果

在这里插入图片描述
表2中,可以看到,PMF的可学习参数少,可节省高达66%的训练内存使用量

4.5 消融实验

4.5.1 提示和映射组件消融

在这里插入图片描述
验证三种提示和非线性映射函数的有效性,

  • 第一行是在PMF中没有任何组件的情况
  • 前三行是仅提示两个变换器的顶层,不能实现多模态融合,相反会干扰两个变换器的特征空间,最终影响性能。
  • 最后四行的比较表明,将提示解耦成三个具有不同学习目标的独立模块会带来性能提升。
  • 第五行和第六行的比较显示,扩展的QP无法取代QCP。因为只有QP标记的输出被融合到另一个模态,而QCP标记的输出被舍弃,用更长的QP代替QCP不仅增加了计算量,因为融合阶段的序列更长,而且还会导致性能下降。
  • PMF中引入的每个模块都对多模态融合的质量有所贡献。任何四个模块中的一个缺失都会导致不同程度的性能下降。

4.5.2 融合层数

在这里插入图片描述
图4,对不同融合层Lf对融合性能和内存效率带来的影响进行了调查。从图中可以看出,随着融合开始较晚,训练内存使用量不断减少。融合模型的性能在Lf ≤ 10时相对一致。因此,从经验上看,仅在深层(10 < l < L)上添加提示在性能和内存效率之间进行权衡是更好的选择。

4.5.3 提示长度

在这里插入图片描述

图5,对提示长度进行的消融研究,其中三种提示的长度设置为相同(即Mqp = Mqcp = Mfcp)

  • 当M ≤ 16时,性能随着提示长度的增加而增加
  • 但当提示过长时(M=32),性能下降。
  • 需要强调的是,随着提示长度从1增加到16,训练内存使用量仅增加了约1GB,这意味着训练内存使用量的主要因素是融合层Lf,而不是提示长度。

4.6 模块化和灵活性

在这里插入图片描述
PMF的高度模块化,当有更好的单模态变换器时替换它们是非常简单。由于每个单模态变换器的总变换器层数(Limg和Ltxt)现在不同,两个模态的单模态基础特征现在需要不同的层进行提取,而融合保留的剩余层数量保持不变。不同隐藏维度d之间的差异由非线性映射函数f自动处理。表4中的结果清楚地证明了PMF可以通过更大的单模态变换器得到增强,而训练内存使用量的增加非常有限。

4.7 PMF with NAS

  • 利用自动搜索算法(NAS)来优化PMF模型中的超参数。虽然PMF在没有进行详尽的超参数调优的情况下已经表现良好,但针对每个不同的任务和数据分布进行特定设置仍然是可取的。
  • 通过AutoFormer进行了自动融合结构的搜索。搜索空间和演化搜索的详细描述可以在补充材料中找到。表5展示了在三个数据集上应用NAS的PMF的性能。随着训练内存使用量的增加,PMF-NAS比具有相同视觉和语言编码器的常规PMF取得了更好的结果,大大减轻了找到优选融合结构的工作量。

5 Conclusion

结论:我们提出了一种新型的模块化多模态融合框架,展现了高度的灵活性,并促进了不同模态之间的双向交互,即PMF。PMF利用三种类型的交互式提示,以动态学习多模态学习的不同目标。通过仅在使用的单模态变换器的深层上添加提示,PMF可以显著减少反向传播中梯度计算的内存使用。通过广泛的实验证明,PMF具有相当高的内存效率,同时能够与现有的微调基线相媲美。

这篇关于【提示学习论文】PMF:Efficient Multimodal Fusion via Interactive Prompting论文原理的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/945454

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于

hdu4407(容斥原理)

题意:给一串数字1,2,......n,两个操作:1、修改第k个数字,2、查询区间[l,r]中与n互质的数之和。 解题思路:咱一看,像线段树,但是如果用线段树做,那么每个区间一定要记录所有的素因子,这样会超内存。然后我就做不来了。后来看了题解,原来是用容斥原理来做的。还记得这道题目吗?求区间[1,r]中与p互质的数的个数,如果不会的话就先去做那题吧。现在这题是求区间[l,r]中与n互质的数的和

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学