2021AAAI)Learning Modality-Specific Representations with Self-Supervised Multi-Task Learning for MSA

本文主要是介绍2021AAAI)Learning Modality-Specific Representations with Self-Supervised Multi-Task Learning for MSA,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Self-MM

1. 动机:

根据表征学习中指导的不同,我们将现有的方法分为前向指导后向指导两类。
在正向制导方法中,研究致力于设计用于捕获跨模态信息的交互(MFN之类)模块(Zadeh et al 2018a;Sun等2020;蔡等人2019;Rahman et al 2020)。然而,由于统一的多模态注释,它们很难捕获特定于模态的信息。在反向引导方法中,研究人员提出了附加的损失函数作为先验约束(MISA之类),这使得模态表示同时包含一致和互补的信息(Yu等)2020年;Hazarika, Zimmermann, and Poria 2020)。

对于CH-SIMS和MISA的工作,在前者中,单模态标注需要额外的人工成本,而在后者中,空间差异难以表示特定于模态的差异。

所以,与Yu等人(2020a)即CH-SIMS那篇文章,不同的是,我们的方法不需要人工标注的单峰标签,而是使用自动生成的单峰标签。它基于两种直觉。第一,标签差异与情态表征与类中心之间的距离差异呈正相关。其次,单模态标签与多模态标签高度相关。因此,我们设计了一个基于多模态标签和模态表示的单模态标签生成模块。

考虑到自动生成的单峰标签在起始时代不够稳定,我们设计了一个基于动量的更新方法,该方法对随后生成的单峰标签应用更大的权重。此外,我们引入了一种自调整策略,在整合最终的多任务损失函数时调整每个子任务的权值。我们认为,在自动生成的单模态标签和人工标注的多模态标签之间,具有小标签差异的子任务很难学习特定于模态的表示。因此,子任务的权重与标签差呈正相关。

我们的工作的新贡献可以总结如下:

1. 我们提出了基于模态表示和类中心之间的距离的相对距离值,与模型输出正相关。
2. 我们设计了一个基于自监督策略的单峰标签生成模块。此外,引入了一种新的权值自调整策略来平衡不同的任务损失约束。
3 在三个基准数据集上进行了大量实验,验证了自动生成单峰标签的稳定性和可靠性。此外,我们的方法优于目前最先进的结果。

2. 相关工作

省略。

3. 方法

Self-MM的目标是通过联合学习一个多模态任务和三个单模态子任务来获取信息丰富的单模态表征。与多模态任务不同,单模态子任务的标签是在自监督方法中自动生成的。为了方便下面的章节,我们将人工标注的多模态标签称为m-label,将自动生成的单模态标签称为u-label。

3.1 任务设定

回归任务,有三个模态t、a、v。有四个输出,一个多模态Ym-hat,三个单模态输出Ys-hat,单模态输出是为了辅助表征学习,最终只使用Ym-hat作为预测结果。

3.2 整体框架

在这里插入图片描述
Multimodal task
对于文本,用Bert提取特征,视频和音频使用单向LSTM提取特征。在这里插入图片描述在这里插入图片描述
然后将三个拼接后投射到一个低维空间。
在这里插入图片描述
最后经过线性层,用融合的多模态表示来预测情感。
在这里插入图片描述

Uni-modal Task
对于三个单模态任务,它们与多模态任务共享模态表示。为了减小不同模态之间的维度差异,我们将它们投影到一个新的特征空间中。然后,用线性回归得到单模态结果。
在这里插入图片描述
说白了就是两个线性层。

为了指导单峰任务的训练过程,我们设计了一个单峰标签生成模块(Unimodal Label Generation Module)==(ULGM)==来获取单峰标签。ULGM的详情见第3.3节。
在这里插入图片描述
最后,在m标签和u标签的监督下,共同学习了多模态任务和三个单模态任务。值得注意的是,这些单模态任务只存在于训练阶段。因此,只使用ym作为最终输出。

3.3 ULGM

重点来了,感觉这一部分可以用在任何没有细粒度标注的多模态数据集。
ULGM旨在基于多模态注释和模态表示生成单模态监督值。为了避免对网络参数更新造成不必要的干扰,将ULGM设计为无参数模块。作者认为单模态标签和多模态标签是高度相关的,假设计算模态表示与模态中心点的中心距离为α,作者认为单模态的α与多模态的α的比值约等于单模态标签与多模态标签的比值,通过这一关系计算出单模态标签距离多模态标签的偏移,进而得出单模态标签。因此,ULGM根据从模态表示到类中心的相对距离计算偏移量,如图所示。
在这里插入图片描述
算法流程:
1.首先计算正样本中心和负样本中心Cpi和Cni ,i∈{m,t,a,v}
在这里插入图片描述
N是训练样本个数,I(.)是指标函数,即对于一个子集合A,若x属于A,
则IA(x)= 1,否则为0。Fgi,g是模态i第j个样本的全局表示。

2.计算样本与正负中心点之间的距离。
在这里插入图片描述
3.计算样本与正负中心点之间的相对距离αi
在这里插入图片描述
==可以直观地看出,αi与最终结果呈正相关。即αi值越大,情感越积极,值越小,情感越消极。离负样本中心距离越大,离正样本的距离越小,αi的值就越大。

4.计算单模态标签。
为了得到监督和预测值之间的联系,考虑以下两种关系。
在这里插入图片描述
作者认为单模态标签和多模态标签是高度相关的,生成的单模态标签应该与真实的多模态标签的比值和输出的单模态标签与输出的多模态标签的比值成正相关,同时与二者计算出来的的相对距离的比值成正相关。
作者在这里考虑了两种情况,一种乘法,另一种加法。如上图。但是乘法会遇到分子为0的情况,当ym=0,则生成的ys始终为0,所以考虑等权求和得到单峰监督。
在这里插入图片描述
5.基于动量的更新策略
由于模态表示的动态变化,由式(8)计算得到的生成的u-label不够稳定。为了减轻不利影响,我们设计了一个基于动量的更新策略,该策略将新生成的值与历史值相结合。
在这里插入图片描述
后续生成的单模态标签权重大于前一个。与经验一致。(PS:这里第二项分子为2,是不是弄反了?)

最终算法如下。
在这里插入图片描述

3.4 优化目标

最后,我们使用L1Loss作为基本优化目标。对于单模态任务,我们使用u标签和m标签之间的差异作为损失函数的权重。这表明网络应该更加关注差异较大的样本。(为什么说高度相关,这里又差异更大)
在这里插入图片描述

4.实验

在这里插入图片描述

u标签在不同数据集上的分布更新过程。每个子图片下面的数字(#)表示epoch的数量。
u标签在不同数据集上的分布更新过程。每个子图片下面的数字(#)表示epoch的数量。可以看到30轮后生成的单模态标签和多模态标签差异很大。

在这里插入图片描述
这里消融实验看起来多模态标签+文本+语音/图像已经够好可以媲美
M+T+A+V。

在这里插入图片描述
最后是案例分析,可以看到生成的单模态标签更准确且跟多模态标签差异很大,这些信息迫使模型学习到差异。

这篇关于2021AAAI)Learning Modality-Specific Representations with Self-Supervised Multi-Task Learning for MSA的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/314511

相关文章

mysqld_multi在Linux服务器上运行多个MySQL实例

《mysqld_multi在Linux服务器上运行多个MySQL实例》在Linux系统上使用mysqld_multi来启动和管理多个MySQL实例是一种常见的做法,这种方式允许你在同一台机器上运行多个... 目录1. 安装mysql2. 配置文件示例配置文件3. 创建数据目录4. 启动和管理实例启动所有实例

linux报错INFO:task xxxxxx:634 blocked for more than 120 seconds.三种解决方式

《linux报错INFO:taskxxxxxx:634blockedformorethan120seconds.三种解决方式》文章描述了一个Linux最小系统运行时出现的“hung_ta... 目录1.问题描述2.解决办法2.1 缩小文件系统缓存大小2.2 修改系统IO调度策略2.3 取消120秒时间限制3

C# Task Cancellation使用总结

《C#TaskCancellation使用总结》本文主要介绍了在使用CancellationTokenSource取消任务时的行为,以及如何使用Task的ContinueWith方法来处理任务的延... 目录C# Task Cancellation总结1、调用cancellationTokenSource.

2014 Multi-University Training Contest 8小记

1002 计算几何 最大的速度才可能拥有无限的面积。 最大的速度的点 求凸包, 凸包上的点( 注意不是端点 ) 才拥有无限的面积 注意 :  凸包上如果有重点则不满足。 另外最大的速度为0也不行的。 int cmp(double x){if(fabs(x) < 1e-8) return 0 ;if(x > 0) return 1 ;return -1 ;}struct poin

2014 Multi-University Training Contest 7小记

1003   数学 , 先暴力再解方程。 在b进制下是个2 , 3 位数的 大概是10000进制以上 。这部分解方程 2-10000 直接暴力 typedef long long LL ;LL n ;int ok(int b){LL m = n ;int c ;while(m){c = m % b ;if(c == 3 || c == 4 || c == 5 ||

2014 Multi-University Training Contest 6小记

1003  贪心 对于111...10....000 这样的序列,  a 为1的个数,b为0的个数,易得当 x= a / (a + b) 时 f最小。 讲串分成若干段  1..10..0   ,  1..10..0 ,  要满足x非递减 。  对于 xi > xi+1  这样的合并 即可。 const int maxn = 100008 ;struct Node{int

简单的Q-learning|小明的一维世界(3)

简单的Q-learning|小明的一维世界(1) 简单的Q-learning|小明的一维世界(2) 一维的加速度世界 这个世界,小明只能控制自己的加速度,并且只能对加速度进行如下三种操作:增加1、减少1、或者不变。所以行动空间为: { u 1 = − 1 , u 2 = 0 , u 3 = 1 } \{u_1=-1, u_2=0, u_3=1\} {u1​=−1,u2​=0,u3​=1}

简单的Q-learning|小明的一维世界(2)

上篇介绍了小明的一维世界模型 、Q-learning的状态空间、行动空间、奖励函数、Q-table、Q table更新公式、以及从Q值导出策略的公式等。最后给出最简单的一维位置世界的Q-learning例子,从给出其状态空间、行动空间、以及稠密与稀疏两种奖励函数的设置方式。下面将继续深入,GO! 一维的速度世界 这个世界,小明只能控制自己的速度,并且只能对速度进行如下三种操作:增加1、减

论文精读-Supervised Raw Video Denoising with a Benchmark Dataset on Dynamic Scenes

论文精读-Supervised Raw Video Denoising with a Benchmark Dataset on Dynamic Scenes 优势 1、构建了一个用于监督原始视频去噪的基准数据集。为了多次捕捉瞬间,我们手动为对象s创建运动。在高ISO模式下捕获每一时刻的噪声帧,并通过对多个噪声帧进行平均得到相应的干净帧。 2、有效的原始视频去噪网络(RViDeNet),通过探

兔子--Android Studio出现错误:Error:Execution failed for task ':myapp:dexDebug'. com.android.ide.common.pro

重点在:finished with non-zero exit value 2. 这里表明了有重复的内容存在。 由于:Android Studio中引入包的方式有如下2种:    compile 'com.android.support:support-v4:22.0.0'    compile files('libs/support-v