NeurIPS 2023 | 对比损失深度刨析!三星研究院提出全新连续性对比损失CMCL

本文主要是介绍NeurIPS 2023 | 对比损失深度刨析!三星研究院提出全新连续性对比损失CMCL,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

46a52771674947d2bd26544f93c10377.png

论文名称: CWCL: Cross-Modal Transfer with Continuously Weighted Contrastive Loss 论文链接: https://arxiv.org/abs/2309.14580

一些通过大规模预训练的跨模态表示对齐模型(例如CLIP和LiT)往往能够展示出非常强大的跨领域zero-shot能力,这种能力是我们通向通用人工智能的重要步骤。目前较为常用的技术手段都是使用标准的对齐训练损失从大规模的正例样本和负例样本对中挖掘不同模态之间的语义交互。但是这种方式也存在一个明显的缺陷,即训练集中有一定数量的样本对相似性具有更加连续的性质,因此简单的使用二元对比损失来进行优化是不全面的

本文介绍一篇发表在人工智能顶级会议NeurIPS 2023上的一篇文章,本文作者团队来自三星研究院,本文在原有标准对比损失的基础上提出了一种新型连续加权对比损失(Continuously Weighted Contrastive Loss,CWCL),CWCL使用了一种连续的相似性度量,可以在连续性空间中将两个不同模态的嵌入空间进行对齐。作者通过大量的实验发现,基于函数的连续性质,CWCL不仅可以在图像-文本模态对之间实现性能提升(提高5~8%),在语音-文本模态对之间也表现出了优越的性能(提高20~30%)

01. 引言

目前,视觉图像和文本模态已经存在一些很强大的预训练模型,例如CLIP[1]和LiT[2]。但其他模态仍然缺乏这类模型,例如语音音频领域,与视觉语言模型可以通过zero-shot的形式推广到新任务的迁移范式不同,语音和音频模型仍然需要使用特定任务的数据进行微调训练。并且,在语音领域收集和标注数据集也存在一定的难度,例如如何进行质量控制、消除噪声等。此外,即使是在图像预训练模态,也存在具有挑战性的子模态,例如医学成像领域,直接使用自然图像的预训练模型也存在问题。

12b5f2cc1eaa44c6b8cc266a97d65baa.png

因此本文主要着重于如何更好的从一个大规模预训练模型中向其他模态进行知识迁移,目前的常用做法是使用标准对比损失从配对数据集中以监督学习的方式进行,然而,监督模式中可能有许多相似的样本,并且相似程度不同。为了缓解这种低效率迁移的局限,本文提出了一种连续加权对比损失CWCL,用于多模态模型的对比训练。作者使用了图像-文本和语音-文本两种模态对来进行研究,上图展示了CWCL与LiT的对齐性能对比,可以看到在两种模态对中,CWCL均展现出了更好的zero-shot能力,尤其是在语音-文本模态。

ddc795232cbe4f12bc53fba47ed86724.png

此外,下图展示了使用CWCL对齐后的两种模态之间的相似性矩阵(对角线区域的相似性更加显著),从图中可以看出,即使在迁移训练时没有提供任何标签,CWCL相比普通损失函数实现了更好的模态对齐效果

02. 本文方法

2.1 现有的对比训练框架和损失函数

2.2 CWCL损失函数定义

2.3 如何获得模态内相似权重?

03. 实验效果

本文的实验主要针对两种模态转换进行,即图像-文本和语音-文本。对于图像-文本对,作者进行了图像分类和图像/文本检索的zero-shot迁移实验。在这两项任务中,CWCL的zero-shot迁移性能都超过了目前的SOTA方法。而对于语音-文本模态,作者进行了语音-意图分类和关键字查询任务,下面将分别介绍这些实验的细节。

3.1 zero-shot图像分类

对于零样本图像分类任务,作者在5个数据集上进行了实验:ImageNet、ImageNetV2、ImageNet-R、ImageNet-A和ObjNet。下表中展示了具体的实验结果,其中作者使用SimCon和LiT等方法作为对比基线,可以看到CWCL在ViT+transformer和ViT+BERT两种不同架构上都获得了更好的零样本分类性能

97cbf515f0994b8c9f777c55b36c4544.png

3.2 zero-shot图像-文本检索

此外,作者还进行了零样本图像文本检索实验,实验数据集选用MS-COCO验证集,下表展示了具体的实验结果,模型架构同样使用ViT+BERT,可以看到使用CWCL对比训练得到的模型性能明显优于使用标准对比损失函数训练的模型

dee39bf2b39941f3b5fd0236b962abfc.png

3.3 zero-shot提示模板的鲁棒性分析

在完成对CWCL的zero-shot分类和检索实验之后,作者还对CWCL的提示鲁棒性进行了分析,例如在zero-shot图像分类中,可以将标签直接转换为文本提示,以便将分类任务调整为对齐任务,因此作者设置了数量为 k个的文本提示模板,并且在构建分类器时将这些模板句子全部输入模型,例如"这是......的照片"、"这是......的图片"等,并且对 k=1,5,10个模板进行了实验,下图展示了CWCL和普通CL损失在不同数量模板设置时的表现情况。

75d8ba60c02b4bd49824012cb9668ad7.png

可以看出,使用CWCL损失训练的模型在使用较少的模板数量时就可以获得峰值性能,这表明CWCL在面对不同的文本提示时具有更强的鲁棒性。

3.4 zero-shot语音到意图分类

而对于语音到意图分类任务,作者遵循了ASR-NLU的pipeline,即首先通过ASR(语音-文本)进行转录,然后使用NLU(文本-文本)将转录分类为意图,下表展示了本文方法与其他方法的对比效果。

9f0f7f84151847e18272405a4c9b8db6.png

可以看到,在所有的实验设置下,使用CWCL损失的多模态训练均优于CL损失。在SLURP数据集上,使用RoBERTa+S与BART+Y作为文本模型架构会带来更加显著的性能提升

04. 总结

本文提出了一种新型的用于跨模态对比学习范式中损失函数,称为连续加权对比损失CWCL,CWCL的设计目标是从传统对比损失的固有缺陷出发,作者发现传统损失在使用预训练模型进行跨模态对齐时监督效率较低,对训练数据中具有连续性相似的样本完全忽略。CWCL重点考虑了同一批次中所有样本的相似性信息来增强对比监督。作者在两种模态迁移的zero-shot下游任务中验证了本文方法的性能。

参考

[1] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al., “Learning transferable visual models from natural language supervision,” in International conference on machine learning. PMLR, 2021, pp. 8748–8763.

[2] Xiaohua Zhai, Xiao Wang, Basil Mustafa, Andreas Steiner, Daniel Keysers, Alexander Kolesnikov, and Lucas Beyer, “Lit: Zero-shot transfer with locked-image text tuning,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 18123–18133.


  关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区 

这篇关于NeurIPS 2023 | 对比损失深度刨析!三星研究院提出全新连续性对比损失CMCL的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/338519

相关文章

Java深度学习库DJL实现Python的NumPy方式

《Java深度学习库DJL实现Python的NumPy方式》本文介绍了DJL库的背景和基本功能,包括NDArray的创建、数学运算、数据获取和设置等,同时,还展示了如何使用NDArray进行数据预处理... 目录1 NDArray 的背景介绍1.1 架构2 JavaDJL使用2.1 安装DJL2.2 基本操

最长公共子序列问题的深度分析与Java实现方式

《最长公共子序列问题的深度分析与Java实现方式》本文详细介绍了最长公共子序列(LCS)问题,包括其概念、暴力解法、动态规划解法,并提供了Java代码实现,暴力解法虽然简单,但在大数据处理中效率较低,... 目录最长公共子序列问题概述问题理解与示例分析暴力解法思路与示例代码动态规划解法DP 表的构建与意义动

Go中sync.Once源码的深度讲解

《Go中sync.Once源码的深度讲解》sync.Once是Go语言标准库中的一个同步原语,用于确保某个操作只执行一次,本文将从源码出发为大家详细介绍一下sync.Once的具体使用,x希望对大家有... 目录概念简单示例源码解读总结概念sync.Once是Go语言标准库中的一个同步原语,用于确保某个操

五大特性引领创新! 深度操作系统 deepin 25 Preview预览版发布

《五大特性引领创新!深度操作系统deepin25Preview预览版发布》今日,深度操作系统正式推出deepin25Preview版本,该版本集成了五大核心特性:磐石系统、全新DDE、Tr... 深度操作系统今日发布了 deepin 25 Preview,新版本囊括五大特性:磐石系统、全新 DDE、Tree

Node.js 中 http 模块的深度剖析与实战应用小结

《Node.js中http模块的深度剖析与实战应用小结》本文详细介绍了Node.js中的http模块,从创建HTTP服务器、处理请求与响应,到获取请求参数,每个环节都通过代码示例进行解析,旨在帮... 目录Node.js 中 http 模块的深度剖析与实战应用一、引言二、创建 HTTP 服务器:基石搭建(一

锐捷和腾达哪个好? 两个品牌路由器对比分析

《锐捷和腾达哪个好?两个品牌路由器对比分析》在选择路由器时,Tenda和锐捷都是备受关注的品牌,各自有独特的产品特点和市场定位,选择哪个品牌的路由器更合适,实际上取决于你的具体需求和使用场景,我们从... 在选购路由器时,锐捷和腾达都是市场上备受关注的品牌,但它们的定位和特点却有所不同。锐捷更偏向企业级和专

什么是 Ubuntu LTS?Ubuntu LTS和普通版本区别对比

《什么是UbuntuLTS?UbuntuLTS和普通版本区别对比》UbuntuLTS是Ubuntu操作系统的一个特殊版本,旨在提供更长时间的支持和稳定性,与常规的Ubuntu版本相比,LTS版... 如果你正打算安装 Ubuntu 系统,可能会被「LTS 版本」和「普通版本」给搞得一头雾水吧?尤其是对于刚入

TP-LINK/水星和hasivo交换机怎么选? 三款网管交换机系统功能对比

《TP-LINK/水星和hasivo交换机怎么选?三款网管交换机系统功能对比》今天选了三款都是”8+1″的2.5G网管交换机,分别是TP-LINK水星和hasivo交换机,该怎么选呢?这些交换机功... TP-LINK、水星和hasivo这三台交换机都是”8+1″的2.5G网管交换机,我手里的China编程has

基于UE5和ROS2的激光雷达+深度RGBD相机小车的仿真指南(五):Blender锥桶建模

前言 本系列教程旨在使用UE5配置一个具备激光雷达+深度摄像机的仿真小车,并使用通过跨平台的方式进行ROS2和UE5仿真的通讯,达到小车自主导航的目的。本教程默认有ROS2导航及其gazebo仿真相关方面基础,Nav2相关的学习教程可以参考本人的其他博客Nav2代价地图实现和原理–Nav2源码解读之CostMap2D(上)-CSDN博客往期教程: 第一期:基于UE5和ROS2的激光雷达+深度RG

韦季李输入法_输入法和鼠标的深度融合

在数字化输入的新纪元,传统键盘输入方式正悄然进化。以往,面对实体键盘,我们常需目光游离于屏幕与键盘之间,以确认指尖下的精准位置。而屏幕键盘虽直观可见,却常因占据屏幕空间,迫使我们在操作与视野间做出妥协,频繁调整布局以兼顾输入与界面浏览。 幸而,韦季李输入法的横空出世,彻底颠覆了这一现状。它不仅对输入界面进行了革命性的重构,更巧妙地将鼠标这一传统外设融入其中,开创了一种前所未有的交互体验。 想象