AAAI 2022 | 负样本问题:时间基础度量学习的复兴

2023-11-30 20:32

本文主要是介绍AAAI 2022 | 负样本问题:时间基础度量学习的复兴,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文介绍我们组NJU-MCG 在多模态视频片段定位领域(Temporal Grounding和Spatio-temporal Grounding任务)被AAAI 2022接收的一篇工作 Negative Sample Matters: A Renaissance of Metric Learning for Temporal Grounding。

TL;DR: 本方法(Mutual Matching Network, MMN)主要是从两个角度对现有方法进行改进:

第一个角度是使用跨模态对比学习增加文本和视频特征的可辨别性(more discriminative)从而提高最终的定位效果,具体做法是增加了一个使得两个模态双向匹配(mutual matching)的损失函数从而构造了许多新的监督信号。我们首次使用了此前方法忽视的文本负样本,并且首次揭示了跨视频负样本的重要性。我们对于负样本的探究对应了标题中的negative sample matters。
第二个角度是从度量学习的角度使用了一个多模态联合建模空间(joint visual-language embedding space)替换复杂的多模态融合模块,从而大幅降低了计算开销,并且使得前面提到的双向匹配loss成为可能。

虽然此前有过一个方法使用度量学习进行建模,但其方法效果较差因此后续没有人follow这个思路。本方法的标题使用了a renaissance of metric learning试图说明度量学习的角度其实依然是一个很好的建模思路,希望有更多的后续工作follow这个思路。

论文链接(camera ready version已经更新):

https://arxiv.org/abs/2109.04872

代码链接(代码和网络权重已经开源):

https://link.zhihu.com/?target=https%3A//github.com/MCG-NJU/MMN

任务介绍

简单介绍一下什么是视频片段语言定位(Temporal Grounding)任务:属于视频领域的多模态任务(视频+文本),是视频时序检测任务的多模态版本,也是跨模态视频检索的片段版本。以下列举了一些视频领域的相关任务。

动作识别 (Action Recognition) : 对每个输入视频进行分类,识别出视频中人物做出的动作。即输入一个视频,得到视频对应的类别。方法主要是Two-Stream和3D Conv两个流派,常常作为后续视频任务的特征提取器。此任务可以关注我们组近期的工作TDN。

时序动作检测 (Temporal Action Detection/Localization) :输入一个未经裁剪的长视频 (untrimmed video),即视频中既包括有动作的前景区间,也包括没有明确语义的背景区间。任务需要检测(或定位,此任务中这两个词等价)出动作开始和结束的区间,并判断区间内动作的类别。即输入未经裁剪的视频序列,得到动作出现的区间和对应的类别。常用数据集为THUMOS14与ActivityNet。此任务可以关注我们组近期工作RTD。

跨模态视频检索(Cross-modal Video Retrieval):在一个给定的视频数据库中查询与一句话的语义最相关的那个视频。虽然与temporal grounding任务只相差一个片段定位过程,但是两个任务的方法上几乎没有相似性。这个领域使用度量学习角度的方法比较多,但是在temporal grounding领域几乎没有人follow。

视频片段语言定位 (Temporal Grounding) :输入一个未经裁剪的长视频和一句话,任务要求检测与这句话语义一致的片段的区间。本任务有很多名字,例如temporal/video grounding, cross-modal moment retrieval, natural language moment retrieval, temporal localization via language query等,代表了不同的领域对于这个任务从不同角度的看法。本任务也没有一个固定的中文名字,我们给它起的暂定的名字是多模态视频时序检测,之后提到的时候主要还是使用英文名。

这个任务的产生主要可以有两个角度来看:

(1ÿ

这篇关于AAAI 2022 | 负样本问题:时间基础度量学习的复兴的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/438444

相关文章

Python的time模块一些常用功能(各种与时间相关的函数)

《Python的time模块一些常用功能(各种与时间相关的函数)》Python的time模块提供了各种与时间相关的函数,包括获取当前时间、处理时间间隔、执行时间测量等,:本文主要介绍Python的... 目录1. 获取当前时间2. 时间格式化3. 延时执行4. 时间戳运算5. 计算代码执行时间6. 转换为指

关于MongoDB图片URL存储异常问题以及解决

《关于MongoDB图片URL存储异常问题以及解决》:本文主要介绍关于MongoDB图片URL存储异常问题以及解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录MongoDB图片URL存储异常问题项目场景问题描述原因分析解决方案预防措施js总结MongoDB图

SpringBoot项目中报错The field screenShot exceeds its maximum permitted size of 1048576 bytes.的问题及解决

《SpringBoot项目中报错ThefieldscreenShotexceedsitsmaximumpermittedsizeof1048576bytes.的问题及解决》这篇文章... 目录项目场景问题描述原因分析解决方案总结项目场景javascript提示:项目相关背景:项目场景:基于Spring

解决Maven项目idea找不到本地仓库jar包问题以及使用mvn install:install-file

《解决Maven项目idea找不到本地仓库jar包问题以及使用mvninstall:install-file》:本文主要介绍解决Maven项目idea找不到本地仓库jar包问题以及使用mvnin... 目录Maven项目idea找不到本地仓库jar包以及使用mvn install:install-file基

Java中字符串转时间与时间转字符串的操作详解

《Java中字符串转时间与时间转字符串的操作详解》Java的java.time包提供了强大的日期和时间处理功能,通过DateTimeFormatter可以轻松地在日期时间对象和字符串之间进行转换,下面... 目录一、字符串转时间(一)使用预定义格式(二)自定义格式二、时间转字符串(一)使用预定义格式(二)自

usb接口驱动异常问题常用解决方案

《usb接口驱动异常问题常用解决方案》当遇到USB接口驱动异常时,可以通过多种方法来解决,其中主要就包括重装USB控制器、禁用USB选择性暂停设置、更新或安装新的主板驱动等... usb接口驱动异常怎么办,USB接口驱动异常是常见问题,通常由驱动损坏、系统更新冲突、硬件故障或电源管理设置导致。以下是常用解决

Mysql如何解决死锁问题

《Mysql如何解决死锁问题》:本文主要介绍Mysql如何解决死锁问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录【一】mysql中锁分类和加锁情况【1】按锁的粒度分类全局锁表级锁行级锁【2】按锁的模式分类【二】加锁方式的影响因素【三】Mysql的死锁情况【1

SpringBoot内嵌Tomcat临时目录问题及解决

《SpringBoot内嵌Tomcat临时目录问题及解决》:本文主要介绍SpringBoot内嵌Tomcat临时目录问题及解决,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,... 目录SprinjavascriptgBoot内嵌Tomcat临时目录问题1.背景2.方案3.代码中配置t

SpringBoot使用GZIP压缩反回数据问题

《SpringBoot使用GZIP压缩反回数据问题》:本文主要介绍SpringBoot使用GZIP压缩反回数据问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录SpringBoot使用GZIP压缩反回数据1、初识gzip2、gzip是什么,可以干什么?3、Spr

Android Mainline基础简介

《AndroidMainline基础简介》AndroidMainline是通过模块化更新Android核心组件的框架,可能提高安全性,本文给大家介绍AndroidMainline基础简介,感兴趣的朋... 目录关键要点什么是 android Mainline?Android Mainline 的工作原理关键