AAAI 2022 | 负样本问题:时间基础度量学习的复兴

2023-11-30 20:32

本文主要是介绍AAAI 2022 | 负样本问题:时间基础度量学习的复兴,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文介绍我们组NJU-MCG 在多模态视频片段定位领域(Temporal Grounding和Spatio-temporal Grounding任务)被AAAI 2022接收的一篇工作 Negative Sample Matters: A Renaissance of Metric Learning for Temporal Grounding。

TL;DR: 本方法(Mutual Matching Network, MMN)主要是从两个角度对现有方法进行改进:

第一个角度是使用跨模态对比学习增加文本和视频特征的可辨别性(more discriminative)从而提高最终的定位效果,具体做法是增加了一个使得两个模态双向匹配(mutual matching)的损失函数从而构造了许多新的监督信号。我们首次使用了此前方法忽视的文本负样本,并且首次揭示了跨视频负样本的重要性。我们对于负样本的探究对应了标题中的negative sample matters。
第二个角度是从度量学习的角度使用了一个多模态联合建模空间(joint visual-language embedding space)替换复杂的多模态融合模块,从而大幅降低了计算开销,并且使得前面提到的双向匹配loss成为可能。

虽然此前有过一个方法使用度量学习进行建模,但其方法效果较差因此后续没有人follow这个思路。本方法的标题使用了a renaissance of metric learning试图说明度量学习的角度其实依然是一个很好的建模思路,希望有更多的后续工作follow这个思路。

论文链接(camera ready version已经更新):

https://arxiv.org/abs/2109.04872

代码链接(代码和网络权重已经开源):

https://link.zhihu.com/?target=https%3A//github.com/MCG-NJU/MMN

任务介绍

简单介绍一下什么是视频片段语言定位(Temporal Grounding)任务:属于视频领域的多模态任务(视频+文本),是视频时序检测任务的多模态版本,也是跨模态视频检索的片段版本。以下列举了一些视频领域的相关任务。

动作识别 (Action Recognition) : 对每个输入视频进行分类,识别出视频中人物做出的动作。即输入一个视频,得到视频对应的类别。方法主要是Two-Stream和3D Conv两个流派,常常作为后续视频任务的特征提取器。此任务可以关注我们组近期的工作TDN。

时序动作检测 (Temporal Action Detection/Localization) :输入一个未经裁剪的长视频 (untrimmed video),即视频中既包括有动作的前景区间,也包括没有明确语义的背景区间。任务需要检测(或定位,此任务中这两个词等价)出动作开始和结束的区间,并判断区间内动作的类别。即输入未经裁剪的视频序列,得到动作出现的区间和对应的类别。常用数据集为THUMOS14与ActivityNet。此任务可以关注我们组近期工作RTD。

跨模态视频检索(Cross-modal Video Retrieval):在一个给定的视频数据库中查询与一句话的语义最相关的那个视频。虽然与temporal grounding任务只相差一个片段定位过程,但是两个任务的方法上几乎没有相似性。这个领域使用度量学习角度的方法比较多,但是在temporal grounding领域几乎没有人follow。

视频片段语言定位 (Temporal Grounding) :输入一个未经裁剪的长视频和一句话,任务要求检测与这句话语义一致的片段的区间。本任务有很多名字,例如temporal/video grounding, cross-modal moment retrieval, natural language moment retrieval, temporal localization via language query等,代表了不同的领域对于这个任务从不同角度的看法。本任务也没有一个固定的中文名字,我们给它起的暂定的名字是多模态视频时序检测,之后提到的时候主要还是使用英文名。

这个任务的产生主要可以有两个角度来看:

(1ÿ

这篇关于AAAI 2022 | 负样本问题:时间基础度量学习的复兴的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/438444

相关文章

Java实现时间与字符串互相转换详解

《Java实现时间与字符串互相转换详解》这篇文章主要为大家详细介绍了Java中实现时间与字符串互相转换的相关方法,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录一、日期格式化为字符串(一)使用预定义格式(二)自定义格式二、字符串解析为日期(一)解析ISO格式字符串(二)解析自定义

SpringBoot启动报错的11个高频问题排查与解决终极指南

《SpringBoot启动报错的11个高频问题排查与解决终极指南》这篇文章主要为大家详细介绍了SpringBoot启动报错的11个高频问题的排查与解决,文中的示例代码讲解详细,感兴趣的小伙伴可以了解一... 目录1. 依赖冲突:NoSuchMethodError 的终极解法2. Bean注入失败:No qu

C#基础之委托详解(Delegate)

《C#基础之委托详解(Delegate)》:本文主要介绍C#基础之委托(Delegate),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1. 委托定义2. 委托实例化3. 多播委托(Multicast Delegates)4. 委托的用途事件处理回调函数LINQ

MySQL新增字段后Java实体未更新的潜在问题与解决方案

《MySQL新增字段后Java实体未更新的潜在问题与解决方案》在Java+MySQL的开发中,我们通常使用ORM框架来映射数据库表与Java对象,但有时候,数据库表结构变更(如新增字段)后,开发人员可... 目录引言1. 问题背景:数据库与 Java 实体不同步1.1 常见场景1.2 示例代码2. 不同操作

Java时间轮调度算法的代码实现

《Java时间轮调度算法的代码实现》时间轮是一种高效的定时调度算法,主要用于管理延时任务或周期性任务,它通过一个环形数组(时间轮)和指针来实现,将大量定时任务分摊到固定的时间槽中,极大地降低了时间复杂... 目录1、简述2、时间轮的原理3. 时间轮的实现步骤3.1 定义时间槽3.2 定义时间轮3.3 使用时

如何解决mysql出现Incorrect string value for column ‘表项‘ at row 1错误问题

《如何解决mysql出现Incorrectstringvalueforcolumn‘表项‘atrow1错误问题》:本文主要介绍如何解决mysql出现Incorrectstringv... 目录mysql出现Incorrect string value for column ‘表项‘ at row 1错误报错

如何解决Spring MVC中响应乱码问题

《如何解决SpringMVC中响应乱码问题》:本文主要介绍如何解决SpringMVC中响应乱码问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Spring MVC最新响应中乱码解决方式以前的解决办法这是比较通用的一种方法总结Spring MVC最新响应中乱码解

pip无法安装osgeo失败的问题解决

《pip无法安装osgeo失败的问题解决》本文主要介绍了pip无法安装osgeo失败的问题解决,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 进入官方提供的扩展包下载网站寻找版本适配的whl文件注意:要选择cp(python版本)和你py

解决Java中基于GeoTools的Shapefile读取乱码的问题

《解决Java中基于GeoTools的Shapefile读取乱码的问题》本文主要讨论了在使用Java编程语言进行地理信息数据解析时遇到的Shapefile属性信息乱码问题,以及根据不同的编码设置进行属... 目录前言1、Shapefile属性字段编码的情况:一、Shp文件常见的字符集编码1、System编码

Spring MVC使用视图解析的问题解读

《SpringMVC使用视图解析的问题解读》:本文主要介绍SpringMVC使用视图解析的问题解读,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Spring MVC使用视图解析1. 会使用视图解析的情况2. 不会使用视图解析的情况总结Spring MVC使用视图