【论文阅读】Learning 2D Temporal Adjacent Networks for Moment Localization with Natural Language

本文主要是介绍【论文阅读】Learning 2D Temporal Adjacent Networks for Moment Localization with Natural Language,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

表示自己研究的时候,就感觉这是一篇很普通的文章,后来才发现,大家争相把这篇文章当作baseline…

摘要及引入

通过一个二维图,在视频片段间建模时序关系。二维图的其中一个维度指示片段的开始点,另一个指示结束点。
二维图的作用是,可以在覆盖不同长度的视频片段的同时 ,表示他们的邻接关系。(对这个主要论点的理解,首先视频片段的长度是通过二维图上点的位置来体现的,那为什么能表示不同片段之间的邻接关系呢?比如相同横坐标的点,代表的是同一起点的片段,相同纵坐标的点则能表示同一终点的片段,这能指示他们的重叠、相邻关系)
二维图坐标映射:( i i i, j j j)-th -> i τ i\tau iτ to ( j + 1 ) τ (j+1)\tau (j+1)τ τ = 93.5 8 s = 11.6875 s \tau=\frac{93.5}{8}s=11.6875s τ=893.5s=11.6875s

自然的小问题:二维图上的点扩展到向量呢?(直觉来看,由点变成向量,反而没那么灵活了)

穷举地更详尽了,为什么反而计算成本降低了呢?因为每个片段都被降维了。这样能把关键信息展示出来吗?

自然的小问题:是不是说最后的检索误差就是 τ \tau τ呢?那么误差还挺大的。且 τ \tau τ是怎么得到的呢?(跟单个视频有关?还是跟整个数据集有关?)

模型部分

模型理解:

文本特征表示,比较常规,先经过word2vec将单词转化为向量,然后放入一个三层双向LSTM网络,将最后一个隐状态作为句子的特征表示

视频特征表示,输入视频的帧序列,按照固定长度(具体是 T T T帧/切)切分帧序列,获得clip序列{ v i v_i vi}, 然后对clip序列进行固定间隔的采样(由于每个视频的长度是不一样的,因此每个视频的clip的个数不同,不方便深度模型统一处理,因此这里使用的固定间隔,对于每个视频是不同的),一共得到 N N N个clip,每个clip为 T T T帧。此时的维度是 B ∗ N ∗ T B*N*T BNT(B for batch size),然后放入预训练的VGG网络,再放入以 d V d^V dV为输出的全连接层。此时的视频特征维度是 B ∗ N ∗ d V B*N*d^V BNdV,每个clip特征表示为 f V f^V fV

写到这里,直觉感觉误差更大了,但误差具体是多少,有点不太会算…

现在对于一个视频而言,共有 N N N个clip,然后进行候选片段moment的构建,这就是作者的核心idea,用二维时序图来集成(其实可以看作是一种维度的增加,一种优雅的sliding window)。moment就是多个clip的集成,集成方式可以是max-pool、也可以是stacked conv。接下来的问题就是以怎样的密度选择集成好的候选moment,就用到了二维时序特征图(因为二维时序图的每个点都指示了一个长度有持续的候选片段,所以二维时序图的构建相当于是对clip进行组合的过程,则 d V d_V dV不能直接用,应该从clip维度映射到moment维度再用,代码里作者提供了avg-pool+max-pool两种映射方式,话说conv这种方式能看作是一种矩阵变换吗?)。二维时序特征图共包含三个维度,分别是start index、end index和特征维度 d V d^V dV;二维时序图只有上三角部分有意义,因为要保证结束点在起始点之后;二维时序图可以直接的展示出枚举所有clip的moment,但这会导致计算成本大幅提升,因此作者构建稀疏取样策略,对于clip数小于16的moment,枚举所有moment;对于大于16 clip的moment,使用公式:(这个式子有点复杂,有没有表达更易懂的方式,比如在什么区间内,a不变的情况下,b每隔多少取一个)

然后利用二维时序图构建时序邻接网络,首先将二维特征图与查询语句进行跨模态的特征融合(分别放入两个全连接层+哈达玛积+ L 2 L_2 L2范数),再放入 L L L K K K大小卷积核的卷积层,就能得到不同候选片段间交互过的二维时序特征图,然后进行分数的预测(全连接层+sigmoid),获得 C C C个候选片段的预测分数

利用预测分数和归一化的 I o U IoU IoU构造交叉熵损失函数

维度推演:

实验

在这里插入图片描述
Charades-STA上面的实验,在VGG-based+C3D-based的视觉特征提取方法中获得最高,但不如后来出现的I3D-based的视觉特征提取方法和基于强化学习的方法中的某些高。

与三类方法比较,sliding-window碾压,强化学习的碾压,但GCN的有一定差距(看看GCN的好处在哪里?)

感悟

总的来说,2D时序图本身并不能揭示不同moment之间的邻接关系,是卷积帮助完成的,但2D时序图为视频提供了一种能够卷积的形式,是一种处理视频(或者与视频一样具有时序性质)的策略;同时2D时序图也不是一种取样策略(均匀取样是作者的取样策略),其本身并不能带来计算成本的降低。
视频本身是一个四维实体,比普通的三维图多了一个时序维度的特征。普通的模型是将视频整体转化为一个1024维,但是作者显示化了其中两个维度,起始点维度和结束点维度

相似idea

关于这篇文章提出的二维时序特征图,大家的评价差别比较大。但可以肯定的是,这篇文章提出的解决方案不单单是只适用于vmr任务的,还可以扩展到很多方向。大家提到的比较相似的工作有:ActivityNet Challenge 2019 冠军模型BMN算法、时序卷积、GCN方法、ER3: A Unified Framework for Event Retrieval, Recognition and Recounting中对单模态的处理;下面逐一来分析一下:
BMN

2D-TANBMN
任务视频活动检索视频动作检索
动机无法构建不同候选片段间的时序依赖关系不能有效地为proposal生成足够可靠的分数
核心idea2D temporal mapBoundary-Matching confidence map
核心论点二维时序图不仅能表示不同长度的视频moment还能表示他们的邻接关系边界匹配置信图可以为密集分布的proposal评估置信分数
2D-TANBMN
TaskTemporal Activity RetrievalTemporal Action Retrieval
MotivationExisting methods neglect the temporal dependencies.cannot efficiently generate reliable confidence scores for retrieving proposals.
Main Idea2D temporal mapBoundary-Matching confidence map
Main Pointto represent adjacent relations between momentsto evaluate confidence scores of densely distributed proposals

其实BM confidence map就是2D temporal map最后经过多轮卷积转化为的score map(BMN这篇文章3.3的Boundary-Matching Layer没看懂,后面的之后再看

时序卷积

假如导师问我为什么拿20年的论文来讲

  1. 我认为这篇文章,虽然在准确率不能算是完全霸榜了,但他的idea仍然是有价值的。举个例子,无论是时序动作检测、还是时序活动检测、或者是视频异常检测、视频描述生成这些任务,都是很相似的,都对这个idea有很好的适应性。所以idea的新颖程度,是不能通过时间这个维度来判断的,我相信这个idea可以给实验室的很多小伙伴一些启发
  2. 从我的角度来说,我认为这篇文章对我的价值也非常大。因为从我的观感来说,反而是后出现的2D-TAN这篇文章给我的惊喜更大。我认为这是由于对论点的选择与阐述带来的,也就是说,大致相同的两个论点,2D-TAN挑选的论点更加直击痛点,BMN挑选的角度可能就逊色一些,所以我认为2D-TAN的写作逻辑对我启发也很大

这篇关于【论文阅读】Learning 2D Temporal Adjacent Networks for Moment Localization with Natural Language的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/325723

相关文章

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

软件架构模式:5 分钟阅读

原文: https://orkhanscience.medium.com/software-architecture-patterns-5-mins-read-e9e3c8eb47d2 软件架构模式:5 分钟阅读 当有人潜入软件工程世界时,有一天他需要学习软件架构模式的基础知识。当我刚接触编码时,我不知道从哪里获得简要介绍现有架构模式的资源,这样它就不会太详细和混乱,而是非常抽象和易

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin

[论文笔记]LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

引言 今天带来第一篇量化论文LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale笔记。 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 大语言模型已被广泛采用,但推理时需要大量的GPU内存。我们开发了一种Int8矩阵乘法的过程,用于Transformer中的前馈和注意力投影层,这可以将推理所需

UML- 统一建模语言(Unified Modeling Language)创建项目的序列图及类图

陈科肇 ============= 1.主要模型 在UML系统开发中有三个主要的模型: 功能模型:从用户的角度展示系统的功能,包括用例图。 对象模型:采用对象、属性、操作、关联等概念展示系统的结构和基础,包括类图、对象图、包图。 动态模型:展现系统的内部行为。 包括序列图、活动图、状态图。 因为要创建个人空间项目并不是一个很大的项目,我这里只须关注两种图的创建就可以了,而在开始创建UML图