【论文阅读】Learning 2D Temporal Adjacent Networks for Moment Localization with Natural Language

本文主要是介绍【论文阅读】Learning 2D Temporal Adjacent Networks for Moment Localization with Natural Language，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

表示自己研究的时候，就感觉这是一篇很普通的文章，后来才发现，大家争相把这篇文章当作baseline…

摘要及引入

通过一个二维图，在视频片段间建模时序关系。二维图的其中一个维度指示片段的开始点，另一个指示结束点。
二维图的作用是，可以在覆盖不同长度的视频片段的同时，表示他们的邻接关系。（对这个主要论点的理解，首先视频片段的长度是通过二维图上点的位置来体现的，那为什么能表示不同片段之间的邻接关系呢？比如相同横坐标的点，代表的是同一起点的片段，相同纵坐标的点则能表示同一终点的片段，这能指示他们的重叠、相邻关系）
二维图坐标映射：( $i$ , $j$ )-th -> $i\tau$ to $(j+1)\tau$ ， $\tau=\frac{93.5}{8}s=11.6875s$

自然的小问题：二维图上的点扩展到向量呢？（直觉来看，由点变成向量，反而没那么灵活了）

穷举地更详尽了，为什么反而计算成本降低了呢？因为每个片段都被降维了。这样能把关键信息展示出来吗？

自然的小问题：是不是说最后的检索误差就是 $\tau$ 呢？那么误差还挺大的。且 $\tau$ 是怎么得到的呢？（跟单个视频有关？还是跟整个数据集有关？）

模型部分

模型理解：

文本特征表示，比较常规，先经过word2vec将单词转化为向量，然后放入一个三层双向LSTM网络，将最后一个隐状态作为句子的特征表示

视频特征表示，输入视频的帧序列，按照固定长度（具体是 $T$ 帧/切）切分帧序列，获得clip序列{ $v_i$ }, 然后对clip序列进行固定间隔的采样（由于每个视频的长度是不一样的，因此每个视频的clip的个数不同，不方便深度模型统一处理，因此这里使用的固定间隔，对于每个视频是不同的），一共得到 $N$ 个clip，每个clip为 $T$ 帧。此时的维度是 $B * N * T$ (B for batch size)，然后放入预训练的VGG网络，再放入以 $d^V$ 为输出的全连接层。此时的视频特征维度是 $B*N*d^V$ ，每个clip特征表示为 $f^V$

写到这里，直觉感觉误差更大了，但误差具体是多少，有点不太会算…

现在对于一个视频而言，共有 $N$ 个clip，然后进行候选片段moment的构建，这就是作者的核心idea，用二维时序图来集成（其实可以看作是一种维度的增加，一种优雅的sliding window）。moment就是多个clip的集成，集成方式可以是max-pool、也可以是stacked conv。接下来的问题就是以怎样的密度选择集成好的候选moment，就用到了二维时序特征图（因为二维时序图的每个点都指示了一个长度有持续的候选片段，所以二维时序图的构建相当于是对clip进行组合的过程，则 $d_V$ 不能直接用，应该从clip维度映射到moment维度再用，代码里作者提供了avg-pool+max-pool两种映射方式，话说conv这种方式能看作是一种矩阵变换吗？）。二维时序特征图共包含三个维度，分别是start index、end index和特征维度 $d^V$ ；二维时序图只有上三角部分有意义，因为要保证结束点在起始点之后；二维时序图可以直接的展示出枚举所有clip的moment，但这会导致计算成本大幅提升，因此作者构建稀疏取样策略，对于clip数小于16的moment，枚举所有moment；对于大于16 clip的moment，使用公式：（这个式子有点复杂，有没有表达更易懂的方式，比如在什么区间内，a不变的情况下，b每隔多少取一个）

然后利用二维时序图构建时序邻接网络，首先将二维特征图与查询语句进行跨模态的特征融合（分别放入两个全连接层+哈达玛积+ $L_2$ 范数），再放入 $L$ 个 $K$ 大小卷积核的卷积层，就能得到不同候选片段间交互过的二维时序特征图，然后进行分数的预测（全连接层+sigmoid），获得 $C$ 个候选片段的预测分数

利用预测分数和归一化的 $I o U$ 构造交叉熵损失函数

维度推演：

实验

在这里插入图片描述
Charades-STA上面的实验，在VGG-based+C3D-based的视觉特征提取方法中获得最高，但不如后来出现的I3D-based的视觉特征提取方法和基于强化学习的方法中的某些高。

与三类方法比较，sliding-window碾压，强化学习的碾压，但GCN的有一定差距（看看GCN的好处在哪里？）

感悟

总的来说，2D时序图本身并不能揭示不同moment之间的邻接关系，是卷积帮助完成的，但2D时序图为视频提供了一种能够卷积的形式，是一种处理视频（或者与视频一样具有时序性质）的策略；同时2D时序图也不是一种取样策略（均匀取样是作者的取样策略），其本身并不能带来计算成本的降低。
视频本身是一个四维实体，比普通的三维图多了一个时序维度的特征。普通的模型是将视频整体转化为一个1024维，但是作者显示化了其中两个维度，起始点维度和结束点维度

相似idea

关于这篇文章提出的二维时序特征图，大家的评价差别比较大。但可以肯定的是，这篇文章提出的解决方案不单单是只适用于vmr任务的，还可以扩展到很多方向。大家提到的比较相似的工作有：ActivityNet Challenge 2019 冠军模型BMN算法、时序卷积、GCN方法、ER3: A Unified Framework for Event Retrieval, Recognition and Recounting中对单模态的处理；下面逐一来分析一下：
BMN

	2D-TAN	BMN
任务	视频活动检索	视频动作检索
动机	无法构建不同候选片段间的时序依赖关系	不能有效地为proposal生成足够可靠的分数
核心idea	2D temporal map	Boundary-Matching confidence map
核心论点	二维时序图不仅能表示不同长度的视频moment还能表示他们的邻接关系	边界匹配置信图可以为密集分布的proposal评估置信分数

	2D-TAN	BMN
Task	Temporal Activity Retrieval	Temporal Action Retrieval
Motivation	Existing methods neglect the temporal dependencies.	cannot efficiently generate reliable confidence scores for retrieving proposals.
Main Idea	2D temporal map	Boundary-Matching confidence map
Main Point	to represent adjacent relations between moments	to evaluate confidence scores of densely distributed proposals

其实BM confidence map就是2D temporal map最后经过多轮卷积转化为的score map（BMN这篇文章3.3的Boundary-Matching Layer没看懂，后面的之后再看）

时序卷积

假如导师问我为什么拿20年的论文来讲

我认为这篇文章，虽然在准确率不能算是完全霸榜了，但他的idea仍然是有价值的。举个例子，无论是时序动作检测、还是时序活动检测、或者是视频异常检测、视频描述生成这些任务，都是很相似的，都对这个idea有很好的适应性。所以idea的新颖程度，是不能通过时间这个维度来判断的，我相信这个idea可以给实验室的很多小伙伴一些启发
从我的角度来说，我认为这篇文章对我的价值也非常大。因为从我的观感来说，反而是后出现的2D-TAN这篇文章给我的惊喜更大。我认为这是由于对论点的选择与阐述带来的，也就是说，大致相同的两个论点，2D-TAN挑选的论点更加直击痛点，BMN挑选的角度可能就逊色一些，所以我认为2D-TAN的写作逻辑对我启发也很大

这篇关于【论文阅读】Learning 2D Temporal Adjacent Networks for Moment Localization with Natural Language的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！