Fine-grained Cross-modal Alignment Networkfor Text-Video Retrieval--文献阅读翻译

本文主要是介绍Fine-grained Cross-modal Alignment Networkfor Text-Video Retrieval--文献阅读翻译，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

题目：Fine-grained Cross-modal Alignment Networkfor Text-Video Retrieval

作者：Ning Han Hunan University ninghan@hnu.edu.cn
Jingjing Chen∗ Fudan University chenjingjing@fudan.edu.cn
Guangyi Xiao Hunan University guangyi.xiao@gmail.com
Hao Zhang City University of Hong Kong zhanghaoinf@gmail.com
Yawen Zeng Hunan University yawenzeng11@gmail.com
Hao Chen∗ Hunan University chenhao@hnu.edu.cn

来源：ACMM 2021(ACM Multimedia Conference 领域顶级国际会议)

摘要

尽管最近跨模式文本到视频检索技术取得了进展，但它们的性能仍然不尽如人意。大多数现有作品都遵循学习联合嵌入空间的趋势，以测量全局或局部文本和视频表示之间的距离。视频片段和短语之间的细粒度交互在跨模态学习中通常被忽略，这导致检索性能欠佳。为了解决这个问题，我们提出了一种新颖的细粒度跨模态对齐网络（FCA-Net），它考虑了视频中的视觉语义单元（即子动作/子事件）和句子中的短语之间的相互作用用于跨模式对齐。具体来说，视觉语义单元和短语之间的交互被公式化为通过图自动编码器优化的链接预测问题，以获得它们之间的显式关系并增强对齐特征表示以进行细粒度跨模态对齐。与最先进的方法相比，MSR-VTT、YouCook2 和 VA-TEX 数据集的实验结果证明了我们的模型的优越性。

图一：文本-视频检索对的示例。 (a) 显示了单个动作/事件检索示例。 (b) 展示了一个复杂的多子动作/子事件检索示例。然而，现有方法在单个动作/事件检索场景中运行良好，但对于涉及视频的连贯子动作/子事件片段和文本的连续语义短语的更现实情况并不令人满意。因此，我们执行视频和文本的视觉语义单元到短语的交互以进行文本视频检索

1 介绍

近年来，随着社交媒体平台(facebook、 twitter)和视频分享平台(youtube、 tik tok)的普及，网络上的多媒体数据(如图像、文本、音频和视频)发生了指数增长。因此，用户被大量的多模态数据[5,22,23,30,45]负担过重，这种趋势需要探索先进的技术来检索不同形式的有用信息。作为该领域的研究热点之一，文本与视频之间的跨模态检索越来越受到学术界和业界的关注。

跨模态的文本-视频检索本质上是一个具有挑战性的问题。主要问题是文本和视频之间的情态差距，这种差距妨碍了不同情态下相关样本的对齐。作为这一挑战的解决方案，现有的方法[10,12,21,28-31]主要学习一个公共潜在空间，直接测量全局或局部级别的文本和视频表示之间的距离。然而，这些方法粗略地捕捉模式之间的对应，因此无法捕捉视频和文本之间的细粒度交互。、

为了更好地捕捉这种细粒度的对应关系，最近的研究调查了基于不同注意力机制的跨模式交互方法 [7,40]，以对齐视频和文本之间的语义空间。此外，跨模态交互方法已被证明对图像文本检索是有效的 [19,33]，它可以发现细粒度的对应关系，从而实现最先进的性能。然而，由于视频和文本之间存在巨大的异质性差距，现有的基于注意力的模型，例如 [7]，可能无法很好地捕获视频的连贯子动作/子事件片段。同时，现有工作在很大程度上忽略了跨模态学习中视频和短语的子动作/子事件片段之间的细粒度交互。对于涉及多个语义相关的子动作/子事件的现实案例，文本视频检索结果并不令人满意。

在这项工作中，我们通过在视频和文本之间执行细粒度的跨模态对齐来解决跨模态检索的问题。具体来说，我们建议对视频片段和文本短语之间的交互进行建模以进行细粒度对齐。我们提供了一个示例来解释这样做的必要性。例如，对于基于简单查询（图 1（a））的文本视频检索，例如“将面糊倒入玻璃杯中”，考虑运动和语义组合的常见检索系统返回包含运动“倒”的相关视频和物体“面糊”和“玻璃”。然而，一个复杂的查询（图 1（b））可能由多个语义短语组成，这些短语对应于多个连贯的动作（即“添加凤尾鱼酱”、“添加伍斯特沙司”、“添加橄榄油”、“添加帕尔马干酪、 ”“搅拌它”）。在匹配过程中，他们更多地依赖于识别文本和视频中最具辨别力的全局特征，而不是在片段和短语级别建立细粒度特征。在这种情况下，可能很难理解全面的上下文和对应关系。虽然对视频和文本进行细粒度建模是必要的，但由于两个主要障碍，它进展缓慢。首先，现实生活中的视频包含各种具有复杂相互交互作用的组合对象，并且当以文本实体为基础时，每个对象/动作都具有不同的重要性。因此，对基于文本语义的细粒度视觉内容进行建模是一项重要的任务。其次，视频通常包含比文本查询更丰富的语义内容（即“视频值一千字”）。发现嵌入在视频帧中的信息的典型方法是提取帧级特征并将帧级特征聚合为视频级特征。然而，由于与文本查询相关的一些嘈杂或无意义的语义，这个过程会导致严重的信息冗余。因此，发现和增强有价值的语义信息同时抑制视频和文本之间无用的语义信息是一项复杂的任务。

为此，我们提出了一种用于跨模式文本视频检索的细粒度跨模式对齐网络（FCA-Net）。所提出的网络考虑了视频中的视觉语义单元和句子中的短语之间的交互，以进行跨模态对齐。图 2 概述了提议的 FCA-Net。具体来说，我们首先根据嵌入的逐帧视频特征的有序聚类将视频解码为连贯的视觉语义单元。同时，我们使用 StanfordCoreNLP 工具包 [26] 从句子中获取一组短语，并采用 Bidirectional Encoder Representations from Transformers (BERT) [8] 来提取短语级特征。然后，使用新的表示形式，视觉语义单元和短语之间的交互被公式化为由图形自动编码器（GAE）[2,15] 优化的链接预测问题。通过这种方式，获得了视觉语义单元和短语之间的显式关系，并将其用于增强跨模态对齐的嵌入特征。整个框架以端到端的方式进行训练，以三重秩损失作为损失函数。

1、在此基础上，提出了一种新的FCA网络，该网络考虑了视觉语义单元和短语之间细粒度的跨模态交互作用，用于跨模态的文本视频检索。

2、我们将不同模态之间的细粒度交互表述为链接预测问题，并引入 GAE 来对此类交互进行建模。

3、我们对三个标准基准进行了广泛的实验，并验证了我们提出的方法的有效性。

2、相关工作

2.1 文本-音频检索

我们简要回顾了跨模态文本视频检索的代表性方法，它遵循学习联合嵌入空间来测量文本和视频表示之间的距离的趋势。这些方法大致分为两类：1) 无跨模态交互方法 [9,10,12,21,28,30–32,39] 和 2) 跨模态交互方法 [7, 13, 24, 34 , 40, 41, 44]。

跨模态无交互方法通常对视频和文本查询进行编码，并相应地将它们映射到一个共同的潜在空间中，在该空间中，可以使用排名损失变量直接测量视频-文本的相似性。例如，Miech 等人。 [28,30] 提出了一个大型 HowTo100M [30] 数据集，通过利用大规模预训练来改进视频文本表示。他们还发现，利用对比损失可以解决未经策划的教学视频中视觉上错位的叙述，并改善视频文本表示。杨等人。 [39] 提出了一个基本的树增强跨模态编码模型，它设计了一个树增强查询编码器来导出结构感知查询表示和一个时间注意视频编码器来模拟视频的时间特征。董等人。 [9,10] 采用三个分支，即均值池化、Bi-GRU 和 CNN，对序列视频和文本进行编码，并学习用于视频-文本相似性预测的混合公共空间。帕特里克等人。 [32]提出了一个生成目标，以改善对比学习的实例辨别限制，从而提高其在文本视频检索中的性能。其他工作 [12,21,31] 通过将其他模式（例如运动和音频特征）融合到视频嵌入中来实现性能改进。

跨模态交互方法利用深度网络学习复杂的非线性变换并执行视频和文本句子之间的交互，采用传统的排序损失来最大化它们与网络输出的相关性。 Yu 等人。 [41]采用基于语义注意机制的概念词检测器来增强视频表示并进一步执行文本到视频的检索。余等人。 [40] 为视频和文本表示的顺序交互开发了一个联合序列融合模型，并在融合特征的基础上进一步预测相似性。宋等人。 [34] 提出了一个多义词实例嵌入网络，以融合文本和视频的全局和局部引导特征来解决多义词问题。陈等人。 [7]提出了一种基于注意力的层次图推理模型，将文本分解为事件、动作和实体，并在三个层次上将文本与视频对齐以进行视频文本匹配。金等人[13]提出了一个协作的分层变换器来有效地编码文本和视频，并提出一个跨模态循环一致性损失来执行视觉和文本特征之间的语义对齐。其他工作 [24,44] 扩展了 BERT 模型以将视觉和文本标记作为输入提供给学习用于文本视频检索的高级语义文本视频表示。

图二：我们提出的 FCA-Net 的整体框架。我们首先根据嵌入的逐帧视频特征的有序聚类将视频解码为视觉语义单元。然后我们将文本句子解析为短语并通过 BERT 提取短语特征。最后，我们使用基于 GAE 和三元组的链接预测策略实现联合嵌入学习。

尽管这些方法 [7,40] 考虑了帧和单词之间或视频和文本的三个级别（例如，事件、动作和实体）之间的细粒度建模，但它们忽略了视频片段和短语之间的细粒度建模。我们的工作重点是利用有区别的原生视觉语义单元和短语之间的细粒度对齐。实验结果表明，我们的细粒度跨模态交互模型有利于我们的检索准确性，这显着优于几个最先进的基线。

2.2多模态信息对齐

多模态信息对齐是跨模态检索的关键技术之一。它旨在找到来自不同模态的实例子组件之间的对应关系，并已被证明在不同的检索任务中是有效的，例如视频时刻检索 [20,42]、文本图像检索 [19,27,33] 和文本视频检索 [12,28]。多模态信息对齐的一种直接方法是学习用于关联跨模态数据的相似性或距离度量。一个经典的方法系列包括基于 CCA 的方法 [1,17]，它采用全局对齐来允许映射不同的模态。注意机制被认为是一种对齐多种模态之间语义空间的有效方法，因为它可以发现有价值的组件并避免噪音。李等人。 [19] 提出了一种堆叠交叉注意机制，用于将图像区域与句子中的单词对齐。彭等人。 [33] 提出多级自适应视觉-文本对齐，以从多个级别探索视觉-文本对齐。墨西拿等。 [27] 提出了变压器编码器推理和对齐网络，它强制进行细粒度的词区域对齐以进行跨模态信息检索。与这些努力不同的是，我们的工作使用基于图自动编码器 (GAE) [2,15] 的链接预测策略进行多模态信息对齐。

3方法

如图2所示，所提出的框架由三个模块组成：1）视频嵌入学习，涉及在多个片段级别提取视觉语义单元特征； 2）文本嵌入学习，涉及通过使用BERT从文本查询中提取一组短语特征； 3) 联合嵌入学习，包括集成基于 GAE 的链接预测策略，将关键视觉语义单元与短语对齐，并优化具有三重排序损失的文本和视频特征。

3.1 音频嵌入学习

视频预处理。给定一个视频剪辑V，我们用预先指定的视频时间分辨率从V统一采样一系列视频帧{v1,···,vN}；在这里，是视频长度。我们使用预训练的 I3D [4] 提取逐帧 RGB 特征。在这个过程中，我们利用具有帧 [t−4,t+4] 的视频剪辑作为表示第 t-th 帧的特征。视频片段特征表示为F={ $f_t{}$ } $_{N}^{t=1}$ ，其中 $f_t{}$ ∈ $R^{d_v{}}$ 表示第t帧的特征向量。

聚类。为了将视频解码为连贯的视觉语义单元，我们采用 k-means [25] 将视频的原始帧特征聚类为 K 个聚类。 K 被定义为在真实情况中出现的可能子动作/子事件的最大数量。具体来说，我们通过使用 Calinski-Harbasz 分数 [3] 来评估在每个视频特征聚类和每个可能数量的聚类中获得的聚类；大值表示更高质量的聚类。此外，我们对每个视频特征{ $f_t{}$ } $_{N}^{t=1}$ 单独进行时间分割，即，我们将每个帧特征 ft 分配给集群 C={Ci} $_{i=1}^{K}$ 之一。在[18]之后，我们利用每帧的时间戳对簇进行排序，并获得用于解码每个视频的有序簇。

将每个簇特征表示转换为相同维度的向量以进行跨模态对齐。我们对每个集群特征采用平均池化操作，并将池化结果视为每个集群特征 $f_{segment}^{i}$ ∈ $R^{d_v{}}$ 。然后，通过变换矩阵Wv学习投影，如下：

其中 $\varnothing _{v}^{i}$ ∈ $R_{d_{*}}^{}$ 是每个视频簇的嵌入特征，Wv∈Rd∗×dvis 学习的变换矩阵，bv∈Rd∗ 是偏差项。最后，视频剪辑的嵌入特征表示是所有视觉语义单元表示的组合：Ψ={ $\varnothing _{v}^{i}$ } $_{i=1}^{K}$ .

3.2文本嵌入学习

给定一个由M words { $W_{1}$ ,···, $W_{M}$ }组成的文本query Q，我们使用StanfordCoreNLP工具包[26]从query Q中获得一组短语S={ $s_{j}$ } $_{j=1}^{J}$ ，其中相应的动词被添加到通过预处理不带动词的短语。为了学习每个短语 $s_{j}$ 中单词之间的上下文关系，我们将包含几个单词的短语输入到一个预训练的 BERT [8] 语言表示模型中，并取最后一层第一个标记的隐藏状态来表示整个输入短语。该过程产生 768-D 个特征 $f_{phrase}^{j}$ ∈ $R^{d_{t}}$ 。

继之前的工作[29]之后，我们通过使用门控嵌入模块[29]将每个短语表示 $f_{phrase}^{j}$ 转换为嵌入特征 $\varnothing _{v}^{i}$ ∈ $R_{d_{*}}^{}$ 。文本句子的嵌入特征表示也是所有短语表示的组合：Φ={ $\varnothing _{t}^{j}$ } $_{j=1}^{J}$ 。

3.3 GAE对于跨膜态对齐

如第 3.1 和 3.2 节所述，视频嵌入学习和文本嵌入学习产生多对多的视觉和文本语义单元。上述注意机制通过计算查询和视频之间的点积相似度来利用跨模式交互。但是，投影的查询和视频可能包含嘈杂或无意义的信息。为了自适应地发现有价值的信息并抑制无用的信息，我们将交互建模为链接预测问题。具体来说，我们设计了一个基于 GAE 的无向二分图，用于多对多视觉和文本语义单元的对齐。设计的图可以帮助发现视觉和文本语义单元之间的显式关系，并进一步准确地捕获跨模态语义对齐。形式上，我们将无向二部图定义为 G={V,E,X}，其中 V={ $x_{1}$ ,···, $x_{n}$ } 是具有所有视觉和文本语义单元的节点集，E 是每个节点之间的链接权重集可以用邻接矩阵表示A=[ $a_{ij}^{}$ ] ∈Rn×n.X是所有节点的特征矩阵，即X=Ψ⊕Φ∈ $R^{(K+J)\times d}$ .，其中⊕是一个连接操作和 nandd∗ 分别是 X 的节点数和维数。在之前的链接预测问题中，观察到的链接的权重由数据给出。相比之下，我们的权重最初是通过语义相似性来估计的。我们的目标是学习节点的潜在表示并在图 G={V,E,X} 中获得准确的链接权重。 GAE 由一个两层图卷积编码器和一个内积解码器组成。它可以对齐视觉和文本语义单元之间的语义空间，并获得增强的视频和文本特征。接下来，我们详细解释一下这两个组件.

图卷积编码器。图卷积编码器旨在将原始视频和文本特征转换为具有构造图结构的增强视频和文本特征。图卷积网络 (GCN) [16] 将图作为输入，执行计算在结构上，并返回每个对象节点的更新特征作为输出。在二部图G中，我们通过采用非线性变换操作（在第3.1和3.2节中）将输入特征X投影到交互空间中。为了动态发现视觉语义单元的相关短语（或短语的相关视觉语义单元），我们通过计算内积相似度来构建边缘关系[35]

其中A定义为初始化邻接矩阵，x,φ是学习异构节点间边链接权重的非线性变换操作，M′∈{0,1} $^{n\times n}$ 是构造二部图的掩码矩阵，⊙是元素明智的产品。 GCN 可以由多个堆叠在一起的层复合而成。单个图卷积层定义为：

其中A=A+I是有附加自环的图的邻接矩阵，ed−1 2是它的对角度矩阵，其中dii=“jeai j, w∈rd * ×d∗是特定层的可学习权矩阵，σ是一个非线性激活函数，而z∈rn×d∗是输出特征矩阵.

为了提取多层图形特征，我们将多层图形卷积层(3)叠加如下

其中Z0=X,Zl∈Rn×dl∗是第lthgraph卷积层的输出，dl∗是第l层的输出通道数，Wl∈Rdl∗×dl+1∗mapsdl∗channels todl+1∗channels。由于图卷积操作可以堆叠成多个层，我们添加一个层来水平连接输出Zl,l=1,···,L。最终结果输出为Z1:L:=?Z1,···,ZL?，其中我们的图卷积网络的层数设置为2。最后，我们采用最后一个图卷积层的输出 ZL∈Rn×d∗ 作为节点表示。

内积译码器内积译码器用于重构邻接矩阵，动态地发现视觉语义单元和短语中有价值的潜在链接权重。考虑到我们的潜在嵌入已经包含了内容和结构信息以及灵活性，我们选择采用一个简单的内积解码器[15]通过重构邻接矩阵来预测视觉语义单元和短语之间的链接权重，重构的邻接矩阵表示如下

其中ˆA是图的重构邻接矩阵，M′∈{0,1}n×nis是构造二部图的掩码矩阵，⊙是元素积。

为了有效地表示增强的视频和文本特征，我们需要保证重建的邻接矩阵与初始化的邻接矩阵一致。因此，我们采用交叉熵损失来测量自动编码器的逼近误差。这种方法通过测量 a 和 a 之间的差值来最大限度地减少重建损失.

总之，算法1总结了整个过程。最后，采用改进的邻接矩阵获得增强的视频和文本特征表示。

3.4联合嵌入学习

视频和文本特征之间的联合嵌入学习的目的是进行相似性比较。如上一节所述，跨模态对齐方法产生对齐的视频和文本特征表示 ˆZ。对于最终的视频和文本嵌入表示，我们使用由两个全连接层、tanh 激活函数和 ˆZ 上的 softmax 激活函数组成的自注意力池化ρ 来获得注意权重的视频和文本特征。生成的视频特征O∈ $R^{K\times d_{n}}$ 和文本特征T∈ $R^{J\times d_{*}}$ 表示为

其中K是视觉语义单元的数量，J是短语的数量，⊙是元素的乘积。然后，采用三重排序损失来优化联合嵌入的性能学习。

Triplet Ranking Loss.类似于其他跨模态检索方法[6,30]，我们选择三元组学习方法来优化模型参数。由于我们同时针对 video-to-text 和 text-to-video 检索，损失函数的输入由两个三元组组成，即 (T,O,O_) 和 (O,T,T_)。三元组的第一个元素是视频 (O) 或文本 (T) 查询，然后是与第二个和第三个元素不同的模态的真正例和反例。损失函数定义为：

其中 cos(·,·) 是余弦相似度，0<δ≤1 是边距。

整体损失。用于训练 FCA-Net 的整体损失函数是三元组排序损失 (Lr ank) 和重建损失 (Lr) 的总和：

其中 λ 作为权衡参数

4结论

这项工作有助于一种新的跨模态学习方法来联合建模视频和文本，该方法利用了视频或文本的内在语义线索。具体来说，我们考虑了视觉语义单元和短语的对应关系，并提出了一种基于 GAE 的链接预测策略来对齐视觉语义单元和短语。公共数据集的评估结果表明，与最先进的基线相比，我们的模型表现出极具竞争力的性能。
虽然令人鼓舞，但目前的工作通过考虑文本和视频之间的细粒度交互在检索效率上仍然存在局限性，难以应用于现实场景。因此，如何提高检索效率是我们未来的方向。

这篇关于Fine-grained Cross-modal Alignment Networkfor Text-Video Retrieval--文献阅读翻译的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！