【论文阅读】Single-Stage Visual Query Localization in Egocentric Videos

本文主要是介绍【论文阅读】Single-Stage Visual Query Localization in Egocentric Videos，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

paper：

code：

简介：

长篇自我中心视频的视觉查询定位需要时空搜索和指定对象的定位。之前的工作开发了复杂的多级管道，利用完善的对象检测和跟踪方法来执行 VQL（视觉查询定位）。然而，每个阶段都是独立训练的，管道的复杂性导致推理速度缓慢。我们提出了 VQLoC，这是一种新颖的单阶段 VQL 框架，可进行端到端训练。我们的关键思想是首先建立对查询视频关系的整体理解，然后以单次方式执行时空定位。具体来说，我们通过联合考虑查询与每个视频帧之间的查询到帧对应关系以及附近视频帧之间的帧到帧对应关系来建立查询视频关系。我们的实验表明，我们的方法比之前的 VQL 方法准确率提高了 20%，同时推理速度提高了 10 倍。

图 1：视觉查询本地化 (VQL)：（左）目标是本地化长视频中的视觉查询对象，如黄色边界框标记的响应轨迹所示。这项任务的复杂性源于需要适应视频中出现的具有不同尺度、视点和状态的开放集对象查询；（右）我们的方法 VQLoC 首先通过联合推理查询到帧（空间）和帧到帧（时间）对应关系，建立对查询视频关系的整体理解，然后在单阶段中定位响应并结束端到端可训练方式。

VQL 任务的自我中心性质：对象所在的视频可能变化很大，比如方向、大小、上下文和照明条件，经历运动模糊和遮挡。最后，在现实世界的应用中，以自我为中心的视频可能会持续几分钟、几小时或几天，而对象本身可能只出现几秒钟，从而导致“大海捞针”的问题。之前的工作已经尝试过通过三个阶段的自下而上的框架来解决 VQL [13]：i）在每个视频帧中，检测所有对象并与视觉查询进行成对比较，以获得与查询最相似的建议； ) 识别整个视频中的相似性得分峰值；以及 iii) 围绕最近的峰值执行双向跟踪以恢复时空响应虽然该框架基于完善的对象检测和跟踪方法，但它很大程度上依赖于第一个。虽然如果对象清晰地出现在视频中，这可能是可能的，但由于图像的自我中心性质，帧级对象检测中的错误可能会导致这种情况。由于框架不是端到端可微分的，并且早期阶段的错误可能无法在后期阶段纠正，因此整个系统都会失败。此外，由于与冗余对象提案的成对比较的复杂性很高，这些方法的推理速度很慢。为了解决这些限制，我们提出了 VQLoC（对应的可视化查询本地化），这是一种新颖的单阶段 VQL 框架。我们对 VQLoC 的主要见解是，对查询与视频关系的整体理解对于可靠地定位以自我为中心的视频中的查询对象至关重要。因此，VQLoC 联合建模查询与每个视频帧之间的查询到帧关系以及邻近视频帧之间的帧到帧关系（见图 1，右），然后在单帧中执行时空定位。阶段和端到端可训练的方式。具体来说，我们通过使用 DINO [34] 预训练的 ViT 主干提取视觉查询和每个视频帧的图像特征，并使用交叉注意力变换器模块 [45] 建立图像之间的对应关系，从而建立查询与帧的关系查询和视频帧中的区域。然后，我们使用自注意力变换器模块 [45] 随着时间的推移传播这些对应关系，该模块利用视频时间连续性产生的帧到帧关系来捕获整体查询视频关系。最后，我们使用卷积预测头，通过利用查询视频关系进行时空定位来进行帧级预测。重要的是，我们的模型在单阶段运行，即没有具有专用后处理步骤的中间定位输出，并且是端到端可训练的，因为它仅使用可微分模块来获得最终预测。与之前的分阶段方法相比，VQLoC 有几个优点。与之前在视频帧中显式生成对象建议并将其与视觉查询进行比较的工作不同，VQLoC 通过在视觉查询特征和视频帧特征之间执行基于注意力的推理来隐式建立查询帧关系。该方法有效地利用背景和非查询对象的图像区域作为推理的上下文信息。此外，我们的隐式查询框架关系的计算速度比显式生成建议和执行成对比较要快得多，这对于现实世界的情景记忆应用程序至关重要。最后，VQLoC 是端到端可训练的，与之前的工作相比，这会带来更好的性能。

这篇关于【论文阅读】Single-Stage Visual Query Localization in Egocentric Videos的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！