本文主要是介绍时序动作定位 | 基于判别增强的弱监督时序动作定位融合检测网络,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
<Fusion detection network with discriminative enhancement for weakly-supervised temporal action localization>
一、摘要
弱监督时序动作定位旨在仅使用视频级动作标签识别和定位未修剪视频中的动作实例。由于缺乏帧级注释信息,正确区分视频中的前景和背景片段对于动作的时间定位至关重要。然而,除了前景和背景片段外,视频中还存在大量语义相似的片段。这些片段与前景或背景共享相同的语义信息,导致操作实例的边界定位不那么细粒度。
受多模态学习成功的启发,我们从多模态输入中提取高质量的语义特征,并构建对比度损失来增强模型区分语义相似片段的能力。本文提出了一种带有判别增强的融合检测网络(fusion detection network with discriminative enhancement,De-FDN)。
具体而言,设计了一个融合检测模型(FDM),充分利用多模态特征之间的互补性和相关性,从视频中提取高质量的语义特征。然后,构建多模态类激活序列,实现动作实例的准确识别和定位。此外,设计了一种判别增强机制(DEM),该机制通过计算语义对比损失来增加语义相似段之间的差距。
二、方法
3.2. 融合检测网络(Fusion detection network)
它主要由三个部分组成:共识关注模块、判别增强机制和融合检测模块。共识关注模块有助于模态特征流之间的信息交换,以帮助彼此学习和提取高质量的语义特
这篇关于时序动作定位 | 基于判别增强的弱监督时序动作定位融合检测网络的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!