本文主要是介绍ECCV 2020 Representation Learning on Visual-Symbolic Graphs for Video Understanding,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
动机
-
自然视频中的事件通常产生于演员和目标之间的时空交互,并且涉及多个共同发生的活动和目标类。因此,需要开发能够对时空视觉和语义上下文进行有效建模的算法。
-
捕捉这种上下文的一种方法是使用基于图的建模,它在计算机视觉中有着丰富的历史。
-
传统的基于图的方法,例如使用概率图模型,主要侧重于在符号而不是信号/视觉表示的层次上对上下文进行建模。然而,最近的进步使得图结构化数据的表示学习能够使用称为图神经网络(GNNs)的深层架构,这些架构学习如何通过聚合来自其邻居的消息来迭代更新节点表示。
-
视频可以表示为视觉空间-时间属性图(视觉st图),其节点对应于由目标检测器获得的区域,并且其边捕获这些区域之间的交互。GNNs最近被设计用于细化局部节点/边特征,该特征通常由卷积神经网络提取,基于由图捕获的时空上下文。
-
虽然GNNs对视觉ST图的表示学习已经导致了视频理解方面的重大进展,但是现有的方法有四个关键的限制,阻碍了它们充分利用这些图的丰富结构。
1)首先,大多数GNN假设相同类型的节点/边。在实践中,可视st图是异构图,其具有不同的节点类型(演员、目标)和边类型(例如目标到演员的空间和演员到演员的时间),每种类型与潜在不同维度和语义的特征相关联,如图1的示例所示。由于这一限制,最近在明确地为演员和目标建模方面的尝试都诉诸于为每个节点/边类型应用单独的GNN。
2)其次,大多数方法都是对一个固定结构的图进行操作,检测区域之间具有密集连通性。实际上,只有少数边捕获有意义的交互。
3)第三,现有的方法没有结合边特征来更新节点表示。
4)最后,尽管对局部视觉环境进行建模,但现有的方法没有在全局视频级别或利用常识性语义标签关系进行推理,这在图像识别领域已被证明是有益的。
方法
简介
为了解决这些限制,作者提出了一种新的图神经网络(GNN)模型,称为视觉符号-时空-消息传递神经网络(VS-ST-MPNN)来在视觉st图上执行表示学习以获得检测到的演员和目标的上下文感知表示(图1)。作者的模型采用了可学习的邻域聚合机制(learnable neighborhood aggregation mechanisms),针对每个节点和边类型进行了专门的聚合,以迭代地细化参与者和目标的表示。作者还通过一个专门针对每种类型的交互的注意力机制来调整图的连通性。例如,一个演员节点将分别处理上一帧的演员节点和当前帧的目标节点。此外,作者利用区域间的几何关系初始化边特征,并对其进行细化,用于自适应图的连通性。直观地看,彼此接近或正在交互的节点应该是强连接的。最后,作者的一个关键贡献是引入了一个属性符号图,其节点对应于语义标签,如动作,由词嵌入描述,其边捕获标签关系,如共现。作者将两个图的信息与它们节点之间的可学习关联权重进行融合,并对符号图进行全局语义推理。重要的是,作者不需要目标、轨迹或每个可视节点的语义标签的GT(ground truth)标注。
架构
作者提出的VS-ST-MPNN模型的总体架构如图2所示。作者的目标是细化检测到的行为体的特征,目标和它们的基于两个图中捕获的上下文信息的交互:一个可视的st图和一个符号图。通过一种新的GNN来实现精化,该GNN a)通过利用边特征和学习针对不同节点和边类型的专门的基于注意力的邻域聚合函数来利用视觉st图的丰富结构&#x
这篇关于ECCV 2020 Representation Learning on Visual-Symbolic Graphs for Video Understanding的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!