本文主要是介绍用于3D Visual Grounding的多模态场景图,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
文章目录
- 引言
- 方法
- 1. Language Scene Graph Module
Paper:《Free-form Description Guided 3D Visual Graph Network for Object Grounding in Point Cloud》【ICCV’2021】
Code:https://github.com/PNXD/FFL-3DOG
引言
3DVG任务有以下三个挑战:
- 在复杂、多样的文本描述中找到主要的重点,即找到主语(目标对象);
- 理解点云场景;
- 定位目标对象;
为了解决这些问题,这篇文章分别设计了以下三个模块:
- 首先,提出了一个语言场景图模块来从复杂的文本描述中,捕捉丰富的结构和短语相关性;
- 其次,引入proposals之间的关系,并加强了初始proposals的视觉特征;
- 最后,开发了一个文本描述来引导的三维可视化图模块,通过节点匹配策略对短语和建议的全局上下文进行编码。
图形摘要如下所示:
直白来讲,本文就是做了以下三件事:
- 首先,将复杂的文本描述划分为三类短语:名词短语、代词和关系短语,基于这些短语构造一个语言场景图 G l G^l Gl,其中节点和边缘分别对应于名词短语+代词和关系短语;
- 其次,基于VoteNet给出的proposals构造出一个proposal relation 图 G o G^o Go,然后利用语言场景图 G l G^l Gl计算出一个matching score ϕ 1 \phi_1 ϕ1,以此对 G o G^o Go中的proposals进行裁剪和细化;
- 最后,将两个图通过节点匹配进行融合,获得本文称之为 description guided 3D visual graph G u G^u Gu,以此来进行3DVG任务。
那么这其中有着以下关键问题:
- 语言场景图如何对语言进行拆解,又如何构造?
- 视觉场景图内的关系如何构造?通过距离来计算吗?
方法
方法框架图如下:
1. Language Scene Graph Module
语言图中的每个节点和边,对应于文本描述L中提到的object和它在L中被提到的与其他object的关系。它是一个有向图。
TODO
这篇关于用于3D Visual Grounding的多模态场景图的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!