用于3D Visual Grounding的多模态场景图

2023-11-06 00:52

文章标签 用于 3d 场景 visual 模态 grounding

本文主要是介绍用于3D Visual Grounding的多模态场景图，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

文章目录

引言
方法
- 1. Language Scene Graph Module

Paper：《Free-form Description Guided 3D Visual Graph Network for Object Grounding in Point Cloud》【ICCV’2021】
Code：https://github.com/PNXD/FFL-3DOG

引言

3DVG任务有以下三个挑战：

在复杂、多样的文本描述中找到主要的重点，即找到主语（目标对象）；
理解点云场景；
定位目标对象；

为了解决这些问题，这篇文章分别设计了以下三个模块：

首先，提出了一个语言场景图模块来从复杂的文本描述中，捕捉丰富的结构和短语相关性；
其次，引入proposals之间的关系，并加强了初始proposals的视觉特征；
最后，开发了一个文本描述来引导的三维可视化图模块，通过节点匹配策略对短语和建议的全局上下文进行编码。

图形摘要如下所示：
在这里插入图片描述

直白来讲，本文就是做了以下三件事：

首先，将复杂的文本描述划分为三类短语：名词短语、代词和关系短语，基于这些短语构造一个语言场景图 $G^l$ ，其中节点和边缘分别对应于名词短语+代词和关系短语；
其次，基于VoteNet给出的proposals构造出一个proposal relation 图 $G^o$ ，然后利用语言场景图 $G^l$ 计算出一个matching score $\phi_1$ ，以此对 $G^o$ 中的proposals进行裁剪和细化；
最后，将两个图通过节点匹配进行融合，获得本文称之为 description guided 3D visual graph $G^u$ ，以此来进行3DVG任务。

那么这其中有着以下关键问题：

语言场景图如何对语言进行拆解，又如何构造？
视觉场景图内的关系如何构造？通过距离来计算吗？

方法

方法框架图如下：

在这里插入图片描述

1. Language Scene Graph Module

语言图中的每个节点和边，对应于文本描述L中提到的object和它在L中被提到的与其他object的关系。它是一个有向图。

TODO

这篇关于用于3D Visual Grounding的多模态场景图的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/353532。 23002807@qq.com

相关文章

nginx -t、nginx -s stop 和 nginx -s reload 命令的详细解析(结合应用场景)

nginx -t、nginx -s stop 和 nginx -s reload 命令的详细解析(结合应用场景)

《nginx-t、nginx-sstop和nginx-sreload命令的详细解析(结合应用场景)》本文解析Nginx的-t、-sstop、-sreload命令,分别用于配置语法检... 以下是关于 nginx -t、nginx -s stop 和 nginx -s reload 命令的详细解析，结合实际应

阅读更多...

Android kotlin中 Channel 和 Flow 的区别和选择使用场景分析

Android kotlin中 Channel 和 Flow 的区别和选择使用场景分析

《Androidkotlin中Channel和Flow的区别和选择使用场景分析》Kotlin协程中,Flow是冷数据流,按需触发,适合响应式数据处理；Channel是热数据流,持续发送,支持... 目录一、基本概念界定FlowChannel二、核心特性对比数据生产触发条件生产与消费的关系背压处理机制生命周期

阅读更多...

Python使用vllm处理多模态数据的预处理技巧

Python使用vllm处理多模态数据的预处理技巧

《Python使用vllm处理多模态数据的预处理技巧》本文深入探讨了在Python环境下使用vLLM处理多模态数据的预处理技巧,我们将从基础概念出发,详细讲解文本、图像、音频等多模态数据的预处理方法,... 目录1. 背景介绍1.1 目的和范围1.2 预期读者1.3 文档结构概述1.4 术语表1.4.1 核

阅读更多...

MyBatis-Plus 中 nested() 与 and() 方法详解(最佳实践场景)

MyBatis-Plus 中 nested() 与 and() 方法详解(最佳实践场景)

《MyBatis-Plus中nested()与and()方法详解(最佳实践场景)》在MyBatis-Plus的条件构造器中,nested()和and()都是用于构建复杂查询条件的关键方法,但... 目录MyBATis-Plus 中nested()与and()方法详解一、核心区别对比二、方法详解1.and()

阅读更多...

Visual Studio 2022 编译C++20代码的图文步骤

Visual Studio 2022 编译C++20代码的图文步骤

《VisualStudio2022编译C++20代码的图文步骤》在VisualStudio中启用C++20import功能,需设置语言标准为ISOC++20,开启扫描源查找模块依赖及实验性标... 默认创建Visual Studio桌面控制台项目代码包含C++20的import方法。右键项目的属性：

阅读更多...

ModelMapper基本使用和常见场景示例详解

ModelMapper基本使用和常见场景示例详解

《ModelMapper基本使用和常见场景示例详解》ModelMapper是Java对象映射库,支持自动映射、自定义规则、集合转换及高级配置（如匹配策略、转换器）,可集成SpringBoot,减少样板... 目录1. 添加依赖2. 基本用法示例：简单对象映射3. 自定义映射规则4. 集合映射5. 高级配置匹

阅读更多...

使用Python绘制3D堆叠条形图全解析

使用Python绘制3D堆叠条形图全解析

《使用Python绘制3D堆叠条形图全解析》在数据可视化的工具箱里,3D图表总能带来眼前一亮的效果,本文就来和大家聊聊如何使用Python实现绘制3D堆叠条形图,感兴趣的小伙伴可以了解下... 目录为什么选择 3D 堆叠条形图代码实现：从数据到 3D 世界的搭建核心代码逐行解析细节优化应用场景：3D 堆叠图

阅读更多...

python中Hash使用场景分析

python中Hash使用场景分析

《python中Hash使用场景分析》Python的hash()函数用于获取对象哈希值,常用于字典和集合,不可变类型可哈希,可变类型不可,常见算法包括除法、乘法、平方取中和随机数哈希,各有优缺点,需根... 目录python中的 Hash除法哈希算法乘法哈希算法平方取中法随机数哈希算法小结在Python中，

阅读更多...

Python主动抛出异常的各种用法和场景分析

Python主动抛出异常的各种用法和场景分析

《Python主动抛出异常的各种用法和场景分析》在Python中,我们不仅可以捕获和处理异常,还可以主动抛出异常,也就是以类的方式自定义错误的类型和提示信息,这在编程中非常有用,下面我将详细解释主动抛... 目录一、为什么要主动抛出异常？二、基本语法：raise关键字基本示例三、raise的多种用法1. 抛

阅读更多...

Spring组件实例化扩展点之InstantiationAwareBeanPostProcessor使用场景解析

Spring组件实例化扩展点之InstantiationAwareBeanPostProcessor使用场景解析

《Spring组件实例化扩展点之InstantiationAwareBeanPostProcessor使用场景解析》InstantiationAwareBeanPostProcessor是Spring... 目录一、什么是InstantiationAwareBeanPostProcessor？二、核心方法解

阅读更多...