【博士论文】视觉语言交互中的视觉推理研究

2024-04-13 19:32

本文主要是介绍【博士论文】视觉语言交互中的视觉推理研究,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

272fbb92c87009ad1a1dbc18e25f2d25.png

来源:专知
本文为论文,建议阅读5分钟
本文通过单轮交互和多轮交互两个场景,分别选取指称语理解和视觉对话两个代表性任务进行阐述。

来自中国人民大学牛玉磊的博士论文,入选2021年度“CCF优秀博士学位论文奖”初评名单!

https://www.ccf.org.cn/Focus/2021-11-22/750448.shtml

语言交互中的视觉推理研究

视觉语言是计算机视觉与自然语言处理的交叉领域,对机器的感知和认知能力均有较高的要求。随着深度学习的发展和计算能力的提高,机器的感知能力得到了显著提升,研究者们开始探索机器的认知能力,尤其是推理能力。本 文从知识建模和知识推断两个方面入手,对视觉语言交互任务中的视觉推理问题进行研究。其中,知识建模指通过模型的构建,从视觉媒介和自然语言中提取视觉和语言知识,并进行特征表示;知识推断指机器对视觉和语言两个模态的知识进行综合考虑,并进行无偏的推断与估计。 

对于知识建模而言,本文通过单轮交互和多轮交互两个场景,分别选取指称语理解和视觉对话两个代表性任务进行阐述。对于单轮交互情形下的指称语理解任务而言,机器需要从图像中对自然语言描述的目标物体进行定位。本文 提出了变分背景框架,借助背景建模的思想,对自然语言指代的目标和其背景 信息的共生关系进行建模,通过候选目标对语义背景进行估计,并基于估计出 的语义背景对指代目标进行定位。对于多轮交互情形下的视觉对话而言,机器需要结合图像及多轮对话历史,对当前问题进行回答。本文提出了递归视觉注 意力机制,借助于视觉指代消解的思想,希望机器模拟人的思维方式,以递归的形式对对话历史进行回顾,并以视觉注意力机制的方式聚焦在与话题相关的视觉物体上。 

对于知识推断而言,视觉问答是视觉语言领域中存在知识偏差的典型问题。视觉问答需要结合图像内容,对问题进行回答。视觉问答模型可能会过多地关 注问题和答案之间的联系,从而缺少了对图像内容的关注。不同于传统的基于统计相关性的模型,本文提出了反事实视觉问答框架,从因果效应的视角出发, 借助因果推断中的反事实思维,通过单一语言分支显式地对语言相关性进行建模。通过从问题和图像的总体因果效应中去除问题对答案的直接因果效应,有效地克服了视觉问答模型对语言偏差的依赖。

95950fba0cc757d9febd0b4f59b33c83.png

5ed9b16a84231eaac420c6fdd5c21363.png

这篇关于【博士论文】视觉语言交互中的视觉推理研究的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/901021

相关文章

C语言逗号运算符和逗号表达式的使用小结

《C语言逗号运算符和逗号表达式的使用小结》本文详细介绍了C语言中的逗号运算符和逗号表达式,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习... 在C语言中逗号“,”也是一种运算符,称为逗号运算符。 其功能是把两个表达式连接其一般形式为:表达

Go语言实现桥接模式

《Go语言实现桥接模式》桥接模式是一种结构型设计模式,它将抽象部分与实现部分分离,使它们可以独立地变化,本文就来介绍一下了Go语言实现桥接模式,感兴趣的可以了解一下... 目录简介核心概念为什么使用桥接模式?应用场景案例分析步骤一:定义实现接口步骤二:创建具体实现类步骤三:定义抽象类步骤四:创建扩展抽象类步

GO语言实现串口简单通讯

《GO语言实现串口简单通讯》本文分享了使用Go语言进行串口通讯的实践过程,详细介绍了串口配置、数据发送与接收的代码实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要... 目录背景串口通讯代码代码块分解解析完整代码运行结果背景最近再学习 go 语言,在某宝用5块钱买了个

GO语言zap日志库理解和使用方法示例

《GO语言zap日志库理解和使用方法示例》Zap是一个高性能、结构化日志库,专为Go语言设计,它由Uber开源,并且在Go社区中非常受欢迎,:本文主要介绍GO语言zap日志库理解和使用方法的相关资... 目录1. zap日志库介绍2.安装zap库3.配置日志记录器3.1 Logger3.2 Sugared

Go语言中如何进行数据库查询操作

《Go语言中如何进行数据库查询操作》在Go语言中,与数据库交互通常通过使用数据库驱动来实现,Go语言支持多种数据库,如MySQL、PostgreSQL、SQLite等,每种数据库都有其对应的官方或第三... 查询函数QueryRow和Query详细对比特性QueryRowQuery返回值数量1个:*sql

GO语言中gox交叉编译的实现

《GO语言中gox交叉编译的实现》本文主要介绍了GO语言中gox交叉编译的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录一、安装二、使用三、遇到的问题1、开启CGO2、修改环境变量最近在工作中使用GO语言进行编码开发,因

从基础到高级详解Go语言中错误处理的实践指南

《从基础到高级详解Go语言中错误处理的实践指南》Go语言采用了一种独特而明确的错误处理哲学,与其他主流编程语言形成鲜明对比,本文将为大家详细介绍Go语言中错误处理详细方法,希望对大家有所帮助... 目录1 Go 错误处理哲学与核心机制1.1 错误接口设计1.2 错误与异常的区别2 错误创建与检查2.1 基础

Go语言中json操作的实现

《Go语言中json操作的实现》本文主要介绍了Go语言中的json操作的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录 一、jsOChina编程N 与 Go 类型对应关系️ 二、基本操作:编码与解码 三、结构体标签(Struc

python语言中的常用容器(集合)示例详解

《python语言中的常用容器(集合)示例详解》Python集合是一种无序且不重复的数据容器,它可以存储任意类型的对象,包括数字、字符串、元组等,下面:本文主要介绍python语言中常用容器(集合... 目录1.核心内置容器1. 列表2. 元组3. 集合4. 冻结集合5. 字典2.collections模块

基于Go语言开发一个 IP 归属地查询接口工具

《基于Go语言开发一个IP归属地查询接口工具》在日常开发中,IP地址归属地查询是一个常见需求,本文将带大家使用Go语言快速开发一个IP归属地查询接口服务,有需要的小伙伴可以了解下... 目录功能目标技术栈项目结构核心代码(main.go)使用方法扩展功能总结在日常开发中,IP 地址归属地查询是一个常见需求: