【博士论文】视觉语言交互中的视觉推理研究

2024-04-13 19:32

本文主要是介绍【博士论文】视觉语言交互中的视觉推理研究,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

272fbb92c87009ad1a1dbc18e25f2d25.png

来源:专知
本文为论文,建议阅读5分钟
本文通过单轮交互和多轮交互两个场景,分别选取指称语理解和视觉对话两个代表性任务进行阐述。

来自中国人民大学牛玉磊的博士论文,入选2021年度“CCF优秀博士学位论文奖”初评名单!

https://www.ccf.org.cn/Focus/2021-11-22/750448.shtml

语言交互中的视觉推理研究

视觉语言是计算机视觉与自然语言处理的交叉领域,对机器的感知和认知能力均有较高的要求。随着深度学习的发展和计算能力的提高,机器的感知能力得到了显著提升,研究者们开始探索机器的认知能力,尤其是推理能力。本 文从知识建模和知识推断两个方面入手,对视觉语言交互任务中的视觉推理问题进行研究。其中,知识建模指通过模型的构建,从视觉媒介和自然语言中提取视觉和语言知识,并进行特征表示;知识推断指机器对视觉和语言两个模态的知识进行综合考虑,并进行无偏的推断与估计。 

对于知识建模而言,本文通过单轮交互和多轮交互两个场景,分别选取指称语理解和视觉对话两个代表性任务进行阐述。对于单轮交互情形下的指称语理解任务而言,机器需要从图像中对自然语言描述的目标物体进行定位。本文 提出了变分背景框架,借助背景建模的思想,对自然语言指代的目标和其背景 信息的共生关系进行建模,通过候选目标对语义背景进行估计,并基于估计出 的语义背景对指代目标进行定位。对于多轮交互情形下的视觉对话而言,机器需要结合图像及多轮对话历史,对当前问题进行回答。本文提出了递归视觉注 意力机制,借助于视觉指代消解的思想,希望机器模拟人的思维方式,以递归的形式对对话历史进行回顾,并以视觉注意力机制的方式聚焦在与话题相关的视觉物体上。 

对于知识推断而言,视觉问答是视觉语言领域中存在知识偏差的典型问题。视觉问答需要结合图像内容,对问题进行回答。视觉问答模型可能会过多地关 注问题和答案之间的联系,从而缺少了对图像内容的关注。不同于传统的基于统计相关性的模型,本文提出了反事实视觉问答框架,从因果效应的视角出发, 借助因果推断中的反事实思维,通过单一语言分支显式地对语言相关性进行建模。通过从问题和图像的总体因果效应中去除问题对答案的直接因果效应,有效地克服了视觉问答模型对语言偏差的依赖。

95950fba0cc757d9febd0b4f59b33c83.png

5ed9b16a84231eaac420c6fdd5c21363.png

这篇关于【博士论文】视觉语言交互中的视觉推理研究的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/901021

相关文章

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》:本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应

C语言中的数据类型强制转换

《C语言中的数据类型强制转换》:本文主要介绍C语言中的数据类型强制转换方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录C语言数据类型强制转换自动转换强制转换类型总结C语言数据类型强制转换强制类型转换:是通过类型转换运算来实现的,主要的数据类型转换分为自动转换

利用Go语言开发文件操作工具轻松处理所有文件

《利用Go语言开发文件操作工具轻松处理所有文件》在后端开发中,文件操作是一个非常常见但又容易出错的场景,本文小编要向大家介绍一个强大的Go语言文件操作工具库,它能帮你轻松处理各种文件操作场景... 目录为什么需要这个工具?核心功能详解1. 文件/目录存javascript在性检查2. 批量创建目录3. 文件

C语言实现两个变量值交换的三种方式

《C语言实现两个变量值交换的三种方式》两个变量值的交换是编程中最常见的问题之一,以下将介绍三种变量的交换方式,其中第一种方式是最常用也是最实用的,后两种方式一般只在特殊限制下使用,需要的朋友可以参考下... 目录1.使用临时变量(推荐)2.相加和相减的方式(值较大时可能丢失数据)3.按位异或运算1.使用临时

使用C语言实现交换整数的奇数位和偶数位

《使用C语言实现交换整数的奇数位和偶数位》在C语言中,要交换一个整数的二进制位中的奇数位和偶数位,重点需要理解位操作,当我们谈论二进制位的奇数位和偶数位时,我们是指从右到左数的位置,本文给大家介绍了使... 目录一、问题描述二、解决思路三、函数实现四、宏实现五、总结一、问题描述使用C语言代码实现:将一个整

C语言字符函数和字符串函数示例详解

《C语言字符函数和字符串函数示例详解》本文详细介绍了C语言中字符分类函数、字符转换函数及字符串操作函数的使用方法,并通过示例代码展示了如何实现这些功能,通过这些内容,读者可以深入理解并掌握C语言中的字... 目录一、字符分类函数二、字符转换函数三、strlen的使用和模拟实现3.1strlen函数3.2st

Go语言中最便捷的http请求包resty的使用详解

《Go语言中最便捷的http请求包resty的使用详解》go语言虽然自身就有net/http包,但是说实话用起来没那么好用,resty包是go语言中一个非常受欢迎的http请求处理包,下面我们一起来学... 目录安装一、一个简单的get二、带查询参数三、设置请求头、body四、设置表单数据五、处理响应六、超

C语言中的浮点数存储详解

《C语言中的浮点数存储详解》:本文主要介绍C语言中的浮点数存储详解,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、首先明确一个概念2、接下来,讲解C语言中浮点型数存储的规则2.1、可以将上述公式分为两部分来看2.2、问:十进制小数0.5该如何存储?2.3 浮点

基于Python实现多语言朗读与单词选择测验

《基于Python实现多语言朗读与单词选择测验》在数字化教育日益普及的今天,开发一款能够支持多语言朗读和单词选择测验的程序,对于语言学习者来说无疑是一个巨大的福音,下面我们就来用Python实现一个这... 目录一、项目概述二、环境准备三、实现朗读功能四、实现单词选择测验五、创建图形用户界面六、运行程序七、

使用Go语言开发一个命令行文件管理工具

《使用Go语言开发一个命令行文件管理工具》这篇文章主要为大家详细介绍了如何使用Go语言开发一款命令行文件管理工具,支持批量重命名,删除,创建,移动文件,需要的小伙伴可以了解下... 目录一、工具功能一览二、核心代码解析1. 主程序结构2. 批量重命名3. 批量删除4. 创建文件/目录5. 批量移动三、如何安