【博士论文】视觉语言交互中的视觉推理研究

2024-04-13 19:32

本文主要是介绍【博士论文】视觉语言交互中的视觉推理研究,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

272fbb92c87009ad1a1dbc18e25f2d25.png

来源:专知
本文为论文,建议阅读5分钟
本文通过单轮交互和多轮交互两个场景,分别选取指称语理解和视觉对话两个代表性任务进行阐述。

来自中国人民大学牛玉磊的博士论文,入选2021年度“CCF优秀博士学位论文奖”初评名单!

https://www.ccf.org.cn/Focus/2021-11-22/750448.shtml

语言交互中的视觉推理研究

视觉语言是计算机视觉与自然语言处理的交叉领域,对机器的感知和认知能力均有较高的要求。随着深度学习的发展和计算能力的提高,机器的感知能力得到了显著提升,研究者们开始探索机器的认知能力,尤其是推理能力。本 文从知识建模和知识推断两个方面入手,对视觉语言交互任务中的视觉推理问题进行研究。其中,知识建模指通过模型的构建,从视觉媒介和自然语言中提取视觉和语言知识,并进行特征表示;知识推断指机器对视觉和语言两个模态的知识进行综合考虑,并进行无偏的推断与估计。 

对于知识建模而言,本文通过单轮交互和多轮交互两个场景,分别选取指称语理解和视觉对话两个代表性任务进行阐述。对于单轮交互情形下的指称语理解任务而言,机器需要从图像中对自然语言描述的目标物体进行定位。本文 提出了变分背景框架,借助背景建模的思想,对自然语言指代的目标和其背景 信息的共生关系进行建模,通过候选目标对语义背景进行估计,并基于估计出 的语义背景对指代目标进行定位。对于多轮交互情形下的视觉对话而言,机器需要结合图像及多轮对话历史,对当前问题进行回答。本文提出了递归视觉注 意力机制,借助于视觉指代消解的思想,希望机器模拟人的思维方式,以递归的形式对对话历史进行回顾,并以视觉注意力机制的方式聚焦在与话题相关的视觉物体上。 

对于知识推断而言,视觉问答是视觉语言领域中存在知识偏差的典型问题。视觉问答需要结合图像内容,对问题进行回答。视觉问答模型可能会过多地关 注问题和答案之间的联系,从而缺少了对图像内容的关注。不同于传统的基于统计相关性的模型,本文提出了反事实视觉问答框架,从因果效应的视角出发, 借助因果推断中的反事实思维,通过单一语言分支显式地对语言相关性进行建模。通过从问题和图像的总体因果效应中去除问题对答案的直接因果效应,有效地克服了视觉问答模型对语言偏差的依赖。

95950fba0cc757d9febd0b4f59b33c83.png

5ed9b16a84231eaac420c6fdd5c21363.png

这篇关于【博士论文】视觉语言交互中的视觉推理研究的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/901021

相关文章

基于Python实现多语言朗读与单词选择测验

《基于Python实现多语言朗读与单词选择测验》在数字化教育日益普及的今天,开发一款能够支持多语言朗读和单词选择测验的程序,对于语言学习者来说无疑是一个巨大的福音,下面我们就来用Python实现一个这... 目录一、项目概述二、环境准备三、实现朗读功能四、实现单词选择测验五、创建图形用户界面六、运行程序七、

使用Go语言开发一个命令行文件管理工具

《使用Go语言开发一个命令行文件管理工具》这篇文章主要为大家详细介绍了如何使用Go语言开发一款命令行文件管理工具,支持批量重命名,删除,创建,移动文件,需要的小伙伴可以了解下... 目录一、工具功能一览二、核心代码解析1. 主程序结构2. 批量重命名3. 批量删除4. 创建文件/目录5. 批量移动三、如何安

python使用fastapi实现多语言国际化的操作指南

《python使用fastapi实现多语言国际化的操作指南》本文介绍了使用Python和FastAPI实现多语言国际化的操作指南,包括多语言架构技术栈、翻译管理、前端本地化、语言切换机制以及常见陷阱和... 目录多语言国际化实现指南项目多语言架构技术栈目录结构翻译工作流1. 翻译数据存储2. 翻译生成脚本

使用 sql-research-assistant进行 SQL 数据库研究的实战指南(代码实现演示)

《使用sql-research-assistant进行SQL数据库研究的实战指南(代码实现演示)》本文介绍了sql-research-assistant工具,该工具基于LangChain框架,集... 目录技术背景介绍核心原理解析代码实现演示安装和配置项目集成LangSmith 配置(可选)启动服务应用场景

Go语言中三种容器类型的数据结构详解

《Go语言中三种容器类型的数据结构详解》在Go语言中,有三种主要的容器类型用于存储和操作集合数据:本文主要介绍三者的使用与区别,感兴趣的小伙伴可以跟随小编一起学习一下... 目录基本概念1. 数组(Array)2. 切片(Slice)3. 映射(Map)对比总结注意事项基本概念在 Go 语言中,有三种主要

C语言中自动与强制转换全解析

《C语言中自动与强制转换全解析》在编写C程序时,类型转换是确保数据正确性和一致性的关键环节,无论是隐式转换还是显式转换,都各有特点和应用场景,本文将详细探讨C语言中的类型转换机制,帮助您更好地理解并在... 目录类型转换的重要性自动类型转换(隐式转换)强制类型转换(显式转换)常见错误与注意事项总结与建议类型

Go语言利用泛型封装常见的Map操作

《Go语言利用泛型封装常见的Map操作》Go语言在1.18版本中引入了泛型,这是Go语言发展的一个重要里程碑,它极大地增强了语言的表达能力和灵活性,本文将通过泛型实现封装常见的Map操作,感... 目录什么是泛型泛型解决了什么问题Go泛型基于泛型的常见Map操作代码合集总结什么是泛型泛型是一种编程范式,允

Android kotlin语言实现删除文件的解决方案

《Androidkotlin语言实现删除文件的解决方案》:本文主要介绍Androidkotlin语言实现删除文件的解决方案,在项目开发过程中,尤其是需要跨平台协作的项目,那么删除用户指定的文件的... 目录一、前言二、适用环境三、模板内容1.权限申请2.Activity中的模板一、前言在项目开发过程中,尤

C语言小项目实战之通讯录功能

《C语言小项目实战之通讯录功能》:本文主要介绍如何设计和实现一个简单的通讯录管理系统,包括联系人信息的存储、增加、删除、查找、修改和排序等功能,文中通过代码介绍的非常详细,需要的朋友可以参考下... 目录功能介绍:添加联系人模块显示联系人模块删除联系人模块查找联系人模块修改联系人模块排序联系人模块源代码如下

基于Go语言实现一个压测工具

《基于Go语言实现一个压测工具》这篇文章主要为大家详细介绍了基于Go语言实现一个简单的压测工具,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录整体架构通用数据处理模块Http请求响应数据处理Curl参数解析处理客户端模块Http客户端处理Grpc客户端处理Websocket客户端