本文主要是介绍视觉问答笔记01day,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
VQA综述:
任务旨在输入一张任意的图像(或视频)和一个自然语言描述的问题,模型自动输出一个由自然语言描述的答案。
目前已有相关工作开始关注视觉问答,例如跨模态融合的视觉问答架构,基于注意力机制的视觉 问答模型等.然而这些模型与方法大多只关注某一 视觉问答数据集下的表现,而较少关注真实场景下 视觉问答所需的逻辑推理能力,针对视频内容的视 觉问答等研究.因此,为了满足日益增长的视觉问答 任务需求,就需要结合深度神经网络和知识网络的 结构优势,提出一系列实用的视觉问答理论和方法, 提升模型的通用性和计算效率.
根据输人视觉对象的类型划分,视觉问答任务可分为 :
图像问答:主要分为粗粒度跨媒体表达的图像问答模型:粗粒度跨媒体表达的模型是图像问答算法 中最基础的一类,通常被用来作为对照的基线算法. 在该模型中,图像问答任务被视为一个多类别分类 任务,即通过给定“图像一问题一答案”这样的三元组 训练数据,将用于提问的图片和问题文本输入模型 抽取高维特征,并使用特征融合策略把问题和文本 特征融合为跨媒体表达特征,再将所有候选答案都 作为一个相互独立的类别.最后使用线性或多层感 知机(multi—layer perceptron,MLP)模型作为分类 器,输出预测的答案.在此基础上,不同的特征表达 方式、融合策略以及答案预测模型形成了一系列有 特色的研究工作.
基于注意力机制的细粒度跨媒体表达模型:先学习到图像中和 问题语义相关的局部区域的特征,再和问题文本的 特征融合进行跨媒体表达并预测答案、
基于外部知识或知识网络的图像问答模型:挖 掘问题中的潜在语义信息以及利用现有知识网络中 的知识.的难 点在于现有模型不易将外部知识同图像问答数据集 上所有的问题映射,只能解决部分类型的问题,缺乏 普适性。如何设计一种能支持预测模型在 不同数据集上(新的答案集)的增量式更新的策略是 一个需要深入研究的问题.
视频问答:由于视频数据本身的复杂性,视频问答算法目前研究还较少.视频中包含了有序的图像序列,因此解决视频问答不仅需要理解视觉内容,还需要兼顾视觉对象在时序上的相关性.现有的视频问答模型主要根据基于注意力机制的图像问答模型拓展得到.
八个大型相关数据集:DAQUAR
Visual7W
Visual Madlibs
COCO—QA
FM—IQA
VQA(COCO)
VQA(Abstract)
CLEVR
图像问答算法(pen—ended image question answering,OE-IQA)
这篇关于视觉问答笔记01day的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!