本文主要是介绍VQA论文2021CVPR,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
2021CVPR
VQA2021论文主要分成几个方面:
1)语言先验,泛化能力:CFVQA;GQA-OOD;How transfer
2)鲁棒性评估:Perception Matters;
3)新设定:
4)其他:TextVQA,OKVQA
5)数据集:多是Video QA
6)预训练:
Perception Matters: Detecting Perception Failures of VQA Models Using Metamorphic Testing
论文链接
代码
论文概述
高水平的推理一般需要执行多个感知子任务。对于VQA,仅仅使用准确率衡量模型的好坏,无法详细指出错误是来自于低水平的感知问题还是高水平的推理。本文引入MetaVQA,将图像和问题分别转换成子问题和子图像,衡量VQA模型的感知能力。
方法
Question-Oriented MRs: 使用细粒度的目标检测器 O D f i n e OD_{fine} ODfine提取出目标和相应的属性;由于细粒度的提取的目标有较多的重叠,使用粗粒度的目标检测器定位目标,以进行图像的分割;
- Object-/Property-Oriented Partitioning: 根据图像中目标识别的结果,合成可分解的计数问题,验证 V ( q , i ) = ∑ q ′ ∈ Q p a r V ( q ′ , i ) V(q,i)=\sum_{q'\in Q_{par}}V(q',i) V(q,i)=∑q′∈QparV(q′,i);注意在MetaVQA中仅仅将问题分成两个子问题验证就使得准确率下降;分解方法有Object-Oriented Partitioning:将问题q转换成计数两个单独的objects的数量;见下图;
Property-Oriented Partitioning例子: Q : Q: Q:How many standing giraffes and lying giraffes are in the image?
Q 1 : Q_1: Q1:“How many standing giraffes are in the image?”
Q 2 : Q_2: Q2:“How many lying giraffes are in the image?”
- Object- and Property-Oriented Reordering: 将问题和属性调换位置;
- Object- or Property-Oriented Reversion:问题反转,答案应该不同;
Image-Oriented MRs: 根据 O D c o a r s e OD_{coarse} ODcoarse得到一系列的目标,从而将图像进行分割成不相交的几部分;在不损坏图像其他目标的前提下,加入一些目标或者移除一些不相关的物体;增加一个问题所问的物体;
实验
对近几年的SOTA方法按照论文中的方法进行评估,结果如下:
方法中的+代表使用了train+val set,对于大部分的方法,增加训练数据反而会增加模型的错误率;BERT模型对于Insertion,partition,removal效果好的原因可能是将很多结果预测为0;Oscar模型将图像和问题进行对齐,可以增加对问题和图像的理解,因此效果算是可以的;
想法
2019,2020CVPR均有方法衡量模型的一致性,这篇论文将模型训练好以后,进行衡量,本质上也差不多;现在VQA论文比较少,大部分关注于模型的鲁棒性,提出新的评估方法,仅仅通过准确率可能无法反映模型真正的能力;而且仅仅通过简单的增加数据对模型效果的增加并不是很明显;
Separating Skills and Concepts for Novel Visual Question Answering
论文链接
论文简介
衡量VQA模型对新的合成问题的泛化能力,本文提出隐式分离技巧和概念的方法;
提出的新的评估设置:1)回答基于新的技巧和概念合成的问题;2)回答从未回答过的问题的答案;
AGQA: A Benchmark for Compositional Spatio-Temporal Reasoning
在视频问答领域提出类似于GQA的数据集;
Predicting Human Scanpaths in Visual Question Answering
论文链接
Roses are Red, Violets are Blue… But Should VQA expect Them To?
论文概述
VQA模型很容易利用数据集中的统计误差,对于OOD数据和具有少量样本的数据效果不好。VQA-CP人工调整训练集和测试集中的答案分布,不能反映真实世界的趋势,同时由于没有验证集,得到的模型过度拟合于这种分布;本文提出GQA-OOD,认为稀少的问答对更能反映模型的推理能力;
构建方法
GQA-OOD:定义OOD样本为稀少的事件;与之前的train-val-test相比较,train set相同,val和test不同;
具有shifted子集构建步骤:1)将问题根据上下文进行分组;2)提取最不平衡的问题组考虑他们的答案分布;3)然后选择OOD样本;
希望和大家多交流,有错误的地方希望大家指出来呀!
这篇关于VQA论文2021CVPR的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!