论文浅尝 - IJCAI2020 | Mucko：基于事实的多层跨模态知识推理视觉问答

本文主要是介绍论文浅尝 - IJCAI2020 | Mucko：基于事实的多层跨模态知识推理视觉问答，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

论文笔记整理：陈卓，浙江大学计算机科学与技术系，博士研究生。

论文链接：https://arxiv.org/pdf/2006.09073

代码：https://github.com/astro-zihao/mucko

发表会议：IJCAI 2020

任务定义及背景

VQA（视觉问答）顾名思义，也就是结合视觉的信息来回答问题。其于15年被提出，涉及的方法从最开始的联合编码，到双线性融合，注意力机制，组合模型，场景图，再到引入外部知识，进行知识推理，以及使用图网络，近年来取得了长足发展。其中18年Qi Wu等人提出的FVQA[2]，提出引入外部知识的KB-VQA问题，并贡献了这方面的重要数据集，该数据集特点是要回答问题必须依赖图片以外知识。同时，提出了一种对应解决该问题的方法与思路。

Out of the box[3]这篇文章，简称OB，则基于FVQA数据集，将视觉与外部知识信息融合后用图卷积网络来解KB-VQA问题。效果比FVQA的Sota要好。把它从58.7%提升到了69.3%。以上是本文工作的背景。

动机

作者对比了前人的工作，一个方向是将问题转化成关键词，然后在候选事实中根据关键词匹配检索出对应的支撑事实的pineline方式，比如前文所提的FVQA，但是如果视觉概念没有被问题完全提及(比如同义词和同形异义词)或者事实图中未捕获提及的信息(比如它问红色的柱子是什么，却没有提到消防栓)，那这类方法就会因为匹配而产生误差。

另一个方向将视觉信息引入到知识图中，通过GCN推导出答案，就比如前文提到的out of the box模型。虽然解决了上面的问题但是每个节点都引入了相同且全部的视觉信息，而只有一部分的视觉信息和当前节点是相关的，这样会引入噪声。

这篇关于论文浅尝 - IJCAI2020 | Mucko：基于事实的多层跨模态知识推理视觉问答的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！