Ask Me Anything:Free-form Visual Question Answering Based on Knowledge from External Sources

本文主要是介绍Ask Me Anything:Free-form Visual Question Answering Based on Knowledge from External Sources，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

这篇文章将自动生成的图像描述与一个外部的Knowledge bases相融合，对问题进行预测。图像描述生成主要来自于image captions集，并且从Knowledge bases提取基于文本的外部知识。框架图：
这里写图片描述
给定图像-问答对，首先利用CNN提取图像的Attributes集合。这些Attributes涉及范围很广，包括object,scenes,action,modifiers等等。同时采用一个state-of-art image caption方法，生成基于这些Attributes的captions集合。然后利用这些检测到的Attributes从KB中提取他们之间的相关信息。文中选中top-5的attributes，生成适用于Resource Description Framework(RDF) KB的一个query，RDF是KB的一种标准格式。经过DBpedia的处理，从KB中提取出图像相关描述的一个段落，利用Doc2Vec对这些段落编码，形成段落的特征表达。最后将编码的Attributes，captions 和KB 相关信息输入到LSTM中，利用最大似然方法处理代价函数，预测答案。这种方法在COCO-QA,上精度达到了69.73%。
Paper中提到，图像内容可以用Attributes来表示。文中从MS-COCO中提取图像attributes，并且把attributes预测当成是一个多标签分类任务，主要通过图像局部区域提取attributes。利用Vgg-Net16初始化attribute预测模型。
这里写图片描述
在Image caption模块，文中生成5个不同的image captions 形成图像的文本表达。
利用DBpedia生成外部数据源
文中通过最大化正确答案的概率训练VQA model

Q={q1,q2,q3…}表示问题句子，A={a1,a2,a3…}是答案句子。
本文实验主要在COCO-QA和VQA dataset上进行。
这里写图片描述

总结：Knowledge Bases在VQA上的使用，可以在此寻求突破。