本文主要是介绍Ask Me Anything:Free-form Visual Question Answering Based on Knowledge from External Sources,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
这篇文章将自动生成的图像描述与一个外部的Knowledge bases相融合,对问题进行预测。图像描述生成主要来自于image captions集,并且从Knowledge bases提取基于文本的外部知识。框架图:
给定图像-问答对,首先利用CNN提取图像的Attributes集合。这些Attributes涉及范围很广,包括object,scenes,action,modifiers等等。同时采用一个state-of-art image caption方法,生成基于这些Attributes的captions集合。然后利用这些检测到的Attributes从KB中提取他们之间的相关信息。文中选中top-5的attributes,生成适用于Resource Description Framework(RDF) KB的一个query,RDF是KB的一种标准格式。 经过DBpedia的处理,从KB中提取出图像相关描述的一个段落,利用Doc2Vec对这些段落编码,形成段落的特征表达。最后将编码的Attributes,captions 和KB 相关信息输入到LSTM中,利用最大似然方法处理代价函数,预测答案。这种方法在COCO-QA,上精度达到了69.73%。
Paper中提到,图像内容可以用Attributes来表示。文中从MS-COCO中提取图像attributes,并且把attributes预测当成是一个多标签分类任务,主要通过图像局部区域提取attributes。利用Vgg-Net16初始化attribute预测模型。
在Image caption模块,文中生成5个不同的image captions 形成图像的文本表达。
利用DBpedia生成外部数据源
文中通过最大化正确答案的概率训练VQA model
Q={q1,q2,q3…}表示问题句子,A={a1,a2,a3…}是答案句子。
本文实验主要在COCO-QA和VQA dataset上进行。
总结:Knowledge Bases在VQA上的使用,可以在此寻求突破。
这篇关于Ask Me Anything:Free-form Visual Question Answering Based on Knowledge from External Sources的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!