本文主要是介绍(reading)Revisiting Visual Question Answering Baselines,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
阅读后收获:对于VQA,使用MLP model,将I-Q-A作为输入做caption效果要好于以I-A作为输入,将I-A作为输入做caption效果要好于以Q-A作为输入,将Q-A作为输入做caption效果要好于以A作为输入,但是仅仅以A作为输入,在Visual7W telling task中就可以达到50.7%的准确性,说明了仅仅学习A分布的bias就可以取得不错的效果。另外结合不断填充扩大的Knowledge source,效果会进一步的提升,另外,通过iterative query去获取task-driven的信息,可以大大提高学习效果。
这篇关于(reading)Revisiting Visual Question Answering Baselines的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!