Ask Me Anything:Free-form Visual Question Answering Based on Knowledge from External Sources

本文主要是介绍Ask Me Anything:Free-form Visual Question Answering Based on Knowledge from External Sources,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

  这篇文章将自动生成的图像描述与一个外部的Knowledge bases相融合,对问题进行预测。图像描述生成主要来自于image captions集,并且从Knowledge bases提取基于文本的外部知识。框架图:
这里写图片描述
   给定图像-问答对,首先利用CNN提取图像的Attributes集合。这些Attributes涉及范围很广,包括object,scenes,action,modifiers等等。同时采用一个state-of-art image caption方法,生成基于这些Attributes的captions集合。然后利用这些检测到的Attributes从KB中提取他们之间的相关信息。文中选中top-5的attributes,生成适用于Resource Description Framework(RDF) KB的一个query,RDF是KB的一种标准格式。 经过DBpedia的处理,从KB中提取出图像相关描述的一个段落,利用Doc2Vec对这些段落编码,形成段落的特征表达。最后将编码的Attributes,captions 和KB 相关信息输入到LSTM中,利用最大似然方法处理代价函数,预测答案。这种方法在COCO-QA,上精度达到了69.73%。
   Paper中提到,图像内容可以用Attributes来表示。文中从MS-COCO中提取图像attributes,并且把attributes预测当成是一个多标签分类任务,主要通过图像局部区域提取attributes。利用Vgg-Net16初始化attribute预测模型。
   这里写图片描述
   在Image caption模块,文中生成5个不同的image captions 形成图像的文本表达。
   利用DBpedia生成外部数据源
   文中通过最大化正确答案的概率训练VQA model
  这里写图片描述
  Q={q1,q2,q3…}表示问题句子,A={a1,a2,a3…}是答案句子。
   本文实验主要在COCO-QA和VQA dataset上进行。
   这里写图片描述
   这里写图片描述
   这里写图片描述
   总结:Knowledge Bases在VQA上的使用,可以在此寻求突破。

这篇关于Ask Me Anything:Free-form Visual Question Answering Based on Knowledge from External Sources的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/383780

相关文章

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

如何在Visual Studio中调试.NET源码

今天偶然在看别人代码时,发现在他的代码里使用了Any判断List<T>是否为空。 我一般的做法是先判断是否为null,再判断Count。 看了一下Count的源码如下: 1 [__DynamicallyInvokable]2 public int Count3 {4 [__DynamicallyInvokable]5 get

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

form表单提交编码的问题

浏览器在form提交后,会生成一个HTTP的头部信息"content-type",标准规定其形式为Content-type: application/x-www-form-urlencoded; charset=UTF-8        那么我们如果需要修改编码,不使用默认的,那么可以如下这样操作修改编码,来满足需求: hmtl代码:   <meta http-equiv="Conte

js异步提交form表单的解决方案

1.定义异步提交表单的方法 (通用方法) /*** 异步提交form表单* @param options {form:form表单元素,success:执行成功后处理函数}* <span style="color:#ff0000;"><strong>@注意 后台接收参数要解码否则中文会导致乱码 如:URLDecoder.decode(param,"UTF-8")</strong></span>

前端form表单+ifarme方式实现大文件下载

// main.jsimport Vue from 'vue';import App from './App.vue';import { downloadTokenFile } from '@/path/to/your/function'; // 替换为您的函数路径// 将 downloadTokenFile 添加到 Vue 原型上Vue.prototype.$downloadTokenF

HumanNeRF:Free-viewpoint Rendering of Moving People from Monocular Video 翻译

HumanNeRF:单目视频中运动人物的自由视点绘制 引言。我们介绍了一种自由视点渲染方法- HumanNeRF -它适用于一个给定的单眼视频ofa人类执行复杂的身体运动,例如,从YouTube的视频。我们的方法可以在任何帧暂停视频,并从任意新的摄像机视点或甚至针对该特定帧和身体姿势的完整360度摄像机路径渲染主体。这项任务特别具有挑战性,因为它需要合成身体的照片级真实感细节,如从输入视频中可能

FORM的ENCTYPE=multipart/form-data 时request.getParameter()值为null问题的解决

此情况发生于前台表单传送至后台java servlet处理: 问题:当Form需要FileUpload上传文件同时上传表单其他控件数据时,由于设置了ENCTYPE=”multipart/form-data” 属性,后台request.getParameter()获取的值为null 上传文件的参考代码:http://www.runoob.com/jsp/jsp-file-uploading.ht

【Visual Studio 报错】未加载 wntdll.pdb(一种可行的解决办法)

调试程序时,会出现下面这个报错 分析原因: 出现未加载 wntdll.pdb 报错大概率是你的指针使用错误 ,比如使用野指针、越界访问、或者堆区空间释放方式错误等。 这里以 堆区空间释放方式错误 为例子 1、堆区开辟的数组空间使用 delete 释放 // 堆区开辟的数组空间使用 delete 释放int* p = new int[10];delete p; 正

查看Excel 中的 Visual Basic 代码,要先设置excel选项

1. excel VB的简单介绍 百度安全验证 2.excel选项设置 excel表格中在选项->自定义功能区域,选择开发工具,visual baisc/查看代码,即可看到代码。 3.excel已经设置,可以直接查看