论文阅读Ask Me Anything: Free-form Visual Question Answering Based on Knowledge from External Sources

本文主要是介绍论文阅读Ask Me Anything: Free-form Visual Question Answering Based on Knowledge from External Sources,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Ask Me Anything: Free-form Visual Question Answering Based on Knowledge from External Sources

目前开始更关注于含有外部知识的视觉问答,鉴于这方面的论文和博客较少,就自己写了一篇。内容如有不妥,欢迎评论指正。

文章链接:https://openaccess.thecvf.com/content_cvpr_2016/papers/Wu_Ask_Me_Anything_CVPR_2016_paper.pdf

作为含有外部知识的视觉问答方向,较早的一篇论文。这篇文章主要内容是介绍如何将知识库用到视觉问答的问题中,并没有提出新的知识库。使用的知识库是DBpedia,而测试时使用的数据库是VQA(1.0)和Toronto COCO-QA。

一,提出背景:

(下图不是这篇文章中的,但是比较容易理解为什么要使用外部知识,所以就拿来用了)
在这里插入图片描述
如上图所示,要回答问题“地面上的红色物体能用来做什么”,要想做出正确的回答“灭火”,所依靠的信息不仅来源于图片上所识别出的“消防栓”,还必须考虑到来自外部的事实(知识)“消防栓能灭火”作为支撑。这就是一个典型的VQA上应用外部知识的场景。

二, 模型

在这里插入图片描述
总体上看大致分为这样几个步骤:
1,先从图像中提取前五的属性.
2,提取的属性分为三部分:一方面用来直接生成关于图像的描述,另一方面用来从知识库中提取相关外部知识,当然,自身也会被重新用到。
3,将第二步中的图像的三个结果作为一个视觉信息的整体输入到LSTM的编码结构中,问题的每个单词也作为输入输入到LSTM的编码结构中。然后在LSTM的解码结构中,生成每个答案单词的分布概率。
4,最终得到一个多个单词标签的答案。

1. Attribute-based Image Representation 基于属性的图像描述

属性: 词汇表中的每个属性都是从MS COCO的字幕中提取的。属性可以是言语的任何部分,包括对象名称(名词)、动作(动词)或属性(形容词)。
在这里插入图片描述
作者先在ImageNet数据集上通过vggnet16进行了预训练,然后再通过共享的CNN进行微调。这其实是一个基于区域的多标签分类框架,该框架以任意数量的子区域目标作为输入。(作者这里使用的将一张图片生成多张图片的方法是参考别人的,具体可以参考CNN: Single-label to Multi-label),每个区域目标连接一个共享的CNN,不同的区域目标的CNN输出通过最大池化层聚合去产生属性词汇表上的最终预测结果。这个属性词汇表的大小是256.(我感觉这里作者为了实现结果,将这个大小设定的有点小了,毕竟Imagenet数据集有两万多个属性)

2. Caption-based Image Representation 基于标注的图像表述

在这里插入图片描述
属性预测向量Vatt作为输入,使用 将高水平的基于属性的表达喂给LSTM 的生成描述的方法,同时使用 beam search,生成五个不同的描述,得到了图像的内部文本表示。得到一个512维的向量Vcap(I)。这一节作者只用较少的文章介绍了使用的方法,但是具体内容我也没看,所以丢了两个链接。

3. Relating to the Knowledge Base(基于知识库的图像描述)

这一节就是说如何通过图像的属性查询外部数据库DBpedia,并返回一个五合一的段落描述。
RDF:resource description framework 知识数据库的标准格式,主要为了让计算机阅读和理解,而不是人类。
SPARQL:在这里插入图片描述

在这里插入图片描述

1,给定前五的属性,用基于RDF的查询语句SPARQL,查询DBpedia数据库,这个数据库中的comment字段是关于属性的最常用信息。
2,将五个返回的段落合并成一个大段落
3,这个查询到的描述比2中的段落长,所以使用Doc2Vec将可变长度的文本片段中学习固定长度500的特征表示,

4. A VQA Model with Multiple Inputs(VQA模型的多重输入)

以上内容都是对图像信息的处理,现在将刚才的信息整合作为LSTM的图像信息的原始输出
在这里插入图片描述

在这里插入图片描述
这是LSTM的原始图像输入,在训练阶段,将问题Q与答案A连接为{q1,…, qn, a1,…, al, al+1},其中al+1是特殊的结束标记。每个单词都表示为一个one-hot向量,n是问题的长度,l是答案的长度,
使用LSTM[13]编码器从图像I和问题Q中提取语义信息,同时使用LSTM解码器生成答案。编码器和解码器LSTM共享权重。
在这里插入图片描述
a1:t表示之前生成的答案,A就是多个单词的完整答案,I是图像信息,Q是问题,
在第t=1到t=n 时间步 xt = Wesqt
在第n + 1 到 l + 1 时间步 xn+1 = Wes
al
然后通过LSTM前馈过程计算词汇表中的所有答案词概率分布pt+1 ,答案的最后一个单词为结束标记。

三, 结果:

在两个数据集上得到的结果
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

这篇文章缺点在于仅仅从数据集中提取离散的文本描述,忽略了结构化的表达,也就是说,没有办法进行关系推理,没有说明为什么是这个外部知识,从数据库中找到仅仅是相关的描述。

虽然是一篇较早的文章,但是读起来还是能感觉到作者的真才实学,里面综合运用了较多方面的知识.但是没找到代码,可惜了!

这篇关于论文阅读Ask Me Anything: Free-form Visual Question Answering Based on Knowledge from External Sources的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/383781

相关文章

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

如何在Visual Studio中调试.NET源码

今天偶然在看别人代码时,发现在他的代码里使用了Any判断List<T>是否为空。 我一般的做法是先判断是否为null,再判断Count。 看了一下Count的源码如下: 1 [__DynamicallyInvokable]2 public int Count3 {4 [__DynamicallyInvokable]5 get

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

form表单提交编码的问题

浏览器在form提交后,会生成一个HTTP的头部信息"content-type",标准规定其形式为Content-type: application/x-www-form-urlencoded; charset=UTF-8        那么我们如果需要修改编码,不使用默认的,那么可以如下这样操作修改编码,来满足需求: hmtl代码:   <meta http-equiv="Conte

js异步提交form表单的解决方案

1.定义异步提交表单的方法 (通用方法) /*** 异步提交form表单* @param options {form:form表单元素,success:执行成功后处理函数}* <span style="color:#ff0000;"><strong>@注意 后台接收参数要解码否则中文会导致乱码 如:URLDecoder.decode(param,"UTF-8")</strong></span>

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

前端form表单+ifarme方式实现大文件下载

// main.jsimport Vue from 'vue';import App from './App.vue';import { downloadTokenFile } from '@/path/to/your/function'; // 替换为您的函数路径// 将 downloadTokenFile 添加到 Vue 原型上Vue.prototype.$downloadTokenF