Context-Aware Attention Network for Image-Text Retrieval——2021CVPR 中科院

本文主要是介绍Context-Aware Attention Network for Image-Text Retrieval——2021CVPR 中科院,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、研究背景

跨模态问题,图像–文本的双向检索严重依赖于每个图像-文本的联合嵌入学习以及相似性度量。很少有人同时探索单个模态中模态和语义相关性之间的对应。

二、作者对本文的贡献

1、提出了上下文感知注意力网络,可以从全局的角度基于给定的上下文来适应的选择信息片段。其中包括a:单个模态内的语义相关性 b:区域与单词之间的可能的对齐方式。
2、提出了使用语义注意力来捕获模态内的潜在相关性。并且图片选定区域与单词对其的二阶注意是具有可解释性的。

三、本文作者的动机

在以往的研究中,很少有人关注单一模态中,模态之间的语义对应和语义关联。(作者从更加细粒度的角度看待跨模态的检索问题)

四、作者的方法与框架

1、Method

假设一个输入图像文本对,我们首先将图像中的区域和句子中的单词嵌入到以共享空间中。具体的,对图像使用the bottom-up attention生成图片区域以及对应的表示V,同时,对于句子中的单词进行基于上下文的编码,生成文本表示U,在关联模块(context-aware attention network)中使用CAAN提取局部特征,捕捉 region-word pairs之间的语义对其和在单个模态内片段之间的语义相关性。最后通过图像与文本的匹配损失对模型进行训练。
在这里插入图片描述

2、Visual Representations
对图像采取注意力机制的原因:

给定一幅图像,我们观察到人们倾向于频繁提及显著的物体,并描述它们的动作和属性等,因此我们不从像素级图像中提取全局CNN特征,而是关注局部区域,并利用自下而上的注意力。

对于输入的图像,我们使用 Fast R-CNN与RestNet-101对图片进行特征提取,并通过一个线性层将其映射到D维空间。

3、Textual Representations

将文本句子中的单词进行One-Hot 编码后进行输入(不是单独处理每个单词,而是同时考虑单词及其上下文进行编码),通过单词嵌入层映射为300维的特征向量输入到GRU网络得到文本的特征表示通过线性层映射到D维空间。
在这里插入图片描述
在这里插入图片描述

4、上下文感知注意里网络

将得到的图像-文本特征表示进行特征融合,得到融合矩阵H,通过对融合矩阵H进行纵向矩阵计算得到image的inter-model Attention,进行后续矩阵计算得到intra-model Attention,对融合矩阵横向矩阵计算得到text的inter-model Attention后计算得到intra-model Attention。(这篇论文的框架方法中比较难看懂的就是这里的矩阵计算,看懂之后又会觉得难度适中,文中很神奇的时将一系列矩阵操作与模态间和模态内的注意力联系起来,非常新颖)
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

五、实验结果

在这里插入图片描述
消融实验
在这里插入图片描述

这篇关于Context-Aware Attention Network for Image-Text Retrieval——2021CVPR 中科院的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/651724

相关文章

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

poj 2349 Arctic Network uva 10369(prim or kruscal最小生成树)

题目很麻烦,因为不熟悉最小生成树的算法调试了好久。 感觉网上的题目解释都没说得很清楚,不适合新手。自己写一个。 题意:给你点的坐标,然后两点间可以有两种方式来通信:第一种是卫星通信,第二种是无线电通信。 卫星通信:任何两个有卫星频道的点间都可以直接建立连接,与点间的距离无关; 无线电通信:两个点之间的距离不能超过D,无线电收发器的功率越大,D越大,越昂贵。 计算无线电收发器D

什么是 Flash Attention

Flash Attention 是 由 Tri Dao 和 Dan Fu 等人在2022年的论文 FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness 中 提出的, 论文可以从 https://arxiv.org/abs/2205.14135 页面下载,点击 View PDF 就可以下载。 下面我

lvgl8.3.6 控件垂直布局 label控件在image控件的下方显示

在使用 LVGL 8.3.6 创建一个垂直布局,其中 label 控件位于 image 控件下方,你可以使用 lv_obj_set_flex_flow 来设置布局为垂直,并确保 label 控件在 image 控件后添加。这里是如何步骤性地实现它的一个基本示例: 创建父容器:首先创建一个容器对象,该对象将作为布局的基础。设置容器为垂直布局:使用 lv_obj_set_flex_flow 设置容器

【Python报错已解决】AttributeError: ‘list‘ object has no attribute ‘text‘

🎬 鸽芷咕:个人主页  🔥 个人专栏: 《C++干货基地》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! 文章目录 前言一、问题描述1.1 报错示例1.2 报错分析1.3 解决思路 二、解决方法2.1 方法一:检查属性名2.2 步骤二:访问列表元素的属性 三、其他解决方法四、总结 前言 在Python编程中,属性错误(At

DBeaver 连接 MySQL 报错 Public Key Retrieval is not allowed

DBeaver 连接 MySQL 报错 Public Key Retrieval is not allowed 文章目录 DBeaver 连接 MySQL 报错 Public Key Retrieval is not allowed问题解决办法 问题 使用 DBeaver 连接 MySQL 数据库的时候, 一直报错下面的错误 Public Key Retrieval is

图神经网络框架DGL实现Graph Attention Network (GAT)笔记

参考列表: [1]深入理解图注意力机制 [2]DGL官方学习教程一 ——基础操作&消息传递 [3]Cora数据集介绍+python读取 一、DGL实现GAT分类机器学习论文 程序摘自[1],该程序实现了利用图神经网络框架——DGL,实现图注意网络(GAT)。应用demo为对机器学习论文数据集——Cora,对论文所属类别进行分类。(下图摘自[3]) 1. 程序 Ubuntu:18.04

context:component-scan使用说明!

<!-- 使用annotation 自动注册bean, 并保证@Required、@Autowired的属性被注入 --> <context:component-scan base-package="com.yuanls"/> 在xml配置了这个标签后,spring可以自动去扫描base-pack下面或者子包下面的java文件,如果扫描到有@Component @Controll

深度学习--对抗生成网络(GAN, Generative Adversarial Network)

对抗生成网络(GAN, Generative Adversarial Network)是一种深度学习模型,由Ian Goodfellow等人在2014年提出。GAN主要用于生成数据,通过两个神经网络相互对抗,来生成以假乱真的新数据。以下是对GAN的详细阐述,包括其概念、作用、核心要点、实现过程、代码实现和适用场景。 1. 概念 GAN由两个神经网络组成:生成器(Generator)和判别器(D

React的context学习总结

context是干什么的?为什么会存在这么一个东西? context字面意思是上下文,在react中存在是为了解决深层次组件传值困难的问题 这里涉及到组件的传值问题,大体商说分三总:兄弟间传值(通过父组件),父往子传值(通过props),子往父传(props函数回调),这是基础的传值问题,但是如果组件嵌套的太深,那么传值就变的非常麻烦,为了解决这样的问题才产生了context  这是cont