(reading)Deep Visual-Semantic Alignments for Generating Image Descriptions

本文主要是介绍(reading)Deep Visual-Semantic Alignments for Generating Image Descriptions,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

**作者:AK大神和李飞飞大神 **

发表于2015年的CVPR

文章概述:这篇文章提出了一个视觉语义的对齐模型用来推断图像区域与语句片段的对应关系,并将对齐好的图像区域和语句片段作为训练数据,用来训练提出的另一个多模态的RNN模型,该模型通过输入测试图像最终生成该图像的文本描述。

过程:

**视觉语义对齐模型通过构造一个结构化的目标函数,利用多模态嵌入空间来对齐视觉区域和语句片段。**

1. 首先利用一个预训练好的区域卷积神经网络(RCNN)检测图像上的物体,每个图像取前19个检测到的图像区域以及图像本身进行CNN特征提取,每个图像块的像素在分类前都转化为全连接层的4096维activations,并形成一个h×4096维的矩阵作为多模态嵌入空间的输入。

2. 然后利用双向循环神经网络(BRNN)将图像对应的描述语句中的单词序列作为输入将每个单词映射到同样的h维的多模态嵌入空间,多模态嵌入空间通过计算图像区域向量和单词向量间的內积和为视觉区域和语句片段间的对应关系进行评分,评分越高,表明其对应关系越强。

3. 多模态RNN模型是以对齐好的图像区域和语句片段作为训练数据,将测试图像经过CNN学习的向量作为输入,在第一步仅通过additive bias interactions确认图像信息上RNN的预测,之后根据当前词和之前的上下文信息来预测下一个词,不断迭代这个过程,生成所有的词,预测过程的开始和结束都用专有的向量表示,结束标识是设置的目标标签,通过梯度下降法去最小化损失函数以最大化目标函数,从而生成图像对应的文本描述。

这篇关于(reading)Deep Visual-Semantic Alignments for Generating Image Descriptions的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/598588

相关文章

如何在Visual Studio中调试.NET源码

今天偶然在看别人代码时,发现在他的代码里使用了Any判断List<T>是否为空。 我一般的做法是先判断是否为null,再判断Count。 看了一下Count的源码如下: 1 [__DynamicallyInvokable]2 public int Count3 {4 [__DynamicallyInvokable]5 get

lvgl8.3.6 控件垂直布局 label控件在image控件的下方显示

在使用 LVGL 8.3.6 创建一个垂直布局,其中 label 控件位于 image 控件下方,你可以使用 lv_obj_set_flex_flow 来设置布局为垂直,并确保 label 控件在 image 控件后添加。这里是如何步骤性地实现它的一个基本示例: 创建父容器:首先创建一个容器对象,该对象将作为布局的基础。设置容器为垂直布局:使用 lv_obj_set_flex_flow 设置容器

【Visual Studio 报错】未加载 wntdll.pdb(一种可行的解决办法)

调试程序时,会出现下面这个报错 分析原因: 出现未加载 wntdll.pdb 报错大概率是你的指针使用错误 ,比如使用野指针、越界访问、或者堆区空间释放方式错误等。 这里以 堆区空间释放方式错误 为例子 1、堆区开辟的数组空间使用 delete 释放 // 堆区开辟的数组空间使用 delete 释放int* p = new int[10];delete p; 正

查看Excel 中的 Visual Basic 代码,要先设置excel选项

1. excel VB的简单介绍 百度安全验证 2.excel选项设置 excel表格中在选项->自定义功能区域,选择开发工具,visual baisc/查看代码,即可看到代码。 3.excel已经设置,可以直接查看

Deep Ocr

1.圈出内容,文本那里要有内容.然后你保存,并'导出数据集'. 2.找出deep_ocr_recognition_training_workflow.hdev 文件.修改“DatasetFilename := 'Test.hdict'” 310行 write_deep_ocr (DeepOcrHandle, BestModelDeepOCRFilename) 3.推理test.hdev

[VC] Visual Studio中读写权限冲突

前置场景: 编译没有报错,但是运行提示 内存异常: 情景1: 如下代码运行异常,提示引发了异常:写入权限冲突。*** 是 0xFFFFF..... char* str = (char*)malloc(10);str[0] = 0x30;  解决方案:要包含头文件<stdlib.h>  情景2: 在FileA文件调用FileB文件的函数,但是在FileA中却没有声明该B函数的原型

解决Visual C++ 中相互包含头文件的问题

在编MFC应用程序时,经常会遇到头文件相互包含的问题,很是苦恼,于是便求助于强大的CSDN,得到如下答案:   方法一:利用友元类   我一共有两个类,由于要在两个类的头文件里互相应用对方,所以,在每一个类的头文件里面现包含另一个类的头文件,然后在该类的定义中声明另一个类为友元类。如下:    #include "B.h"      class CA: public CDialog

如何简单而优雅地升级Visual NMP中的PHP版本

需求:自己想测试下不同版本的PHP性能,就想升级下 Visual 这个集成环境中PHP的版本 网上: 升级PHP到5.6.11  1、下载新的nts版的PHP并解压缩到bin\PHP下,保留原文件夹的名称; 2、将旧版PHP文件夹下的PHP.ini复制到新版的PHP文件夹下;修改复制的PHP.ini,将旧版PHP文件夹信息替换成新版PHP文件夹信息; 3、下载php_xdebug-2.3

应用Visual Studio Profiler分析CPU使用情况

使用Visual Studio Profiler分析CPU使用情况‌的步骤如下: 1.‌启动CPU分析:‌ 在Visual Studio中打开你要分析的项目。 在菜单栏中选择Debug > Performance Profiler,或者使用快捷键Alt + F2。 在性能分析工具窗口中,选择CPU Usage选项,这将帮助你分析应用程序的CPU使用情况。 2.‌运行CPU

已解决:Visual studio2022突然只能打字不能使用回车键、退格键

本问题已得到解决,请看以下小结: 关于《VS2022部分按键失灵》的解决方案 记录备注报错时间2024年报错版本VS2022报错复现写代码,点击删除键失灵了报错描述点击关闭提示如下: Microsoft visual studio 已检测到某个操作正在阻止用户输入。这可能是由活动模式对话框或需要阻止用户交互的任务所致。是否仍要关闭?报错截图-报错原因不详解决步骤 1.VS2022搜索键盘,点击