(reading)A Hierarchical Approach for Generating Descriptive Image Paragraphs

本文主要是介绍(reading)A Hierarchical Approach for Generating Descriptive Image Paragraphs,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

作者:Jonathan Krause, Justin Johnson, Ranjay Krishna, Li Fei-Fei

(发表于CVPR2017)

(Jonathan Krause, Justin Johnson, Ranjay Krishna都是Li Fei-Fei的博士生,Jonathan Krause已经毕业,就职于Google Brain)

这篇文章提出了一种结构化模型去生成图像段落描述。

首先通过以一个3通道的图像作为输入,这里图像是被resized以使图像的边限制在720像素;

然后利用一个16层的VGG网络学习图像特征图,并以这些图像特征作为RPN的输入进行区域检测;

将检测到的区域投影到卷积特征图中,使用双线插值将特征图对应区域reshaped成为一个固定尺寸,并最终通过2个全连接层使各区域生成一个4096维的特征向量;

另外通过对所有特征进行最大池化,缩减无关信息量,保留最重要的信息;

再将池化后的区域特征向量作为层次循环网络(HRN)的输入,层次循环网络是由句子RNN和词语RNN组成,句子RNN是一个单一层的LSTM;

对于句子RNN,在每个时间步以池化后的区域向量作为输入;

通过隐含层的一个线性投影和一个逻辑回归分类器产生一个用来断定当前句子是否为最后一句的0-1分布,并通过将隐含状态放进一个两层的全连接网络,从而产生对于段落中句子的主题向量;

并以每个句子生成的主题向量作为词RNN的输入,词RNN是一个两层的LSTM,是用来生成构成句子的词语,最终将所有句子连接成一个段落。

这篇关于(reading)A Hierarchical Approach for Generating Descriptive Image Paragraphs的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/598589

相关文章

lvgl8.3.6 控件垂直布局 label控件在image控件的下方显示

在使用 LVGL 8.3.6 创建一个垂直布局,其中 label 控件位于 image 控件下方,你可以使用 lv_obj_set_flex_flow 来设置布局为垂直,并确保 label 控件在 image 控件后添加。这里是如何步骤性地实现它的一个基本示例: 创建父容器:首先创建一个容器对象,该对象将作为布局的基础。设置容器为垂直布局:使用 lv_obj_set_flex_flow 设置容器

IMAGE LIST

   CImageList就是一个容器,用来存储图片资源,方便这些资源被CListBox,CComboBox,CComboBoxEx,CTabCtrl以及CTreeCtrl,CListCtrl等使用。      要使用CImgeList首先要使用它的create函数:      一般用的比较多的是这一个函数,当然,它还有很多重载,自己可以去翻阅msdn.       BOOL

【vscode】vscode paste image插件设置

本文首发于 ❄️慕雪的寒舍 vscode编辑md文件的时候,如果想插入图片,自带的粘贴只会粘贴到当前目录下,也没有文件重命名,很不友好。 在扩展商店里面有mushan的Paste Image插件,相比自带的,更加友好一点。但是它的配置把我弄糊涂了,简单测试了一下才明白处理的逻辑。 注意,本文编写的是对mushan的Paste Image插件的教程。 首先是安装这个插件,这个不多说

pytorch时空数据处理4——图像转文本/字幕Image-Captionning(二)

pytorch时空数据处理4——图像转文本/字幕Image-Captionning(二) pytorch时空数据处理4——图像转文本/字幕Image-Captionning(二)DatasetInputs to modelCaption LengthsData pipelineEncoderAttentionDecoder代码数据集初始化 create_input_files.py训练 tr

Show,Attend and Tell: Neural Image Caption Generation with Visual Attention

简单的翻译阅读了一下 Abstract 受机器翻译和对象检测领域最新工作的启发,我们引入了一种基于注意力的模型,该模型可以自动学习描述图像的内容。我们描述了如何使用标准的反向传播技术,以确定性的方式训练模型,并通过最大化变分下界随机地训练模型。我们还通过可视化展示了模型如何能够自动学习将注视固定在显着对象上,同时在输出序列中生成相应的单词。我们通过三个基准数据集(Flickr9k,Flickr

Docker Image 命令

文章目录 目录 文章目录 1 . Docker镜像是什么? 2 . 镜像命令详解 docker images docker tag docker pull docker rmi  docker save 总结 1 . Docker镜像是什么? Docker image 本质上是一个 read-only 只读文件, 这个文件包含了文件系统、 源码、库文件、依赖、工具等一些

flutter Image

Flutter中,Image是一个用于显示图片的控件,可以显示网络图片、本地图片以及Asset中的图片。Image控件支持多种常见的图片格式,例如PNG、JPEG、GIF等。 const Image({super.key,required this.image,this.frameBuilder,this.loadingBuilder,this.errorBuilder,this.seman

C#Bitmap和Image之间的关系

Image 类 Image 是一个抽象基类,它定义了所有图像类型的共同属性和方法。它提供了图像处理的通用接口,比如获取图像的尺寸、像素格式、帧数等。Image 类本身不能被实例化,它只是提供了一个通用的框架,具体的图像类型(如位图、图标、元文件等)需要通过继承 Image 类来实现。Image 类提供了一些通用的方法,如 Save(保存图像到文件)、GetThumbnailImage(获取图像的

Image Transformation can make Neural Networks more robust against Adversarial Examples

Image Transformation can make Neural Networks more robust against Adversarial Examples 创新点 1.旋转解决误分类 总结 可以说简单粗暴有效

【HDU】4990 Reading comprehension 等比数列:两层快速幂

传送门:【HDU】4990 Reading comprehension 题目分析:首先根据题目意思可以很容易找到一个等比数列: 当n%2==1时,f(n) = 1 + 2^2 + 2^4 + ... + 2^(n-1) 当n%2==0时,f(n) = 2*f(n-1)。 接下来可以构造矩阵用矩阵快速幂求,也可以像我一样用两层快速幂求。(比赛的时候没想到用矩阵快速幂= =) 当n%2