(reading)A Hierarchical Approach for Generating Descriptive Image Paragraphs

本文主要是介绍(reading)A Hierarchical Approach for Generating Descriptive Image Paragraphs,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

作者:Jonathan Krause, Justin Johnson, Ranjay Krishna, Li Fei-Fei

(发表于CVPR2017)

(Jonathan Krause, Justin Johnson, Ranjay Krishna都是Li Fei-Fei的博士生,Jonathan Krause已经毕业,就职于Google Brain)

这篇文章提出了一种结构化模型去生成图像段落描述。

首先通过以一个3通道的图像作为输入,这里图像是被resized以使图像的边限制在720像素;

然后利用一个16层的VGG网络学习图像特征图,并以这些图像特征作为RPN的输入进行区域检测;

将检测到的区域投影到卷积特征图中,使用双线插值将特征图对应区域reshaped成为一个固定尺寸,并最终通过2个全连接层使各区域生成一个4096维的特征向量;

另外通过对所有特征进行最大池化,缩减无关信息量,保留最重要的信息;

再将池化后的区域特征向量作为层次循环网络(HRN)的输入,层次循环网络是由句子RNN和词语RNN组成,句子RNN是一个单一层的LSTM;

对于句子RNN,在每个时间步以池化后的区域向量作为输入;

通过隐含层的一个线性投影和一个逻辑回归分类器产生一个用来断定当前句子是否为最后一句的0-1分布,并通过将隐含状态放进一个两层的全连接网络,从而产生对于段落中句子的主题向量;

并以每个句子生成的主题向量作为词RNN的输入,词RNN是一个两层的LSTM,是用来生成构成句子的词语,最终将所有句子连接成一个段落。

这篇关于(reading)A Hierarchical Approach for Generating Descriptive Image Paragraphs的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/598589

相关文章

1_Image和Matrix的使用

参考博文: https://www.cnblogs.com/bomo/archive/2013/03/28/2986573.html

nginx 8051#0: *4 recv() failed (104: Connection reset by peer) while reading response header from u

环境    php7   nginx1.8.0    nginx   报错  500  GATWAY网关错误 2017/08/28 10:45:42 [error] 7975#0: *333 recv() failed (104: Connection reset by peer) while reading response header from upstream, clien

【QML】用 Image(QQuickPaintedItem) 显示图片

大体功能: 频繁地往界面推送图片,帧率达到视频效果。捕获画布上的鼠标事件和键盘事件。 代码如下: // DrawImageInQQuickPaintedItem.pro 代码如下:QT += quick# You can make your code fail to compile if it uses deprecated APIs.# In order to do so, uncom

SLAM Paper Reading和代码解析

最近对VINS、LIO-SAM等重新进行了Paper Reading和代码解析。这两篇paper和代码大约在三年前就读过,如今重新读起来,仍觉得十分经典,对SLAM算法研发具有十分重要的借鉴和指导意义。重新来读,对其中的一些关键计算过程也获得了更新清晰的了解,现整理分享出来,供有需要的同学参考。 VINS-MONO算法总结-徐胜攀.pdf资源-CSDN文库 对VINS-MONO的算法框架进

面试:关于word2vec的相关知识点Hierarchical Softmax和NegativeSampling

1、为什么需要Hierarchical Softmax和Negative Sampling 从输入层到隐含层需要一个维度为N×K的权重矩阵,从隐含层到输出层又需要一个维度为K×N的权重矩阵,学习权重可以用反向传播算法实现,每次迭代时将权重沿梯度更优的方向进行一小步更新。但是由于Softmax激活函数中存在归一化项的缘故,推导出来的迭代公式需要对词汇表中的所有单词进行遍历,使得每次迭代过程非常缓慢

GIM: Learning Generalizable Image Matcher From Internet Videos

【引用格式】:Shen X, Yin W, Müller M, et al. GIM: Learning Generalizable Image Matcher From Internet Videos[C]//The Twelfth International Conference on Learning Representations. 2023. 【网址】:https://arxiv.or

U-Net for Image Segmentation

1.Unet for Image Segmentation 笔记来源:使用Pytorch搭建U-Net网络并基于DRIVE数据集训练(语义分割) 1.1 DoubleConv (Conv2d+BatchNorm2d+ReLU) import torchimport torch.nn as nnimport torch.nn.functional as F# nn.Sequential

微信小程序-获取swiper-item中image的值(item-id)

滑过一个图片获取该图片的id,或者打印其他的item值 只需要加:item-id="{{item.id}}" <swiper bindchange="swiperchange"><block wx:for="{{photos}}" wx:key='{{item.id}}'><swiper-item item-id="{{item.id}}"><image src='{{item.url}

PHPWord 又拍云图片导出被识别为 image/webp 无法导出的问题

1.解决办法读取图片转jpg 存储在windows 临时目录中,然后读取图片 if (!empty($v['goods_img'])) {foreach ($v['goods_img'] as $imgs) {if (!empty($imgs)) {$imageUrl = trim('http://cdn.wowo.com' . '/' . $imgs . '!/fh/100');$image

Android开发系列(五)Jetpack Compose之Icon Image

Icon是用于在界面上显示矢量图标的组件。它提供了很多内置的矢量图标,也支持自定义图标。要使用Icon组件,可以通过指定图标资源的名称或引用来创建一个Icon对象。例如,使用Icons.Default.Home来创建一个默认风格的首页图标。可以通过设置图标的大小、颜色、和点击事件等属性来自定义Icon的外观和行为。     Image是用于在界面上显示位图图像的组件。它支持从本地资源、网络