本文主要是介绍(reading)Deep Visual-Semantic Alignments for Generating Image Descriptions,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
**作者:AK大神和李飞飞大神 **
发表于2015年的CVPR
文章概述:这篇文章提出了一个视觉语义的对齐模型用来推断图像区域与语句片段的对应关系,并将对齐好的图像区域和语句片段作为训练数据,用来训练提出的另一个多模态的RNN模型,该模型通过输入测试图像最终生成该图像的文本描述。
过程:
**视觉语义对齐模型通过构造一个结构化的目标函数,利用多模态嵌入空间来对齐视觉区域和语句片段。**
1. 首先利用一个预训练好的区域卷积神经网络(RCNN)检测图像上的物体,每个图像取前19个检测到的图像区域以及图像本身进行CNN特征提取,每个图像块的像素在分类前都转化为全连接层的4096维activations,并形成一个h×4096维的矩阵作为多模态嵌入空间的输入。
2. 然后利用双向循环神经网络(BRNN)将图像对应的描述语句中的单词序列作为输入将每个单词映射到同样的h维的多模态嵌入空间,多模态嵌入空间通过计算图像区域向量和单词向量间的內积和为视觉区域和语句片段间的对应关系进行评分,评分越高,表明其对应关系越强。
3. 多模态RNN模型是以对齐好的图像区域和语句片段作为训练数据,将测试图像经过CNN学习的向量作为输入,在第一步仅通过additive bias interactions确认图像信息上RNN的预测,之后根据当前词和之前的上下文信息来预测下一个词,不断迭代这个过程,生成所有的词,预测过程的开始和结束都用专有的向量表示,结束标识是设置的目标标签,通过梯度下降法去最小化损失函数以最大化目标函数,从而生成图像对应的文本描述。
这篇关于(reading)Deep Visual-Semantic Alignments for Generating Image Descriptions的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!