alignments专题

【翻译】Deep Visual-Semantic Alignments for Generating Image Descriptions

用于生成图像描述的深度视觉语义对齐摘要：我们提出了一个模型，该模型生成图像及其区域的自然语言描述。我们的方法利用图像数据集及其句子描述来了解语言和视觉数据之间的模态对应关系。我们的对齐模型基于图像区域上的卷积神经网络，句子上的双向递归神经网络以及通过多模态嵌入将两种模态对齐的结构化目标的新颖组合。然后，我们描述一种多模态递归神经网络架构，该架构使用推断的路线来学习生成图像区域的新颖描述。

Deep Visual-Semantic Alignments for Generating Image Descriptions 翻译

Abstract摘要We present a model that generates natural language descriptions of images and their regions. 我们提出一个模型来生成图像及其区域的自然语言描述。Our approach leverages datasets of images and their sentence descripti

(reading)Deep Visual-Semantic Alignments for Generating Image Descriptions

**作者：AK大神和李飞飞大神 ** 发表于2015年的CVPR 文章概述：这篇文章提出了一个视觉语义的对齐模型用来推断图像区域与语句片段的对应关系，并将对齐好的图像区域和语句片段作为训练数据，用来训练提出的另一个多模态的RNN模型，该模型通过输入测试图像最终生成该图像的文本描述。过程： **视觉语义对齐模型通过构造一个结构化的目标函数，利用多模态嵌入空间来对齐视觉区域和语句片段。

02.Deep Visual-Semantic Alignments for Generating Image Descriptions

目录前言泛读摘要IntroductionRelated Work小结精读Model3.1 学习对齐视觉与语言数据图片表征句子表征对齐目标损失函数解码文本片段对齐图像 MRNN生成描述优化实验结论代码前言本课程来自深度之眼《多模态》训练营，部分截图来自课程视频。文章标题：Deep Visual-Semantic Alignments for Generating Im