【新手也能读懂的超详细论文解读】Show and Tell: A Neural Image Caption Generator

本文主要是介绍【新手也能读懂的超详细论文解读】Show and Tell: A Neural Image Caption Generator,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Show and Tell: A Neural Image Caption Generator

  • 前言(与论文无关)
  • 简介
  • 模型
  • 总结

前言(与论文无关)

最近事情比较多,除了考试还有导师布置的任务,还有几门考试,当然还要花时间打游戏,所以呢没有时间每天都更新。不过我还是希望不要颓废,这个定时看论文写笔记的习惯要好好保持。那就决定以后每周会固定更新两篇,空闲时间多的话会再多写。封锁在学校里最大的影响就是没法练琴了,啊啊啊啊好想谈琴啊!!!

简介

这同样是cvpr 2015的一篇文章,也是师姐叮嘱专门读的一篇。这篇读完可以算是对图像描述这个方向有个大体的了解,里面所使用的编码-解码的结构甚至到现在都是很实用的,后来的大多数这方面的文章都是在该模型的基础上进行的优化改良。

文章开篇就讲,这篇论文将最近比较火的计算机视觉和机器翻译两个领域融合起来,从而有了这个模型。图像描述比目标检测和图像分类更加难一点,因为好的描述不仅仅要抓住图像中的客观物体,更要表述出这些目标之间的关系。不仅如此,还得考虑语义,不同的语言还得考虑语法。

那个时候现有的办法都是讲解决上述每个子问题的方法合在一起来生成图像描述,而这篇论文则首次提出用一个模型来解决所有的问题,俗称一步到胃(狗头)。

这篇论文的几个创新点(原文):

  • First, we present an end-to-end system for the problem. It is a neural net which is fully trainable using stochastic gradient descent.
    提出了一个 Neural Image Caption(NIC)模型来生成图像描述,该模型的优化目标可以使用梯度下降来训练。

  • Second, our model combines state-of-art sub-networks for vision and language models. These can be pre-trained on larger corpora and thus can take advantage of additional data.
    该模型结合了现有的一些用于视觉和语言模型的最新子网,所以可以保证有足够的数据来进行预训练。

  • Finally, it yields significantly better performance compared to state-of-the-art approaches.
    最后呢,当然是每篇论文都有的话,只不过这篇说的更拽一点:我们的模型优于现有的所有模型。

模型

这个模型的意思呢就是参考机器翻译那样,把图像编码成一种可以用来表示主要特征的机器语言,然后再讲该语言像中英文翻译的那种方法来“翻译”出来,从而形成图像描述。我们可以通过以下公式最大化生成单词的概率:
在这里插入图片描述
其中cita是模型的参数,I代表输入图像,S是图像的正确描述。由于S的长度是不固定的,所以我们需要用链式法则来求联合概率分布,公式则变为:
在这里插入图片描述
在训练时,(S,I)是一组训练数据,同时在训练过程中使用随机梯度下降对第二个公式进行优化。自然而然地我们可以用RNN为概率p(St|I,S0,…,St−1) 进行建模,其中不同地单词用固定长度的隐藏状态或者记忆ht来表示。其中ht是在收到一个输入Xt之后通过一个非线性函数变换得到:
在这里插入图片描述
要是的这个RNN更加具体我们需要关注这两个问题:函数f的具体形式是什么?图像和单词是如何变为输入Xt的?

我想这个在前面介绍里面已经或多或少的提到过了。函数f是解码环节的LSTM模型,而Xt的形成则是编码环节的CNN。而整体的模型是这个亚子的:
在这里插入图片描述
值得一提的是LSTM在第t-1时间步产生的输出St-1会再带入到第t时间步中去,这其实算是LSTM的一个特性吧。文章中还花了大篇幅讲解LSTM模型的原理,这里我就不多赘述。总之,模型展开是这样的:
在这里插入图片描述
我们的损失是每一步正确单词的负对数似然之和,如下所示:
在这里插入图片描述

总结

这篇文章提出了一个可以自动查看图像并以简单的英语生成合理描述的端到端神经网络系统,称之为NIC。这个模型在后面读其他图像描述模型时会经常出现。NIC由一个CNN来对图像进行编码,以及LSTM进行解码的模型。该模型的优化目标为最大化给定图像产生句子的似然。从这些实验中可以清楚地看出,随着可用的图像描述数据集的大小增加,NIC等方法的性能也会提高。 此外,有趣的是,人们将如何使用无监督数据(无论是单独的图像还是单独的文本)来改善图像描述方法。

这篇关于【新手也能读懂的超详细论文解读】Show and Tell: A Neural Image Caption Generator的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/583977

相关文章

VMware9.0详细安装

双击VMware-workstation-full-9.0.0-812388.exe文件: 直接点Next; 这里,我选择了Typical(标准安装)。 因为服务器上只要C盘,所以我选择安装在C盘下的vmware文件夹下面,然后点击Next; 这里我把√取消了,每次启动不检查更新。然后Next; 点击Next; 创建快捷方式等,点击Next; 继续Cont

(超详细)YOLOV7改进-Soft-NMS(支持多种IoU变种选择)

1.在until/general.py文件最后加上下面代码 2.在general.py里面找到这代码,修改这两个地方 3.之后直接运行即可

Java注解详细总结

什么是注解?         Java注解是代码中的特殊标记,比如@Override、@Test等,作用是:让其他程序根据注解信息决定怎么执行该程序。         注解不光可以用在方法上,还可以用在类上、变量上、构造器上等位置。 自定义注解  现在我们自定义一个MyTest注解 public @interface MyTest{String aaa();boolean bbb()

气象站的种类和应用范围可以根据不同的分类标准进行详细的划分和描述

气象站的种类和应用范围可以根据不同的分类标准进行详细的划分和描述。以下是从不同角度对气象站的种类和应用范围的介绍: 一、气象站的种类 根据用途和安装环境分类: 农业气象站:专为农业生产服务,监测土壤温度、湿度等参数,为农业生产提供科学依据。交通气象站:用于公路、铁路、机场等交通场所的气象监测,提供实时气象数据以支持交通运营和调度。林业气象站:监测林区风速、湿度、温度等气象要素,为林区保护和

基于Java医院药品交易系统详细设计和实现(源码+LW+调试文档+讲解等)

💗博主介绍:✌全网粉丝10W+,CSDN作者、博客专家、全栈领域优质创作者,博客之星、平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌💗 🌟文末获取源码+数据库🌟 感兴趣的可以先收藏起来,还有大家在毕设选题,项目以及论文编写等相关问题都可以给我留言咨询,希望帮助更多的人  Java精品实战案例《600套》 2023-2025年最值得选择的Java毕业设计选题大全:1000个热

1_Image和Matrix的使用

参考博文: https://www.cnblogs.com/bomo/archive/2013/03/28/2986573.html

Java反射详细总结

什么是反射?         反射,指的是加载类的字节码到内存,并以编程的方法解刨出类中的各个成分(成员变量、方法、构造器等)。         反射获取的是类的信息,那么反射的第一步首先获取到类才行。由于Java的设计原则是万物皆对象,获取到的类其实也是以对象的形式体现的,叫字节码对象,用Class类来表示。获取到字节码对象之后,再通过字节码对象就可以获取到类的组成成分了,这些组成成分其实也

如何给文档设置密码?电脑文件安全加密的详细操作步骤(10种方法)

在数字化时代,电脑文件的安全和隐私至关重要。通过给电脑的文件或者文件夹设置密码和加密,可以有效保护你的重要文件不被未经授权的人员访问,特别是公司的重要岗位,一些特殊的机密文件,投标文件,资金文件等等,更应该注重文件日常使用安全性。下面将为你介绍10种电脑文件,文件夹加密的详细操作步骤,帮助你更好地保护你的电脑文件安全。 加密方式一、Windows系统内置加密(电脑自带的文件加密) 选中需要

okhttp3的详细介绍

这篇文章说下OkHttp的基本用法,是最新的3哦,如果你曾经在网上搜索OkHttp怎么使用发现有些类没有了可能是因为人家说的是2。首先说下OkHttp3是Java和Android都能用,Android还有一个著名网络库叫Volley,那个只有Android能用。导入自己到入jar包,别漏了okio:okhttp-3.3.0.jarokio-1.8.0.jarmaven方式:<dependen

Retrofit详细介绍

转载请标明出处:http://blog.csdn.net/xx326664162/article/details/51910837 文章出自:薛瑄的博客 你也可以查看我的其他同类文章,也会让你有一定的收货! 一、Retrofit 是什么? Retrofit is a type-safe HTTP client for Android and java. Retrofit 是与 Web 服务器提