本文主要是介绍Show attend and Tell模型,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
改进
- 对之前Show and Tell模型的衍生,多了一个attend ,加入了一个attention机制 (一种加权机制)
- 卷积神经网络从全连接层改成了卷积层hadow_50,text_Q1NETiBA54mn576KTEw=,size_20,color_FFFFFF,t_70,g_se,x_16)。通过卷积层,可以得到一个照片的位置信息(通过卷积核的视野域,确定信息在矩阵的位置)
- 卷积网络对卷积层做了多通道输出
得到一个多通道的向量输出,不同通道的相同位置得到一个向量,得到14*14个向量。通过attention加权求和,最后得到一个不同位置的加权和
加权机制
卷积层为14 * 14 * 256 表示 每个通道大小为1414,总过有256个通道
通道中同一个位置的通道数都拿出来,作为一个向量(256,1),就会有1414个向量
加上ht-1是为了让每一步的计算都是不一样的,因为ai是不变的,ht-1是LSTM模型的输出
计算出每一个向量对应的e之后用所有的eti计算arf
这篇关于Show attend and Tell模型的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!