深度学习RNN,GRU,LSTM文本生成解码器的训练损失讲解(附代码)

本文主要是介绍深度学习RNN,GRU,LSTM文本生成解码器的训练损失讲解(附代码),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

以下以GRU为例讲解RNN作为解码器时如何根据用户、商品特征信息hidden生成评价。

解码器部分代码如下:

class GRUDecoder(nn.Module):  def __init__(self, ntoken, emsize, hidden_size):  super(GRUDecoder, self).__init__()  self.word_embeddings = nn.Embedding(ntoken, emsize)  self.gru = nn.GRU(emsize, hidden_size, batch_first=True)  self.linear = nn.Linear(hidden_size, ntoken)  self.init_weights()  def init_weights(self):  initrange = 0.1  self.word_embeddings.weight.data.uniform_(-initrange, initrange)  self.linear.weight.data.uniform_(-initrange, initrange)  self.linear.bias.data.zero_()  def forward(self, seq, hidden):  # seq: (batch_size, seq_len), hidden: (nlayers, batch_size, hidden_size)  seq_emb = self.word_embeddings(seq)  # (batch_size, seq_len, emsize)\  output, hidden = self.gru(seq_emb, hidden)  # (batch_size, seq_len, hidden_size) vs. (nlayers, batch_size, hidden_size)  decoded = self.linear(output)  # decoded shape = (batch_size, seq_len, ntoken), e.g., (256, 18, 20004)  return func.log_softmax(decoded, dim=-1), hidden

在训练时,解码器会有两个输入:一是编码器提取的用户、商品特征,二是用户对商品的评价。

评价是文字,在训练开始前已经转换成了Token ID, 比如I love this item, 每个单词会对应词典里的一个元素并配上ID,转换后就成了向量格式了[5, 64, 89, 13]。·

self.word_embeddings(seq)中的word_embedding是Token向量,它是一个矩阵,行数和词典的元素数量相同,每一行是32维度的词向量(维度是用户设定的,Word2Vec一般用200维度)。这一步像查词典,对着ID从word_embedding取第x行的向量。

output, hidden = self.gru(seq_emb, hidden)的过程如下:

  1. 初始状态设置成hidden,即从编码器提取的信息
  2. seq_emb则是评价序列,计算从左往右开始,第t个文字的计算会受到[0, t-1]文字的影响,生成output的特征用来预测t+1个文字是什么
    所以,以I love this item为例,代码的评价序列为[bos] I love this item,解码器会收到[bos] I love this,理想情况下,它应该生成I love this item.

下面的代码 体现出序列前面会加上[bos]:

def sentence_format(sentence, max_len, pad, bos, eos):  length = len(sentence)  if length >= max_len:  return [bos] + sentence[:max_len] + [eos]  else:  return [bos] + sentence + [eos] + [pad] * (max_len - length)

output对应的是生成文本的特征,它经过线性层输出20004维度的向量,第i个维度对应词典里第i个字的生成概率。

func.log_softmax(decoded, dim=-1) 先会对20004维度的向量进行Softmax计算,这样确保所有词语生成的概率相加为1,然后取对数。

text_criterion = nn.NLLLoss(ignore_index=pad_idx) # ignore the padding when computing loss是在计算取了logsoftmax的概率和真实文本概率(这是一个0/1矩阵)的差,定义如下
N L L = − y i log ⁡ y ^ i NLL=-y_i\log \hat y_i NLL=yilogy^i
因为 y i y_i yi是一个0/1矩阵,实际上NLL计算的是真实的文字预测概率 N L L = − log ⁡ y ^ i NLL=-\log \hat y_i NLL=logy^i, NLLLoss本身并不计算对数,所以需要使用log_softmax对概率取对数

文本生成的损失写成公式的形式为:
l Text = − 1 N ∑ t = 1 N log ⁡ y ^ i = − 1 N ∑ t = 1 N log ⁡ P ( y t ∣ y 1 , y 2 ⋯ y t − 1 ) l_\text{Text}=-\frac{1}{N}\sum_{t=1}^N \log \hat y_i= -\frac{1}{N}\sum_{t=1}^N \log P(y_t|y_1,y_2\cdots y_{t-1}) lText=N1t=1Nlogy^i=N1t=1NlogP(yty1,y2yt1)
N N N是文本的长度, P ( y t ∣ y 1 , y 2 ⋯ y t − 1 ) P(y_t|y_1,y_2\cdots y_{t-1}) P(yty1,y2yt1)强调的是 t t t个文字的生成只基于前面的文字。

测试的时候,编码器提取的特征已知,然后文本评价只给[bos], 每一步计算下一位文字的概率,取概率最大的(这个是贪心算法生成文本,也可以加入一些随机程度采样增加文本多样性)

这篇关于深度学习RNN,GRU,LSTM文本生成解码器的训练损失讲解(附代码)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/895507

相关文章

深度解析Java DTO(最新推荐)

《深度解析JavaDTO(最新推荐)》DTO(DataTransferObject)是一种用于在不同层(如Controller层、Service层)之间传输数据的对象设计模式,其核心目的是封装数据,... 目录一、什么是DTO?DTO的核心特点:二、为什么需要DTO?(对比Entity)三、实际应用场景解析

深度解析Java项目中包和包之间的联系

《深度解析Java项目中包和包之间的联系》文章浏览阅读850次,点赞13次,收藏8次。本文详细介绍了Java分层架构中的几个关键包:DTO、Controller、Service和Mapper。_jav... 目录前言一、各大包1.DTO1.1、DTO的核心用途1.2. DTO与实体类(Entity)的区别1

Java中调用数据库存储过程的示例代码

《Java中调用数据库存储过程的示例代码》本文介绍Java通过JDBC调用数据库存储过程的方法,涵盖参数类型、执行步骤及数据库差异,需注意异常处理与资源管理,以优化性能并实现复杂业务逻辑,感兴趣的朋友... 目录一、存储过程概述二、Java调用存储过程的基本javascript步骤三、Java调用存储过程示

Visual Studio 2022 编译C++20代码的图文步骤

《VisualStudio2022编译C++20代码的图文步骤》在VisualStudio中启用C++20import功能,需设置语言标准为ISOC++20,开启扫描源查找模块依赖及实验性标... 默认创建Visual Studio桌面控制台项目代码包含C++20的import方法。右键项目的属性:

嵌入式数据库SQLite 3配置使用讲解

《嵌入式数据库SQLite3配置使用讲解》本文强调嵌入式项目中SQLite3数据库的重要性,因其零配置、轻量级、跨平台及事务处理特性,可保障数据溯源与责任明确,详细讲解安装配置、基础语法及SQLit... 目录0、惨痛教训1、SQLite3环境配置(1)、下载安装SQLite库(2)、解压下载的文件(3)、

深度解析Python装饰器常见用法与进阶技巧

《深度解析Python装饰器常见用法与进阶技巧》Python装饰器(Decorator)是提升代码可读性与复用性的强大工具,本文将深入解析Python装饰器的原理,常见用法,进阶技巧与最佳实践,希望可... 目录装饰器的基本原理函数装饰器的常见用法带参数的装饰器类装饰器与方法装饰器装饰器的嵌套与组合进阶技巧

深度解析Spring Boot拦截器Interceptor与过滤器Filter的区别与实战指南

《深度解析SpringBoot拦截器Interceptor与过滤器Filter的区别与实战指南》本文深度解析SpringBoot中拦截器与过滤器的区别,涵盖执行顺序、依赖关系、异常处理等核心差异,并... 目录Spring Boot拦截器(Interceptor)与过滤器(Filter)深度解析:区别、实现

MySQL数据库的内嵌函数和联合查询实例代码

《MySQL数据库的内嵌函数和联合查询实例代码》联合查询是一种将多个查询结果组合在一起的方法,通常使用UNION、UNIONALL、INTERSECT和EXCEPT关键字,下面:本文主要介绍MyS... 目录一.数据库的内嵌函数1.1聚合函数COUNT([DISTINCT] expr)SUM([DISTIN

深度解析Spring AOP @Aspect 原理、实战与最佳实践教程

《深度解析SpringAOP@Aspect原理、实战与最佳实践教程》文章系统讲解了SpringAOP核心概念、实现方式及原理,涵盖横切关注点分离、代理机制(JDK/CGLIB)、切入点类型、性能... 目录1. @ASPect 核心概念1.1 AOP 编程范式1.2 @Aspect 关键特性2. 完整代码实

Java实现自定义table宽高的示例代码

《Java实现自定义table宽高的示例代码》在桌面应用、管理系统乃至报表工具中,表格(JTable)作为最常用的数据展示组件,不仅承载对数据的增删改查,还需要配合布局与视觉需求,而JavaSwing... 目录一、项目背景详细介绍二、项目需求详细介绍三、相关技术详细介绍四、实现思路详细介绍五、完整实现代码