深度学习RNN,GRU,LSTM文本生成解码器的训练损失讲解(附代码)

本文主要是介绍深度学习RNN,GRU,LSTM文本生成解码器的训练损失讲解(附代码),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

以下以GRU为例讲解RNN作为解码器时如何根据用户、商品特征信息hidden生成评价。

解码器部分代码如下:

class GRUDecoder(nn.Module):  def __init__(self, ntoken, emsize, hidden_size):  super(GRUDecoder, self).__init__()  self.word_embeddings = nn.Embedding(ntoken, emsize)  self.gru = nn.GRU(emsize, hidden_size, batch_first=True)  self.linear = nn.Linear(hidden_size, ntoken)  self.init_weights()  def init_weights(self):  initrange = 0.1  self.word_embeddings.weight.data.uniform_(-initrange, initrange)  self.linear.weight.data.uniform_(-initrange, initrange)  self.linear.bias.data.zero_()  def forward(self, seq, hidden):  # seq: (batch_size, seq_len), hidden: (nlayers, batch_size, hidden_size)  seq_emb = self.word_embeddings(seq)  # (batch_size, seq_len, emsize)\  output, hidden = self.gru(seq_emb, hidden)  # (batch_size, seq_len, hidden_size) vs. (nlayers, batch_size, hidden_size)  decoded = self.linear(output)  # decoded shape = (batch_size, seq_len, ntoken), e.g., (256, 18, 20004)  return func.log_softmax(decoded, dim=-1), hidden

在训练时,解码器会有两个输入:一是编码器提取的用户、商品特征,二是用户对商品的评价。

评价是文字,在训练开始前已经转换成了Token ID, 比如I love this item, 每个单词会对应词典里的一个元素并配上ID,转换后就成了向量格式了[5, 64, 89, 13]。·

self.word_embeddings(seq)中的word_embedding是Token向量,它是一个矩阵,行数和词典的元素数量相同,每一行是32维度的词向量(维度是用户设定的,Word2Vec一般用200维度)。这一步像查词典,对着ID从word_embedding取第x行的向量。

output, hidden = self.gru(seq_emb, hidden)的过程如下:

  1. 初始状态设置成hidden,即从编码器提取的信息
  2. seq_emb则是评价序列,计算从左往右开始,第t个文字的计算会受到[0, t-1]文字的影响,生成output的特征用来预测t+1个文字是什么
    所以,以I love this item为例,代码的评价序列为[bos] I love this item,解码器会收到[bos] I love this,理想情况下,它应该生成I love this item.

下面的代码 体现出序列前面会加上[bos]:

def sentence_format(sentence, max_len, pad, bos, eos):  length = len(sentence)  if length >= max_len:  return [bos] + sentence[:max_len] + [eos]  else:  return [bos] + sentence + [eos] + [pad] * (max_len - length)

output对应的是生成文本的特征,它经过线性层输出20004维度的向量,第i个维度对应词典里第i个字的生成概率。

func.log_softmax(decoded, dim=-1) 先会对20004维度的向量进行Softmax计算,这样确保所有词语生成的概率相加为1,然后取对数。

text_criterion = nn.NLLLoss(ignore_index=pad_idx) # ignore the padding when computing loss是在计算取了logsoftmax的概率和真实文本概率(这是一个0/1矩阵)的差,定义如下
N L L = − y i log ⁡ y ^ i NLL=-y_i\log \hat y_i NLL=yilogy^i
因为 y i y_i yi是一个0/1矩阵,实际上NLL计算的是真实的文字预测概率 N L L = − log ⁡ y ^ i NLL=-\log \hat y_i NLL=logy^i, NLLLoss本身并不计算对数,所以需要使用log_softmax对概率取对数

文本生成的损失写成公式的形式为:
l Text = − 1 N ∑ t = 1 N log ⁡ y ^ i = − 1 N ∑ t = 1 N log ⁡ P ( y t ∣ y 1 , y 2 ⋯ y t − 1 ) l_\text{Text}=-\frac{1}{N}\sum_{t=1}^N \log \hat y_i= -\frac{1}{N}\sum_{t=1}^N \log P(y_t|y_1,y_2\cdots y_{t-1}) lText=N1t=1Nlogy^i=N1t=1NlogP(yty1,y2yt1)
N N N是文本的长度, P ( y t ∣ y 1 , y 2 ⋯ y t − 1 ) P(y_t|y_1,y_2\cdots y_{t-1}) P(yty1,y2yt1)强调的是 t t t个文字的生成只基于前面的文字。

测试的时候,编码器提取的特征已知,然后文本评价只给[bos], 每一步计算下一位文字的概率,取概率最大的(这个是贪心算法生成文本,也可以加入一些随机程度采样增加文本多样性)

这篇关于深度学习RNN,GRU,LSTM文本生成解码器的训练损失讲解(附代码)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/895507

相关文章

使用Redis实现会话管理的示例代码

《使用Redis实现会话管理的示例代码》文章介绍了如何使用Redis实现会话管理,包括会话的创建、读取、更新和删除操作,通过设置会话超时时间并重置,可以确保会话在用户持续活动期间不会过期,此外,展示了... 目录1. 会话管理的基本概念2. 使用Redis实现会话管理2.1 引入依赖2.2 会话管理基本操作

Python自动化提取多个Word文档的文本

《Python自动化提取多个Word文档的文本》在日常工作和学习中,我们经常需要处理大量的Word文档,本文将深入探讨如何利用Python批量提取Word文档中的文本内容,帮助你解放生产力,感兴趣的小... 目录为什么需要批量提取Word文档文本批量提取Word文本的核心技术与工具安装 Spire.Doc

mybatis-plus分表实现案例(附示例代码)

《mybatis-plus分表实现案例(附示例代码)》MyBatis-Plus是一个MyBatis的增强工具,在MyBatis的基础上只做增强不做改变,为简化开发、提高效率而生,:本文主要介绍my... 目录文档说明数据库水平分表思路1. 为什么要水平分表2. 核心设计要点3.基于数据库水平分表注意事项示例

Nginx服务器部署详细代码实例

《Nginx服务器部署详细代码实例》Nginx是一个高性能的HTTP和反向代理web服务器,同时也提供了IMAP/POP3/SMTP服务,:本文主要介绍Nginx服务器部署的相关资料,文中通过代码... 目录Nginx 服务器SSL/TLS 配置动态脚本反向代理总结Nginx 服务器Nginx是一个‌高性

HTML5的input标签的`type`属性值详解和代码示例

《HTML5的input标签的`type`属性值详解和代码示例》HTML5的`input`标签提供了多种`type`属性值,用于创建不同类型的输入控件,满足用户输入的多样化需求,从文本输入、密码输入、... 目录一、引言二、文本类输入类型2.1 text2.2 password2.3 textarea(严格

JAVA项目swing转javafx语法规则以及示例代码

《JAVA项目swing转javafx语法规则以及示例代码》:本文主要介绍JAVA项目swing转javafx语法规则以及示例代码的相关资料,文中详细讲解了主类继承、窗口创建、布局管理、控件替换、... 目录最常用的“一行换一行”速查表(直接全局替换)实际转换示例(JFramejs → JavaFX)迁移建

Go异常处理、泛型和文件操作实例代码

《Go异常处理、泛型和文件操作实例代码》Go语言的异常处理机制与传统的面向对象语言(如Java、C#)所使用的try-catch结构有所不同,它采用了自己独特的设计理念和方法,:本文主要介绍Go异... 目录一:异常处理常见的异常处理向上抛中断程序恢复程序二:泛型泛型函数泛型结构体泛型切片泛型 map三:文

Java使用Spire.Barcode for Java实现条形码生成与识别

《Java使用Spire.BarcodeforJava实现条形码生成与识别》在现代商业和技术领域,条形码无处不在,本教程将引导您深入了解如何在您的Java项目中利用Spire.Barcodefor... 目录1. Spire.Barcode for Java 简介与环境配置2. 使用 Spire.Barco

SQL Server中行转列方法详细讲解

《SQLServer中行转列方法详细讲解》SQL行转列、列转行可以帮助我们更方便地处理数据,生成需要的报表和结果集,:本文主要介绍SQLServer中行转列方法的相关资料,需要的朋友可以参考下... 目录前言一、为什么需要行转列二、行转列的基本概念三、使用PIVOT运算符进行行转列1.创建示例数据表并插入数

C++,C#,Rust,Go,Java,Python,JavaScript的性能对比全面讲解

《C++,C#,Rust,Go,Java,Python,JavaScript的性能对比全面讲解》:本文主要介绍C++,C#,Rust,Go,Java,Python,JavaScript性能对比全面... 目录编程语言性能对比、核心优势与最佳使用场景性能对比表格C++C#RustGoJavapythonjav