神经网络语言模型(NNLM)

2023-11-22 12:20

本文主要是介绍神经网络语言模型(NNLM),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

#1. 模型原理
用神经网络来训练语言模型的思想最早由百度 IDL (深度学习研究院)的徐伟提出[1],其中这方面的一个经典模型是NNLM(Nerual Network Language Model),具体内容可参考 Bengio 2003年发表在JMLR上的论文[2]

模型的训练数据是一组词序列$ w_{1 } . . . ... ...w_{T} , , ,w_{t} \in V$。其中 V V V 是所有单词的集合(即词典), V i V_{i} Vi 表示字典中的第 i 个单词。NNLM的目标是训练如下模型:

  • f ( w t , w t − 1 , . . . , w t − n + 2 , w t − n + 1 ) = p ( w t ∣ w 1 t − 1 ) f(w_{t},w_{t-1},...,w_{t-n+2}, w_{t-n+1})=p(w_{t} | {w_{1}}^{t-1}) f(wt,wt1,...,wtn+2,wtn+1)=p(wtw1t1)

其中 w t w_{t} wt表示词序列中第 t t t 个单词, w 1 t − 1 {w_{1}}^{t-1} w1t1表示从第1个词到第 t t t 个词组成的子序列。模型需要满足的约束条件是:

  • f ( w t , w t − 1 , . . . , w t − n + 2 , w t − n + 1 ) > 0 f(w_{t},w_{t-1},...,w_{t-n+2}, w_{t-n+1}) > 0 f(wt,wt1,...,wtn+2,wtn+1)>0

  • ∑ i = 1 ∣ V ∣ f ( i , w t − 1 , . . . , w t − n + 2 , w t − n + 1 ) = 1 \sum_{i=1}^{|V|}f(i,w_{t-1},...,w_{t-n+2}, w_{t-n+1}) =1 i=1Vf(i,wt1,...,wtn+2,wtn+1)=1

下图展示了模型的总体架构:

图片名称

该模型可分为特征映射计算条件概率分布两部分:

  1. 特征映射:通过映射矩阵 C ∈ R ∣ V ∣ × m C \in R^{|V|×m} CRV×m 将输入的每个词映射为一个特征向量, C ( i ) ∈ R m C(i) \in R^{m} C(i)Rm表示词典中第 i 个词对应的特征向量,其中 m m m 表示特征向量的维度。该过程将通过特征映射得到的 C ( w t − n + 1 ) , . . . , C ( w t − 1 ) C(w_{t-n+1}),...,C(w_{t-1}) C(wtn+1),...,C(wt1) 合并成一个 ( n − 1 ) m (n-1)m (n1)m 维的向量: ( C ( w t − n + 1 ) , . . . , C ( w t − 1 ) ) (C(w_{t-n+1}),...,C(w_{t-1})) (C(wtn+1),...,C(wt1))

  2. 计算条件概率分布:通过一个函数 g g g g g g 是前馈或递归神经网络)将输入的词向量序列 ( C ( w t − n + 1 ) , . . . , C ( w t − 1 ) ) (C(w_{t-n+1}),...,C(w_{t-1})) (C(wtn+1),...,C(wt1)) 转化为一个概率分布 y ∈ R ∣ V ∣ y \in R^{|V|} yRV ,$y $ 中第 i 位表示词序列中第 t 个词是 V i V_{i} Vi 的概率,即:

  • f ( i , w t − 1 , . . . , w t − n + 2 , w t − n + 1 ) = g ( i , C ( w t − n + 1 ) , . . . , C ( w t − 1 ) ) f(i,w_{t-1},...,w_{t-n+2}, w_{t-n+1})= g(i,C(w_{t-n+1}),...,C(w_{t-1})) f(i,wt1,...,wtn+2,wtn+1)=g(i,C(wtn+1),...,C(wt1))

下面重点介绍神经网络的结构,网络输出层采用的是softmax函数,如下式所示:

  • p ( w t ∣ w t − 1 , . . . , w t − n + 2 , w t − n + 1 ) = e y w t ∑ i e y i p(w_{t}|w_{t-1},...,w_{t-n+2}, w_{t-n+1}) = \frac{ e^{y_{w_{t}}} }{ \sum_{i}^{ }e^{y_{i}} } p(wtwt1,...,wtn+2,wtn+1)=ieyieywt

其中 y = b + W x + U t a n h ( d + H x ) y = b +Wx + Utanh(d + Hx) y=b+Wx+Utanh(d+Hx),模型的参数 θ = ( b , d , W , U , H , C ) \theta = (b,d,W,U,H,C) θ=(bdWUHC) x = ( C ( w t − n + 1 ) , . . . , C ( w t − 1 ) ) x=(C(w_{t-n+1}),...,C(w_{t-1})) x=(C(wtn+1),...,C(wt1)) 是神经网络的输入。 W ∈ R ∣ V ∣ × ( n − 1 ) m W \in R^{|V|×(n-1)m} WRV×(n1)m是可选参数,如果输入层与输出层没有直接相连(如图中绿色虚线所示),则可令 W = 0 W = 0 W=0 H ∈ R h × ( n − 1 ) m H \in R^{h×(n-1)m} HRh×(n1)m是输入层到隐含层的权重矩阵,其中 h h h表示隐含层神经元的数目。 U ∈ R ∣ V ∣ × h U \in R^{|V|×h} URV×h是隐含层到输出层的权重矩阵。 d ∈ R h d\in R^{h} dRh b ∈ R ∣ V ∣ b \in R^{|V|} bRV分别是隐含层和输出层的偏置参数。

**需要注意的是:**一般的神经网络模型不需要对输入进行训练,而该模型中的输入 x = ( C ( w t − n + 1 ) , . . . , C ( w t − 1 ) ) x=(C(w_{t-n+1}),...,C(w_{t-1})) x=(C(wtn+1),...,C(wt1)) 是词向量,也是需要训练的参数。由此可见模型的权重参数与词向量是同时进行训练,模型训练完成后同时得到网络的权重参数和词向量。

#2. 训练过程
模型的训练目标是最大化以下似然函数:

  • L = 1 T ∑ t l o g f ( w t , w t − 1 , . . . , w t − n + 2 , w t − n + 1 ; θ ) + R ( θ ) L=\frac{1}{T} \sum_{t}^{ } logf(w_{t},w_{t-1},...,w_{t-n+2}, w_{t-n+1}; \theta) + R(\theta) L=T1tlogf(wt,wt1,...,wtn+2,wtn+1;θ)+R(θ) ,其中 θ \theta θ为模型的所有参数, R ( θ ) R(\theta) R(θ)为正则化项

使用梯度下降算法更新参数的过程如下:

  • θ ← θ + ϵ ∂ l o g p ( w t ∣ w t − 1 , . . . , w t − n + 2 , w t − n + 1 ) ∂ θ \theta \leftarrow \theta +\epsilon \frac{\partial logp(w_{t}|w_{t-1},...,w_{t-n+2}, w_{t-n+1}) }{\partial \theta} θθ+ϵθlogp(wtwt1,...,wtn+2,wtn+1) ,其中 $\epsilon $为步长。
    #3. 参考资料
    [1] Can Artificial Neural Networks Learn Language Models?
    [2] A Neural Probabilistic Language Model
    http://blog.sina.com.cn/s/blog_66a6172c0102v1zb.html

这篇关于神经网络语言模型(NNLM)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/410103

相关文章

C语言线程池的常见实现方式详解

《C语言线程池的常见实现方式详解》本文介绍了如何使用C语言实现一个基本的线程池,线程池的实现包括工作线程、任务队列、任务调度、线程池的初始化、任务添加、销毁等步骤,感兴趣的朋友跟随小编一起看看吧... 目录1. 线程池的基本结构2. 线程池的实现步骤3. 线程池的核心数据结构4. 线程池的详细实现4.1 初

Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)

《Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)》:本文主要介绍Python基于火山引擎豆包大模型搭建QQ机器人详细的相关资料,包括开通模型、配置APIKEY鉴权和SD... 目录豆包大模型概述开通模型付费安装 SDK 环境配置 API KEY 鉴权Ark 模型接口Prompt

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

科研绘图系列:R语言扩展物种堆积图(Extended Stacked Barplot)

介绍 R语言的扩展物种堆积图是一种数据可视化工具,它不仅展示了物种的堆积结果,还整合了不同样本分组之间的差异性分析结果。这种图形表示方法能够直观地比较不同物种在各个分组中的显著性差异,为研究者提供了一种有效的数据解读方式。 加载R包 knitr::opts_chunk$set(warning = F, message = F)library(tidyverse)library(phyl

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言