NLP学习06_评估语言模型smoothing

2024-04-09 12:48

本文主要是介绍NLP学习06_评估语言模型smoothing,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

估计语言模型的概率

Unigram

首先统计语料库中所有的单词个数,然后统计每个单词出现的概率,
计算整句的概率
但是这种LM中,如果一个句子中的单词在语料库中没有出现,那么这个词的概率为0,这就导致整个句子概率为0
这显然是不合适的,用到一个平滑操作,使得虽然概率很小,但是不让它为0
在这里插入图片描述

Bigram

除了第一个单词的概率要通过Unigram计算,其他后边都是条件概率,要先在语料库找到条件词出现的个数
然后看这个条件词后跟目标词的个数,统计出概率相乘
在这里插入图片描述

N-gram

在这里插入图片描述
由上可知,这种N-gram的语言模型总是会出现某一个单词或者单词序列没有而导致整个句子的概率为0 的情况

评估语言模型

在一个任务上进行模型评估,必须将整个系统实现,然后才能计算准确率,这个过程是很耗时的
在这里插入图片描述
所以考虑先对模型进行评估,然后在用到任务上,
在任务外进行评估,具有公平性,而且可以跟很多模型比较

Perplexity:用来评估模型

在这里插入图片描述
在一个已经训练好的LM中
计算P,然后计算logP,求和,再平均,得到的结果就是x,把x代到公式perplexity = 2^-x
得到perplexity
在这里插入图片描述
不同应用场景使用的评估方法不同
在这里插入图片描述
在上边的测试结果中,Trigram的perplexity最小,所以模型最好
N-gram,N越大,模型越复杂, 越倾向于过拟合

平滑smoothing

在这里插入图片描述
由于某一个概率为0,导致整个句子的概率为0,这样导致不同语法的句子表现不出区别,所以要使用平滑的技术

平滑分为不同的方法

在这里插入图片描述
MLE:最大似然估计

add-one smoothing

也叫拉普拉斯平滑项
之前我们计算的基于前一个词的概率是最大似然估计,可能会出现概率为0,
但是平滑处理就是要给他加一个很小的概率
分子上加1,分母上加V,V即词典的大小(排除重复的单词)
在这里插入图片描述
在这里插入图片描述
之所以在分母位置加V,目的是所有的可能项平滑操作后的概率之和为1

add-K smoothing

K=1时就是add-one
这个K的值可以自己去调试,也可以通过训练得到
在这里插入图片描述
K的选择,可以通过尝试来确定,也可以通过优化的方法确定
在这里插入图片描述
比如我们在训练集已经得到LM,也就是知道词的概率,然后用到验证集上,就可以得到perplexity关于f(k)的函数
因为perplexity是越小,模型越好,所以我们找perplexity最小时的K,就是我们想要的K

平滑方法三:Interpolation

问题:当使用Trigram LM时,由于in the 没有在训练集中出现,所以导致两个条件概率都是0,但是根据实际经验,在训练集中,kitchen出现的概率是大于arboretum的,那么条件概率也应该有相同的判断。而且也不能保证在以后的语料库不会出现in the这个词
为解决这一问题,提出interpolation
在使用Trigram LM时,要同时去考虑Unigram和Bigram中的出现的频次
在这里插入图片描述
在这里插入图片描述
综合考虑LM ,给Unigram,Bigram,Trigram进行一个加权,三个都要考虑到
但是要保证权重和为1

平滑方法四:good-turning soomthing

在这里插入图片描述
Nc :表示出现c次的单词个数
在这里插入图片描述
在这里插入图片描述
下表前两列表示统计一个词典库中单词数量从0-出现20次的单词个数,
第三列是根据good-turning来计算的一个单词出现的概率
第四列是在实际的测试集中统计的单词出现概率,会发现使用good-turning推测的概率和实际概率很接近。
说明这种平滑方法的实用性
在这里插入图片描述
这种方法存在一个问题:在计算出现c次单词再出现的概率时,依赖于于出现c+1次单词的概率,但是如果没有后一项或者说后一项出现c+1次单词的个数是0,那么前一项计算结果概率就成了0.
所以这里我们会使用线性回归的方式确定一条平滑的曲线,这样那些出现N个单词的个数也就有一个值来对应。
在这里插入图片描述

这篇关于NLP学习06_评估语言模型smoothing的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/888191

相关文章

SpringBoot快速接入OpenAI大模型的方法(JDK8)

《SpringBoot快速接入OpenAI大模型的方法(JDK8)》本文介绍了如何使用AI4J快速接入OpenAI大模型,并展示了如何实现流式与非流式的输出,以及对函数调用的使用,AI4J支持JDK8... 目录使用AI4J快速接入OpenAI大模型介绍AI4J-github快速使用创建SpringBoot

使用Go语言开发一个命令行文件管理工具

《使用Go语言开发一个命令行文件管理工具》这篇文章主要为大家详细介绍了如何使用Go语言开发一款命令行文件管理工具,支持批量重命名,删除,创建,移动文件,需要的小伙伴可以了解下... 目录一、工具功能一览二、核心代码解析1. 主程序结构2. 批量重命名3. 批量删除4. 创建文件/目录5. 批量移动三、如何安

python使用fastapi实现多语言国际化的操作指南

《python使用fastapi实现多语言国际化的操作指南》本文介绍了使用Python和FastAPI实现多语言国际化的操作指南,包括多语言架构技术栈、翻译管理、前端本地化、语言切换机制以及常见陷阱和... 目录多语言国际化实现指南项目多语言架构技术栈目录结构翻译工作流1. 翻译数据存储2. 翻译生成脚本

0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型的操作流程

《0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeekR1模型的操作流程》DeepSeekR1模型凭借其强大的自然语言处理能力,在未来具有广阔的应用前景,有望在多个领域发... 目录0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型,3步搞定一个应

Deepseek R1模型本地化部署+API接口调用详细教程(释放AI生产力)

《DeepseekR1模型本地化部署+API接口调用详细教程(释放AI生产力)》本文介绍了本地部署DeepSeekR1模型和通过API调用将其集成到VSCode中的过程,作者详细步骤展示了如何下载和... 目录前言一、deepseek R1模型与chatGPT o1系列模型对比二、本地部署步骤1.安装oll

Java深度学习库DJL实现Python的NumPy方式

《Java深度学习库DJL实现Python的NumPy方式》本文介绍了DJL库的背景和基本功能,包括NDArray的创建、数学运算、数据获取和设置等,同时,还展示了如何使用NDArray进行数据预处理... 目录1 NDArray 的背景介绍1.1 架构2 JavaDJL使用2.1 安装DJL2.2 基本操

Spring AI Alibaba接入大模型时的依赖问题小结

《SpringAIAlibaba接入大模型时的依赖问题小结》文章介绍了如何在pom.xml文件中配置SpringAIAlibaba依赖,并提供了一个示例pom.xml文件,同时,建议将Maven仓... 目录(一)pom.XML文件:(二)application.yml配置文件(一)pom.xml文件:首

Go语言中三种容器类型的数据结构详解

《Go语言中三种容器类型的数据结构详解》在Go语言中,有三种主要的容器类型用于存储和操作集合数据:本文主要介绍三者的使用与区别,感兴趣的小伙伴可以跟随小编一起学习一下... 目录基本概念1. 数组(Array)2. 切片(Slice)3. 映射(Map)对比总结注意事项基本概念在 Go 语言中,有三种主要

C语言中自动与强制转换全解析

《C语言中自动与强制转换全解析》在编写C程序时,类型转换是确保数据正确性和一致性的关键环节,无论是隐式转换还是显式转换,都各有特点和应用场景,本文将详细探讨C语言中的类型转换机制,帮助您更好地理解并在... 目录类型转换的重要性自动类型转换(隐式转换)强制类型转换(显式转换)常见错误与注意事项总结与建议类型

如何在本地部署 DeepSeek Janus Pro 文生图大模型

《如何在本地部署DeepSeekJanusPro文生图大模型》DeepSeekJanusPro模型在本地成功部署,支持图片理解和文生图功能,通过Gradio界面进行交互,展示了其强大的多模态处... 目录什么是 Janus Pro1. 安装 conda2. 创建 python 虚拟环境3. 克隆 janus