NLP学习06_评估语言模型smoothing

本文主要是介绍NLP学习06_评估语言模型smoothing，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

估计语言模型的概率

Unigram

首先统计语料库中所有的单词个数，然后统计每个单词出现的概率，
计算整句的概率
但是这种LM中，如果一个句子中的单词在语料库中没有出现，那么这个词的概率为0，这就导致整个句子概率为0
这显然是不合适的，用到一个平滑操作，使得虽然概率很小，但是不让它为0
在这里插入图片描述

Bigram

除了第一个单词的概率要通过Unigram计算，其他后边都是条件概率，要先在语料库找到条件词出现的个数
然后看这个条件词后跟目标词的个数，统计出概率相乘
在这里插入图片描述

N-gram

在这里插入图片描述
由上可知，这种N-gram的语言模型总是会出现某一个单词或者单词序列没有而导致整个句子的概率为0 的情况

评估语言模型

在一个任务上进行模型评估，必须将整个系统实现，然后才能计算准确率，这个过程是很耗时的
在这里插入图片描述
所以考虑先对模型进行评估，然后在用到任务上，
在任务外进行评估，具有公平性，而且可以跟很多模型比较

Perplexity:用来评估模型

在这里插入图片描述
在一个已经训练好的LM中
计算P，然后计算logP，求和，再平均，得到的结果就是x，把x代到公式perplexity = 2^-x
得到perplexity

不同应用场景使用的评估方法不同

在上边的测试结果中，Trigram的perplexity最小，所以模型最好
N-gram，N越大，模型越复杂，越倾向于过拟合

平滑smoothing

在这里插入图片描述
由于某一个概率为0，导致整个句子的概率为0，这样导致不同语法的句子表现不出区别，所以要使用平滑的技术

平滑分为不同的方法

在这里插入图片描述
MLE：最大似然估计

add-one smoothing

也叫拉普拉斯平滑项
之前我们计算的基于前一个词的概率是最大似然估计，可能会出现概率为0，
但是平滑处理就是要给他加一个很小的概率
分子上加1，分母上加V，V即词典的大小（排除重复的单词）
在这里插入图片描述

之所以在分母位置加V，目的是所有的可能项平滑操作后的概率之和为1

add-K smoothing

K=1时就是add-one
这个K的值可以自己去调试，也可以通过训练得到
在这里插入图片描述
K的选择，可以通过尝试来确定，也可以通过优化的方法确定

比如我们在训练集已经得到LM，也就是知道词的概率，然后用到验证集上，就可以得到perplexity关于f(k)的函数
因为perplexity是越小，模型越好，所以我们找perplexity最小时的K，就是我们想要的K

平滑方法三：Interpolation

问题：当使用Trigram LM时，由于in the 没有在训练集中出现，所以导致两个条件概率都是0，但是根据实际经验，在训练集中，kitchen出现的概率是大于arboretum的，那么条件概率也应该有相同的判断。而且也不能保证在以后的语料库不会出现in the这个词
为解决这一问题，提出interpolation
在使用Trigram LM时，要同时去考虑Unigram和Bigram中的出现的频次
在这里插入图片描述

综合考虑LM ，给Unigram，Bigram，Trigram进行一个加权，三个都要考虑到
但是要保证权重和为1

平滑方法四：good-turning soomthing

在这里插入图片描述
Nc ：表示出现c次的单词个数

下表前两列表示统计一个词典库中单词数量从0-出现20次的单词个数，
第三列是根据good-turning来计算的一个单词出现的概率
第四列是在实际的测试集中统计的单词出现概率，会发现使用good-turning推测的概率和实际概率很接近。
说明这种平滑方法的实用性
在这里插入图片描述
这种方法存在一个问题：在计算出现c次单词再出现的概率时，依赖于于出现c+1次单词的概率，但是如果没有后一项或者说后一项出现c+1次单词的个数是0，那么前一项计算结果概率就成了0.
所以这里我们会使用线性回归的方式确定一条平滑的曲线，这样那些出现N个单词的个数也就有一个值来对应。
在这里插入图片描述