面试：关于word2vec的相关知识点Hierarchical Softmax和NegativeSampling

本文主要是介绍面试：关于word2vec的相关知识点Hierarchical Softmax和NegativeSampling，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

1、为什么需要Hierarchical Softmax和Negative Sampling

从输入层到隐含层需要一个维度为N×K的权重矩阵，从隐含层到输出层又需要一个维度为K×N的权重矩阵，学习权重可以用反向传播算法实现，每次迭代时将权重沿梯度更优的方向进行一小步更新。但是由于Softmax激活函数中存在归一化项的缘故，推导出来的迭代公式需要对词汇表中的所有单词进行遍历，使得每次迭代过程非常缓慢，由此产生了Hierarchical Softmax和Negative Sampling两种改进方法。

2.Hierarchical Softmax

层次softmax基本思想是将复杂的归一化概率分解为一系列条件概率乘积的形式：

每一层条件概率对应一个二分类问题，通过逻辑回归函数可以去拟合。对v个词的概率归一化问题就转化成了对logv个词的概率拟合问题。

Hierarchical softmax通过构造一棵二叉树将目标概率的计算复杂度从最初的V降低到了logV的量级。但是却增加了词与词之间的耦合性。比如一个word出现的条件概率的变化会影响到其路径上所有非叶子节点的概率变化。间接地对其他word出现的条件概率带来影响。

哈夫曼树是带权路径和最短的最优二叉树，所以通过对词表中的词进行树构造，可以生成一个哈夫曼树，越接近根节点的词，其词频是越高的，我们需要优先更新，越向下，词频越低，更新频率也小一点，通过这样的方式就可以实现训练速度的加快。
具体来说，CBOW是上下文预测中间词，我们将上下文初始化的词嵌入进行求和得到一个X表示，哈夫曼树的每一个节点都是一个逻辑回归判断，从根节点开始，向下判断，直到落到目标节点上，此时把已走的路径的LR值相乘，即得到此时的条件概率，而训练的目标就是使得整个条件概率达到最大。

3.NegativeSampling

对于词袋大小V而言，如果V非常大，即使是构建哈夫曼树，复杂度也会很高，所以提出使用负采样。使用负采样的时候,可以明显感觉到训练速度快于层次softmax,而且不需要构建复杂的哈弗曼树。

什么是负样本呢?
例如在CBOW中,我们是知道了C o n t e x t ( w ) Context(w)Context(w),然后来预测单词w ,那么这个时候,相对于C o n t e x t ( w ) Context(w)Context(w),我们提供一组结果,这些结果中包含正确的解w ,剩下的都是错误的解,那么w ww就是正样本,剩下的解就是负样本。

也就是说，正常情况下的预测结果是包括大量正样本和负样本的，但是由于词表V非常大，所以我们每次只随机采样一定数量个负样本参与到损失函数的计算中。