无所不能的Embedding 1 - Word2vec模型详解代码实现

本文主要是介绍无所不能的Embedding 1 - Word2vec模型详解代码实现，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

word2vec是google 2013年提出的，从大规模语料中训练词向量的模型，在许多场景中都有应用，信息提取相似度计算等等。也是从word2vec开始，embedding在各个领域的应用开始流行，所以拿word2vec来作为开篇再合适不过了。本文希望可以较全面的给出Word2vec从模型结构概述，推导，训练，和基于tf.estimator实现的具体细节。完整代码戳这里https://github.com/DSXiangLi/Embedding

模型概述

word2vec模型结构比较简单，是为了能够在大规模数据上训练，降低了模型复杂度，移除了非线性隐藏层。根据不同的输入输出形式又分成CBOW和SG两种方法。

让我们先把问题简化成1v1的bigram问题，单词i作为context,单词j是target。V是单词总数，N是词向量长度，D是训练词对，输入xi∈R1∗Vxi∈R1∗V是one-hot向量。

模型训练两个权重矩阵,W∈RV∗NW∈RV∗N是输入矩阵，每一行对应输入单词的词向量,W′∈RV∗NW′∈RV∗N是输出矩阵，每一行对应输出单词的词向量。词i和词j的共现信息用词向量的内积来表达，通过softmax得到每个单词的概率如下

h=vwIvw′jujyj=p(wj|wI)=WTxi=W′Txj=vTw′jh=exp(uj)∑Vj′=1exp(uj′)(1)(2)(3)(4)(1)h=vwI=WTxi(2)vw′j=W′Txj(3)uj=vw′jTh(4)yj=p(wj|wI)=exp(uj)∑j′=1Vexp(uj′)

对每个训练样本，模型的目标是最大化条件概率p(wj|wI)p(wj|wI), 因此我们的对数损失函数如下

E=−logP(wj|wI)=−u∗j+log∑j′=1Vexp(uj′)(5)(6)(5)E=−logP(wj|wI)(6)=−uj∗+log∑j′=1Vexp(uj′)

CBOW : Continuous bag of words

CBOW是把bigram的输入context，扩展成了目标单词周围2*window_size内的单词，用中心词前后的语境来预测中心词。

对比bigram, CBOW只多做了一步操作，对输入的2 * Window_size个单词，在映射得到词向量后，需要做average_pooling得到1*N的输入向量, 所以差异只在h的计算。假定C=2∗window_sizeC=2∗window_size

hE=1CWT(x1+x2+...+xC)=1C(vw1+vw2+...+vwc)T=−logp(wO|wI,1...wI,C)=−u∗j+log∑j′=1Vexp(uj′)(7)(8)(9)(10)(7)h=1CWT(x1+x2+...+xC)(8)=1C(vw1+vw2+...+vwc)T(9)E=−logp(wO|wI,1...wI,C)(10)=−uj∗+log∑j′=1Vexp(uj′)

SG : Skip Gram

SG是把bigram的输出target，扩展成了输入单词周围2*window_size内的单词，用中心词来预测周围单词的出现概率。

对比bigram，SG的差异只在于输出概率多项分布不再是一个而是C个

E=−logp(wO,1,wO,2,...wO,C|wI)=∑c=1Cu∗j,c+C⋅log∑j′=1Vexp(uj′)(11)(12)(11)E=−logp(wO,1,wO,2,...wO,C|wI)(12)=∑c=1Cuj,c∗+C⋅log∑j′=1Vexp(uj′)

模型推导：word embedding是如何得到的？

下面我们从back propogation推导下以上模型结构是如何学到词向量的，为简化我们还是先从bigram来看，ηη是learning rate。

首先是hidden->output W′W′的词向量的更新

∂E∂vw′jv(new)w′j=∂E∂uj∂uj∂vw′j=(p(wj|wi)−I(j=j∗))⋅h=ej⋅h=v(old)w′j−η⋅ej⋅h(13)(14)(15)(16)(13)∂E∂vw′j=∂E∂uj∂uj∂vw′j(14)=(p(wj|wi)−I(j=j∗))⋅h(15)=ej⋅h(16)vw′j(new)=vw′j(old)−η⋅ej⋅h

ejej是单词j的预测概率误差，所以W′W′的更新可以理解为如果单词j被高估就从vw′jvw′j中减去η⋅ej⋅hη⋅ej⋅h，降低h和vw′jvw′j的向量内积(similarity)，反之被低估则在vw′jvw′j上叠加η⋅ej⋅hη⋅ej⋅h增加内积相似度，误差越大更新的幅度越大。

然后是input->hidden W的词向量的更新

∂E∂hv(new)wI=∑j=1V∂E∂uj∂uj∂h=∑j=1Vej⋅vw′j=v(old)wI−η⋅∑j=1Vej⋅vw′j(17)(18)(19)(17)∂E∂h=∑j=1V∂E∂uj∂uj∂h(18)=∑j=1Vej⋅vw′j(19)vwI(new)=vwI(old)−η⋅∑j=1Vej⋅vw′j

每个输入单词对应的词向量vwIvwI，都用所有单词的输出词向量按预测误差加权平均得到的向量

这篇关于无所不能的Embedding 1 - Word2vec模型详解代码实现的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！