本文主要是介绍无所不能的Embedding 1 - Word2vec模型详解代码实现,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
word2vec是google 2013年提出的,从大规模语料中训练词向量的模型,在许多场景中都有应用,信息提取相似度计算等等。也是从word2vec开始,embedding在各个领域的应用开始流行,所以拿word2vec来作为开篇再合适不过了。本文希望可以较全面的给出Word2vec从模型结构概述,推导,训练,和基于tf.estimator实现的具体细节。完整代码戳这里https://github.com/DSXiangLi/Embedding
模型概述
word2vec模型结构比较简单,是为了能够在大规模数据上训练,降低了模型复杂度,移除了非线性隐藏层。根据不同的输入输出形式又分成CBOW和SG两种方法。
让我们先把问题简化成1v1的bigram问题,单词i作为context,单词j是target。V是单词总数,N是词向量长度,D是训练词对,输入xi∈R1∗Vxi∈R1∗V是one-hot向量。
模型训练两个权重矩阵,W∈RV∗NW∈RV∗N是输入矩阵,每一行对应输入单词的词向量,W′∈RV∗NW′∈RV∗N是输出矩阵,每一行对应输出单词的词向量。词i和词j的共现信息用词向量的内积来表达,通过softmax得到每个单词的概率如下
h=vwIvw′jujyj=p(wj|wI)=WTxi=W′Txj=vTw′jh=exp(uj)∑Vj′=1exp(uj′)(1)(2)(3)(4)(1)h=vwI=WTxi(2)vw′j=W′Txj(3)uj=vw′jTh(4)yj=p(wj|wI)=exp(uj)∑j′=1Vexp(uj′)
对每个训练样本,模型的目标是最大化条件概率p(wj|wI)p(wj|wI), 因此我们的对数损失函数如下
E=−logP(wj|wI)=−u∗j+log∑j′=1Vexp(uj′)(5)(6)(5)E=−logP(wj|wI)(6)=−uj∗+log∑j′=1Vexp(uj′)
CBOW : Continuous bag of words
CBOW是把bigram的输入context,扩展成了目标单词周围2*window_size内的单词,用中心词前后的语境来预测中心词。
对比bigram, CBOW只多做了一步操作,对输入的2 * Window_size个单词,在映射得到词向量后,需要做average_pooling得到1*N的输入向量, 所以差异只在h的计算。假定C=2∗window_sizeC=2∗window_size
hE=1CWT(x1+x2+...+xC)=1C(vw1+vw2+...+vwc)T=−logp(wO|wI,1...wI,C)=−u∗j+log∑j′=1Vexp(uj′)(7)(8)(9)(10)(7)h=1CWT(x1+x2+...+xC)(8)=1C(vw1+vw2+...+vwc)T(9)E=−logp(wO|wI,1...wI,C)(10)=−uj∗+log∑j′=1Vexp(uj′)
SG : Skip Gram
SG是把bigram的输出target,扩展成了输入单词周围2*window_size内的单词,用中心词来预测周围单词的出现概率。
对比bigram,SG的差异只在于输出概率多项分布不再是一个而是C个
E=−logp(wO,1,wO,2,...wO,C|wI)=∑c=1Cu∗j,c+C⋅log∑j′=1Vexp(uj′)(11)(12)(11)E=−logp(wO,1,wO,2,...wO,C|wI)(12)=∑c=1Cuj,c∗+C⋅log∑j′=1Vexp(uj′)
模型推导:word embedding是如何得到的?
下面我们从back propogation推导下以上模型结构是如何学到词向量的,为简化我们还是先从bigram来看,ηη是learning rate。
首先是hidden->output W′W′的词向量的更新
∂E∂vw′jv(new)w′j=∂E∂uj∂uj∂vw′j=(p(wj|wi)−I(j=j∗))⋅h=ej⋅h=v(old)w′j−η⋅ej⋅h(13)(14)(15)(16)(13)∂E∂vw′j=∂E∂uj∂uj∂vw′j(14)=(p(wj|wi)−I(j=j∗))⋅h(15)=ej⋅h(16)vw′j(new)=vw′j(old)−η⋅ej⋅h
ejej是单词j的预测概率误差,所以W′W′的更新可以理解为如果单词j被高估就从vw′jvw′j中减去η⋅ej⋅hη⋅ej⋅h,降低h和vw′jvw′j的向量内积(similarity),反之被低估则在vw′jvw′j上叠加η⋅ej⋅hη⋅ej⋅h增加内积相似度,误差越大更新的幅度越大。
然后是input->hidden W的词向量的更新
∂E∂hv(new)wI=∑j=1V∂E∂uj∂uj∂h=∑j=1Vej⋅vw′j=v(old)wI−η⋅∑j=1Vej⋅vw′j(17)(18)(19)(17)∂E∂h=∑j=1V∂E∂uj∂uj∂h(18)=∑j=1Vej⋅vw′j(19)vwI(new)=vwI(old)−η⋅∑j=1Vej⋅vw′j
每个输入单词对应的词向量vwIvwI,都用所有单词的输出词向量按预测误差加权平均得到的向量
这篇关于无所不能的Embedding 1 - Word2vec模型详解代码实现的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!