GloVe学习:Global Vectors for Word Representation

2023-10-28 20:40

本文主要是介绍GloVe学习:Global Vectors for Word Representation,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

GloVe: Global Vectors for Word Representation

什么是GloVe?

正如GloVe: Global Vectors for Word Representation论文而言,GloVe的全称叫Global Vectors for Word Representation,它是一个基于全局词频统计(count-based & overall statistics)的词表征(word representation)工具,它可以把一个单词表达成一个由实数组成的向量,这些向量捕捉到了单词之间一些语义特性,比如相似性(similarity)、类比性(analogy)等。我们通过对向量的运算,比如欧几里得距离或者cosine相似度,可以计算出两个单词之间的语义相似性。

  • 模型目标:进行词的向量化表示,使得向量之间尽可能多地蕴含语义和语法的信息。

  • 输入:语料库

  • 输出:词向量

  • 方法概述:首先基于语料库构建词的共现矩阵,然后基于共现矩阵和GloVe模型学习词向量。

在这里插入图片描述

统计共现矩阵

设共现矩阵为 X X X,其元素为 X i , j X_{i,j} Xi,j
X i , j X_{i,j} Xi,j的意义为:在整个语料库中,单词i和单词j共同出现在一个窗口中的次数。

举个例子:
设有语料库:

i love you but you love him i am sad

这个小小的语料库只有1个句子,涉及到7个单词:i、love、you、but、him、am、sad。
如果我们采用一个窗口宽度为5(左右长度都为2)的统计窗口,那么就有以下窗口内容:

在这里插入图片描述

窗口0、1长度小于5是因为中心词左侧内容少于2个,同理窗口8、9长度也小于5。
以窗口5为例说明如何构造共现矩阵:
中心词为love,语境词为but、you、him、i;则执行:

X l o v e , b u t + = 1 X_{love,but} +=1 Xlove,but+=1
X l o v e , y o u + = 1 X_{love,you} +=1 Xlove,you+=1
X l o v e , h i m + = 1 X_{love,him} +=1 Xlove,him+=1
X l o v e , i + = 1 X_{love,i} +=1 Xlove,i+=1

使用窗口将整个语料库遍历一遍,即可得到共现矩阵 X X X

GloVe是如何实现的?

GloVe的实现分为以下三步:

  • 根据语料库(corpus)构建一个共现矩阵(Co-ocurrence Matrix) X X X(什么是共现矩阵?),矩阵中的每一个元素 X i j X_{ij} Xij代表单词和上下文单词 j j j在特定大小的上下文窗口(context window)内共同出现的次数。一般而言,这个次数的最小单位是1,但是GloVe不这么认为:它根据两个单词在上下文窗口的距离 d d d,提出了一个衰减函数(decreasing weighting): d e a c y = 1 / d deacy=1/d deacy=1/d 用于计算权重,也就是说距离越远的两个单词所占总计数(total count)的权重越小
In all cases we use a decreasing weighting function, so that word pairs that are d words apart contribute 1/d to the total count.
  • 构建词向量(Word Vector)和共现矩阵(Co-ocurrence Matrix)之间的近似关系,论文的作者提出以下的公式可以近似地表达两者之间的关系:

w i T w ~ j + b i + b j = l o g ( X i j ) w^T_{i}\tilde{w}_j+b_i+b_j=log(X_{ij}) wiTw~j+bi+bj=log(Xij) (1)

其中, w i T w^T_{i} wiT w j ~ \tilde{w_j} wj~是我们最终要求解的词向量 b i b_{i} bi b j ~ \tilde{b_j} bj~分别是两个词向量的bias term。当然你对这个公式一定有非常多的疑问,比如它到底是怎么来的,为什么要使用这个公式,为什么要构造两个词向量 w i T w^T_{i} wiT w j ~ \tilde{w_j} wj~?下文我们会详细介绍。

  • 有了公式1之后我们就可以构造它的loss function了:

J = J= J= ∑ i , j = 1 V \sum_{i,j=1}^V i,j=1V f ( X i j ) ( w i T w ~ j + b i + b j − l o g ( X i j ) ) 2 f(X_{ij})(w^T_{i}\tilde{w}_j+b_i+b_j-log(X_{ij}))^2 f(Xij)(wiTw~j+bi+bjlog(Xij))2

这个loss function的基本形式就是最简单的mean square loss,只不过在此基础上加了一个权重函数 f ( X i j ) f(X_{ij}) f(Xij),那么这个函数起了什么作用,为什么要添加这个函数呢?我们知道在一个语料库中,肯定存在很多单词他们在一起出现的次数是很多的(frequent co-occurrences),那么我们希望:

  • 1.这些单词的权重要大于那些很少在一起出现的单词(rare co-occurrences),所以这个函数要是非递减函数(non-decreasing);
  • 2.但我们也不希望这个权重过大(overweighted)当到达一定程度之后应该不再增加;
  • 3.如果两个单词没有在一起出现,也就是 X i j = 0 X_{ij}=0 Xij=0,那么他们应该不参与到loss function的计算当中去,也就是 f ( x ) f(x) f(x)要满足 f ( 0 ) = 0 f(0)=0 f(0)=0

满足以上两个条件的函数有很多,作者采用了如下形式的分段函数:

f ( x ) = { ( x / x m a x ) α , if  x < x m a x 1 , otherwise f(x)=\begin{cases} (x/x_{max})^α,&\text{if $x<x_{max}$ }\\1,&\text{otherwise}\end{cases} f(x)={(x/xmax)α,1,if x<xmax otherwise

这个函数图像如下所示:

在这里插入图片描述

这篇论文中的所有实验,α的取值都是0.75,而 x m a x x_{max} xmax取值都是100。以上就是GloVe的实现细节,那么GloVe是如何训练的呢?

GloVe是如何训练的?

虽然很多人声称GloVe是一种无监督(unsupervised learing)的学习方式(因为它确实不需要人工标注label),但其实它还是有label的,这个label就是公式2中的log( X i j X_{ij} Xij),而公式2中的向量 w w w w ~ \tilde{w} w~就是要不断更新/学习的参数,所以本质上它的训练方式跟监督学习的训练方法没什么不一样,都是基于梯度下降的。具体地,这篇论文里的实验是这么做的:采用了AdaGrad的梯度下降算法,对矩阵 X X X中的所有非零元素进行随机采样,学习曲率(learning rate)设为0.05,在vector size小于300的情况下迭代了50次,其他大小的vectors上迭代了100次,直至收敛。最终学习得到的是两个vector是 w w w w ~ \tilde{w} w~,因为 X X X是对称(symmetric),所以从原理上讲 w w w w ~ \tilde{w} w~是也是对称的,他们唯一的区别是初始化的值不一样,而导致最终的值不一样。所以这两者其实是等价的,都可以当成最终的结果来使用。但是为了提高鲁棒性,我们最终会选择两者之和 w w w + w ~ \tilde{w} w~作为最终的vector(两者的初始化不同相当于加了不同的随机噪声,所以能提高鲁棒性)。在训练了400亿个token组成的语料后,得到的实验结果如下图所示:

在这里插入图片描述

这个图一共采用了三个指标:语义准确度,语法准确度以及总体准确度。那么我们不难发现Vector Dimension在300时能达到最佳,而context Windows size大致在6到10之间。

Glove与LSA、word2vec的比较

LSA(Latent Semantic Analysis)是一种比较早的count-based的词向量表征工具,它也是基于co-occurance matrix的,只不过采用了基于奇异值分解(SVD)的矩阵分解技术对大矩阵进行降维,而我们知道SVD的复杂度是很高的,所以它的计算代价比较大。还有一点是它对所有单词的统计权重都是一致的。而这些缺点在GloVe中被一一克服了。而word2vec最大的缺点则是没有充分利用所有的语料,所以GloVe其实是把两者的优点结合了起来。从这篇论文给出的实验结果来看,GloVe的性能是远超LSA和word2vec的,但网上也有人说GloVe和word2vec实际表现其实差不多。

公式推导

写到这里GloVe的内容基本就讲完了,唯一的一个疑惑就是公式1到底是怎么来的?如果你有兴趣可以继续看下去,如果没有,可以关掉浏览器窗口了。为了把这个问题说清楚,我们先定义一些变量:

  • X i j X_{ij} Xij表示单词 j j j出现在单词 i i i的上下文中的次数;

  • X i X_{i} Xi表示单词 i i i的上下文中所有单词出现的总次数,即 X i = ∑ k X i k X_{i}=\sum^kX_{ik} Xi=kXik;

  • P i j = P ( j ∣ i ) = X i j / X i P_{ij}=P(j|i)=X_{ij}/X_{i} Pij=P(ji)=Xij/Xi即表示单词 j j j出现在单词 i i i的上下文中的概率;

有了这些定义之后,我们来看一个表格:

在这里插入图片描述

理解这个表格的重点在最后一行,它表示的是两个概率的比值(ratio),我们可以使用它观察出两个单词 i i i j j j相对于单词 k k k哪个更相关(relevant)。比如,ice和solid更相关,而stream和solid明显不相关,于是我们会发现 P ( s o l i d ∣ i c e ) / P ( s o l i d ∣ s t e a m ) P(solid|ice)/P(solid|steam) P(solidice)/P(solidsteam) 比1大得多。同样的gas和steam更相关,而和ice不相关,那么 P ( s o l i d ∣ i c e ) / P ( s o l i d ∣ s t e a m ) P(solid|ice)/P(solid|steam) P(solidice)/P(solidsteam) 就远小于1;当都有关(比如water)或者都没有关(fashion)的时候,两者的比例接近于1;这个是很直观的。因此,以上推断可以说明通过概率的比例而不是概率本身去学习词向量可能是一个更恰当的方法,因此下文所有内容都围绕这一点展开。

于是为了捕捉上面提到的概率比例,我们可以构造如下函数:

F ( w i , w j , w ~ k ) = P i k / P j k F(w_{i},w_j,\tilde{w}_k)=P_{ik}/P_{jk} F(wi,wj,w~k)=Pik/Pjk

其中,函数 F F F的参数和具体形式未定,它有三个参数 w i , w j 和 w ~ k w_{i},w_j和\tilde{w}_k wi,wjw~k w 和 w ~ w和\tilde{w} ww~是不同的向量;
因为向量空间是线性结构的,所以要表达出两个概率的比例差,最简单的办法是作差,于是我们得到:

F ( w i − w j , w ~ k ) = P i k P j k F(w_{i}-w_j,\tilde{w}_k)=\frac{P_{ik}}{P_{jk}} F(wiwj,w~k)=PjkPik

这时我们发现公式5的右侧是一个数量,而左侧则是一个向量,于是我们把左侧转换成两个向量的内积形式:

F ( ( w i − w j ) T w ~ k ) = P i k P j k F((w_{i}-w_j)^T\tilde{w}_k)=\frac{P_{ik}}{P_{jk}} F((wiwj)Tw~k)=PjkPik (6)

我们知道 X X X是个对称矩阵,单词和上下文单词其实是相对的,也就是如果我们做如下交换: w w w ↔ \leftrightarrow w ~ k \tilde{w}_k w~k X X X ↔ \leftrightarrow X T X^T XT 公式6应该保持不变,那么很显然,现在的公式是不满足的。为了满足这个条件,首先,我们要求函数 F F F要满足同态特性(homomorphism):

F ( ( w i − w j ) T w ~ k ) = F ( w i T w ~ k ) F ( w j T w ~ k ) F((w_{i}-w_j)^T\tilde{w}_k)=\frac{F(w^T_{i}\tilde{w}_k)}{F(w^T_{j}\tilde{w}_k)} F((wiwj)Tw~k)=F(wjTw~k)F(wiTw~k)

结合公式6,我们可以得到:

F ( w i T w ~ k ) = P i k = X i k X i F(w^T_{i}\tilde{w}_k)=P_{ik}=\frac{X_{ik}}{X_i} F(wiTw~k)=Pik=XiXik

然后令F = exp,于是我们有:

w i T w ~ k = l o g ( P i k ) = l o g ( X i k ) − l o g ( X i ) w^T_{i}\tilde{w}_k=log(P_{ik})=log(X_{ik})-log(X_i) wiTw~k=log(Pik)=log(Xik)log(Xi) (9)

因为等号右侧 l o g ( X i ) log(X_i) log(Xi)的存在,公式9不满足对称(symmetry)的,而且这个 l o g ( X i ) log(X_i) log(Xi)其实是跟 k k k独立的,它只跟 i i i有关,于是我们可以针对 w i w_i wi增加一个bias term b i b_i bi把它替换掉,于是我们有:

w i T w ~ k + b i = l o g ( X i k ) w^T_{i}\tilde{w}_k+b_i=log(X_{ik}) wiTw~k+bi=log(Xik) (10)

但是公式10还是不满足对称性,于是我们针对 w k w_k wk增加一个bias term b k b_k bk,从而得到公式1的形式:

w i T w ~ k + b i + b k = l o g ( X i k ) w^T_{i}\tilde{w}_k+b_i+b_k=log(X_{ik}) wiTw~k+bi+bk=log(Xik) (1)

以上内容其实不能完全称之为推导,因为有很多不严谨的地方,只能说是解释作者如何一步一步构造出这个公式的,仅此而已。

参考:

1.论文:GloVe: Global Vectors for Word Representation。
2.GloVe详解
3.理解GloVe模型(Global vectors for word representation)

这篇关于GloVe学习:Global Vectors for Word Representation的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/295806

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

线性代数|机器学习-P36在图中找聚类

文章目录 1. 常见图结构2. 谱聚类 感觉后面几节课的内容跨越太大,需要补充太多的知识点,教授讲得内容跨越较大,一般一节课的内容是书本上的一章节内容,所以看视频比较吃力,需要先预习课本内容后才能够很好的理解教授讲解的知识点。 1. 常见图结构 假设我们有如下图结构: Adjacency Matrix:行和列表示的是节点的位置,A[i,j]表示的第 i 个节点和第 j 个

Node.js学习记录(二)

目录 一、express 1、初识express 2、安装express 3、创建并启动web服务器 4、监听 GET&POST 请求、响应内容给客户端 5、获取URL中携带的查询参数 6、获取URL中动态参数 7、静态资源托管 二、工具nodemon 三、express路由 1、express中路由 2、路由的匹配 3、路由模块化 4、路由模块添加前缀 四、中间件