本文主要是介绍NLP-词向量-发展:词袋模型【onehot、tf-idf】 -> 主题模型【LSA、LDA】 -> 词向量静态表征【Word2vec、GloVe、FastText】 -> 词向量动态表征【Bert】,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
NLP-词向量-发展:
- 词袋模型【onehot、tf-idf】
- 主题模型【LSA、LDA】
- 基于词向量的静态表征【Word2vec、GloVe、FastText】
- 基于词向量的动态表征【Bert】
一、词袋模型(Bag-Of-Words)
1、One-Hot
词向量的维数为整个词汇表的长度,对于每个词,将其对应词汇表中的位置置为1,其余维度都置为0。
缺点是:
- 维度非常高,编码过于稀疏,易出现维数灾难问题;
- 不能体现词与词之间的相似性,每个词都是孤立的,泛化能力差。
2、tf-idf
二、主题模型
缺点:在词对推理任务上表现特别差;可解释性差;
1、LSA(SVD)
1.1 “term-document” type
1.2 “term-term” type
词共现矩阵
- I enjoy flying。
- I like NLP。
- I like deep learning。
缺点:在词对推理任务上表现特别差;可解释性差;
2、pLSA
3、LDA
三、基于词向量的固定表征
神经网络将词汇表中的词作为输入,输出一个低维的向量表示,然后使用反向传播优化参数。
生成词向量的神经网络模型分为两种:
- 一种的目的是训练可以表示语义关系的词向量,能被用于后续任务中,如word2vec、glove;
- 另一种是将词向量作为副产品产生,根据特定任务需要训练得到词向量,如fastText。
1、word2vec
Word2Vec:其输出是单词同时出现的概率分布(共现概率分布)
2、glove
GLove:相比单词同时出现的概率(共现概率分布),单词同时出现的概率的比率能够更好地区分单词。
- 比如,假设我们要表示“冰”和“蒸汽”这两个单词。对于和“冰”相关,和“蒸汽”无关的单词,比如“固体”,我们可以期望P冰-固体/P蒸汽-固体较大。类似地,对于和“冰”无关,和“蒸汽”相关的单词,比如“气体”,我们可以期望P冰-气体/P蒸汽-气体较小。相反,对于像“水”之类同时和“冰”、“蒸汽”相关的单词,以及“时尚”之类同时和“冰”、“蒸汽”无关的单词,我们可以期望P冰-水/P蒸汽-水、P冰-时尚/P蒸汽-时尚应当接近于1。
官方glove: https://github.com/stanfordnlp/GloVe,C实现
Python 实现: https://github.com/maciejkula/glove-python
安装
pip install glove_python
3、fastText
四、基于词向量的动态表征
特征提取器:
- elmo采用LSTM进行提取;
- GPT和bert则采用Transformer进行提取;
- 很多任务表明Transformer特征提取能力强于LSTM,elmo采用1层静态向量+2层LSTM,多层提取能力有限,而GPT和bert中的Transformer可采用多层,并行计算能力强
单/双向语言模型:
- GPT采用单向语言模型,ELMo和BERT采用双向语言模型
- GPT和BERT都采用Transformer,Transformer是Encoder-Decoder结构,GPT的单向语言模型采用Decoder结构,Decoder的部分见到的都是不完整的句子;BERT的双向语言模型则采用Encoder部分,能够看到完整句子
1、elmo
2、GPT
3、Bert
五、各种词向量的特点
- One-hot
- 维度灾难、语义鸿沟
- 矩阵分解 (LSA)
- 利用全局语料特征,但SVD求解计算复杂度大;
- 分布式表示 (distributed representation)
- 基于分布式假设 – 相同上下文语境的词有似含义
- 基于NNLM/RNNLM的词向量:词向量为副产物,存在效率不高等问题;
- word2vec、fastText:优化效率高,但是基于局部语料;
- glove:基于全局预料,结合了LSA和word2vec的优点;
- elmo、GPT、bert:动态特征,可以解决一词多义的问题。
这篇关于NLP-词向量-发展:词袋模型【onehot、tf-idf】 -> 主题模型【LSA、LDA】 -> 词向量静态表征【Word2vec、GloVe、FastText】 -> 词向量动态表征【Bert】的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!