NLP-词向量-发展：词袋模型【onehot、tf-idf】 -＞主题模型【LSA、LDA】 -＞词向量静态表征【Word2vec、GloVe、FastText】 -＞词向量动态表征【Bert】

本文主要是介绍NLP-词向量-发展：词袋模型【onehot、tf-idf】 -＞主题模型【LSA、LDA】 -＞词向量静态表征【Word2vec、GloVe、FastText】 -＞词向量动态表征【Bert】，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

NLP-词向量-发展：

词袋模型【onehot、tf-idf】
主题模型【LSA、LDA】
基于词向量的静态表征【Word2vec、GloVe、FastText】
基于词向量的动态表征【Bert】

一、词袋模型（Bag-Of-Words）

1、One-Hot

词向量的维数为整个词汇表的长度，对于每个词，将其对应词汇表中的位置置为1，其余维度都置为0。

缺点是：

维度非常高，编码过于稀疏，易出现维数灾难问题；
不能体现词与词之间的相似性，每个词都是孤立的，泛化能力差。

在这里插入图片描述

2、tf-idf

在这里插入图片描述

二、主题模型

缺点：在词对推理任务上表现特别差；可解释性差；

1、LSA（SVD）

1.1 “term-document” type

在这里插入图片描述

1.2 “term-term” type

词共现矩阵

I enjoy flying。
I like NLP。
I like deep learning。

缺点：在词对推理任务上表现特别差；可解释性差；

2、pLSA

3、LDA

三、基于词向量的固定表征

神经网络将词汇表中的词作为输入，输出一个低维的向量表示，然后使用反向传播优化参数。

生成词向量的神经网络模型分为两种：

一种的目的是训练可以表示语义关系的词向量，能被用于后续任务中，如word2vec、glove；
另一种是将词向量作为副产品产生，根据特定任务需要训练得到词向量，如fastText。

1、word2vec

Word2Vec：其输出是单词同时出现的概率分布（共现概率分布）

2、glove

GLove：相比单词同时出现的概率（共现概率分布），单词同时出现的概率的比率能够更好地区分单词。

比如，假设我们要表示“冰”和“蒸汽”这两个单词。对于和“冰”相关，和“蒸汽”无关的单词，比如“固体”，我们可以期望P冰-固体/P蒸汽-固体较大。类似地，对于和“冰”无关，和“蒸汽”相关的单词，比如“气体”，我们可以期望P冰-气体/P蒸汽-气体较小。相反，对于像“水”之类同时和“冰”、“蒸汽”相关的单词，以及“时尚”之类同时和“冰”、“蒸汽”无关的单词，我们可以期望P冰-水/P蒸汽-水、P冰-时尚/P蒸汽-时尚应当接近于1。

官方glove： https://github.com/stanfordnlp/GloVe，C实现

Python 实现： https://github.com/maciejkula/glove-python

安装
pip install glove_python

在这里插入图片描述

3、fastText

四、基于词向量的动态表征

特征提取器：

elmo采用LSTM进行提取；
GPT和bert则采用Transformer进行提取；
很多任务表明Transformer特征提取能力强于LSTM，elmo采用1层静态向量+2层LSTM，多层提取能力有限，而GPT和bert中的Transformer可采用多层，并行计算能力强

单/双向语言模型：

GPT采用单向语言模型，ELMo和BERT采用双向语言模型
GPT和BERT都采用Transformer，Transformer是Encoder-Decoder结构，GPT的单向语言模型采用Decoder结构，Decoder的部分见到的都是不完整的句子；BERT的双向语言模型则采用Encoder部分，能够看到完整句子

1、elmo

2、GPT

3、Bert

五、各种词向量的特点

One-hot
- 维度灾难、语义鸿沟
矩阵分解 (LSA)
- 利用全局语料特征，但SVD求解计算复杂度大；
分布式表示 (distributed representation)
- 基于分布式假设 – 相同上下文语境的词有似含义
- 基于NNLM/RNNLM的词向量：词向量为副产物，存在效率不高等问题；
- word2vec、fastText：优化效率高，但是基于局部语料；
- glove：基于全局预料，结合了LSA和word2vec的优点；
- elmo、GPT、bert：动态特征，可以解决一词多义的问题。

这篇关于NLP-词向量-发展：词袋模型【onehot、tf-idf】 -＞主题模型【LSA、LDA】 -＞词向量静态表征【Word2vec、GloVe、FastText】 -＞词向量动态表征【Bert】的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

NLP-词向量-发展：词袋模型【onehot、tf-idf】 -＞主题模型【LSA、LDA】 -＞词向量静态表征【Word2vec、GloVe、FastText】 -＞词向量动态表征【Bert】

一、词袋模型（Bag-Of-Words）

1、One-Hot

2、tf-idf

二、主题模型

1、LSA（SVD）

1.1 “term-document” type

1.2 “term-term” type

2、pLSA

3、LDA

三、基于词向量的固定表征

1、word2vec

2、glove

3、fastText

四、基于词向量的动态表征

1、elmo

2、GPT

3、Bert

五、各种词向量的特点

相关文章

springboot如何通过http动态操作xxl-job任务

苹果macOS 26 Tahoe主题功能大升级:可定制图标/高亮文本/文件夹颜色

Java调用C#动态库的三种方法详解

MyBatis编写嵌套子查询的动态SQL实践详解

详解如何使用Python从零开始构建文本统计模型

Mybatis嵌套子查询动态SQL编写实践

SpringBoot整合Sa-Token实现RBAC权限模型的过程解析

SpringBoot实现Kafka动态反序列化的完整代码

golang实现动态路由的项目实践

Python Selenium动态渲染页面和抓取的使用指南

NLP-词向量-发展：词袋模型【onehot、tf-idf】 -＞ 主题模型【LSA、LDA】 -＞ 词向量静态表征【Word2vec、GloVe、FastText】 -＞ 词向量动态表征【Bert】

一、词袋模型（Bag-Of-Words）

1、One-Hot

2、tf-idf

二、主题模型

1、LSA（SVD）

1.1 “term-document” type

1.2 “term-term” type

2、pLSA

3、LDA

三、基于词向量的固定表征

1、word2vec

2、glove

3、fastText

四、基于词向量的动态表征

1、elmo

2、GPT

3、Bert

五、各种词向量的特点

相关文章

NLP-词向量-发展：词袋模型【onehot、tf-idf】 -＞主题模型【LSA、LDA】 -＞词向量静态表征【Word2vec、GloVe、FastText】 -＞词向量动态表征【Bert】