本文主要是介绍word2vec 入门基础(一),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
一、基本概念
word2vec是Google在2013年开源的一个工具,核心思想是将词表征映
射为对应的实数向量。
目前采用的模型有一下两种
- CBOW(Continuous Bag-Of-Words,即连续的词袋模型)
- Skip-Gram
项目链接:https://code.google.com/archive/p/word2vec
二、背景知识
词向量
词向量就是用来将语言中的词进行数学化的一种方式,顾名思义,词向量
就是把一个词表示成一个向量。这样做的初衷就是机器只认识0 1 符号,换句话说,在自然语言处理中,要想让机器识别语言,就需要将自然语言抽象表示成可被机器理解的方式。所以,词向量是自然语言到机器语言的转换。
词向量有一下两种
- One-hot Representation
向量的长度为词典的大小,向量的分量只有一个 1,其他全为 0, 1 的位置对应该词在词典中的位置,例如
“话筒”表示为 [0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 ...]
这篇关于word2vec 入门基础(一)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!