cs224专题

CS224斯坦福nlp课程学习笔记2-词向量

one hot encoder(词袋模型) 每个词表示为一个向量,向量长度为语料库中词的个数,每个向量值只有一个编码为1其余是0 杭州 [0,0,0,0,0,0,0,1,0,……,0,0,0,0,0,0,0]上海 [0,0,0,0,1,0,0,0,0,……,0,0,0,0,0,0,0]宁波 [0,0,0,1,0,0,0,0,0,……,0,0,0,0,0,0,0]北京 [0,0,0,0,0

自然语言处理学习——CS224课程笔记

自然语言处理学习——CS224课程笔记 第一部分:词向量(Lecture 1) 对于自然语言处理问题,涉及到的基本处理单元是一个个单词(英文为单词,中文为词汇),将单词表示成计算机能够理解的符号是解决自然语言处理问题的基础。词向量就是目前发展出的分布式表示单词语义信息的关键方法。在正式介绍词向量之前,先介绍一下其它几种表示单词和文档的方法。 1. one-hot编码方式与词袋模型(bag o