本文主要是介绍NLTK(9.2)生成特征向量与文本相似度,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
文章目录
- 生成对应特征向量
生成对应特征向量
几种文本特征向量化方法
1.词集模型:one-hot编码向量化文本(统计各词在文本中是否出现)
2.词袋模型:文档中出现的词对应的one-hot向量相加(统计各词在文本中出现次数,在词集模型的基础上。)
3.词袋模型+IDF:TFIDF向量化文本(词袋模型+IDF值,考虑了词的重要性)
4.N-gram模型:考虑了词的顺序
5.word2vec模型:使用文章中所有词的平均词向量作为文章的向量
这篇关于NLTK(9.2)生成特征向量与文本相似度的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!