本文主要是介绍NLP基础之词过滤及词转向量的相关方法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
1. 停用词过滤
对于 NLP的应用,我们通常先把停用词、出现频率很低的词汇过滤掉。类似于特征筛选的过程。
少于10次或20次的可以作为低频词去掉。
2. 词的标准化操作(主要是英文)
stemming:将类似词转换成统一格式,但词不一定是实际词。如 fli, deni。。。PORTSTEMMER
lemmazation:与stemming区别是转换成统一格式的词,该词是真实存在的。
stemm 的规则 :需要语言学家把一些常见的变换转化成代码 。
3. 词/句子/文章 转换成向量的方法
3.1 onehot编码
这篇关于NLP基础之词过滤及词转向量的相关方法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!