及词专题

NLP基础之词过滤及词转向量的相关方法

1. 停用词过滤 对于 NLP的应用,我们通常先把停用词、出现频率很低的词汇过滤掉。类似于特征筛选的过程。 少于10次或20次的可以作为低频词去掉。   2. 词的标准化操作(主要是英文) stemming:将类似词转换成统一格式,但词不一定是实际词。如 fli, deni。。。PORTSTEMMER lemmazation:与stemming区别是转换成统一格式的词,该词是真实存在的