首页
Python
Java
前端
数据库
Linux
Chatgpt专题
开发者工具箱
及词专题
NLP基础之词过滤及词转向量的相关方法
1. 停用词过滤 对于 NLP的应用,我们通常先把停用词、出现频率很低的词汇过滤掉。类似于特征筛选的过程。 少于10次或20次的可以作为低频词去掉。 2. 词的标准化操作(主要是英文) stemming:将类似词转换成统一格式,但词不一定是实际词。如 fli, deni。。。PORTSTEMMER lemmazation:与stemming区别是转换成统一格式的词,该词是真实存在的
阅读更多...