本文主要是介绍自然语言处理讲师NLP培训讲师叶梓:人工智能之最新NLP自然语言处理技术与实战-19,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
P41-P42 个人助理QQ526346584
TF-IDF
• TF-IDF用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
•
• TF-IDF 的主要思想是,如果 某个词或短语在一篇文章中经常出现,且在其他文章中很少出现 ,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
•
• 字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
• TF 词频 (Term Frequency) 指的是某一个给定的词语在该文件中出现的次数。
• IDF 反文档频率 (Inverse Document Frequency) 是指,如果包含词条的文档越少,则说明词条具有很好的类别区分能力。
未完,下一篇继续
这篇关于自然语言处理讲师NLP培训讲师叶梓:人工智能之最新NLP自然语言处理技术与实战-19的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!