TF-IDF（Term Frequency-Inverse Document Frequency）算法

本文主要是介绍TF-IDF（Term Frequency-Inverse Document Frequency）算法，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

TF-IDF（Term Frequency-Inverse Document Frequency）是一种用于文本挖掘和信息检索的统计方法，主要用于评估一个单词在一个文档或一组文档中的重要性。它结合了词频（TF）和逆文档频率（IDF）两个指标。以下是详细解释：

1. 词频（TF，Term Frequency）

词频表示一个单词在一个文档中出现的频率。假设我们有一个单词 ( t ) 和一个文档 ( d )，则词频 ( TF(t, d) ) 可以定义为： [ TF(t, d) = \frac{\text{该单词在文档中出现的次数}}{\text{文档中的总单词数}} ]

2. 逆文档频率（IDF，Inverse Document Frequency）

逆文档频率衡量的是一个单词在整个文档集合中的重要性。假设我们有一个单词 ( t ) 和一个文档集合 ( D )，则逆文档频率 ( IDF(t, D) ) 可以定义为： [ IDF(t, D) = \log \left( \frac{N}{|{ d \in D : t \in d }|} \right) ] 其中：

( N ) 是文档集合中的总文档数。
( |{ d \in D : t \in d }| ) 是包含单词 ( t ) 的文档数目。

3. TF-IDF 计算

TF-IDF 是词频和逆文档频率的乘积，用于评估一个单词在一个文档中的重要性。公式如下： [ TF\text{-}IDF(t, d, D) = TF(t, d) \times IDF(t, D) ]

4. 示例

假设我们有以下三个文档：

文档1: "this is a sample document"
文档2: "this document is a sample"
文档3: "sample document is here"

我们希望计算单词 "sample" 在文档1中的 TF-IDF 值。

计算 TF：
- 文档1中 "sample" 出现1次，文档1总共有5个单词： [ TF(\text{sample}, \text{文档1}) = \frac{1}{5} = 0.2 ]
计算 IDF：
- "sample" 在所有3个文档中都出现了，所以 ( |{ d \in D : \text{sample} \in d }| = 3 )： [ IDF(\text{sample}, D) = \log \left( \frac{3}{3} \right) = \log (1) = 0 ]
计算 TF-IDF： [ TF\text{-}IDF(\text{sample}, \text{文档1}, D) = TF(\text{sample}, \text{文档1}) \times IDF(\text{sample}, D) = 0.2 \times 0 = 0 ]

在这个例子中，单词 "sample" 的 TF-IDF 值为0，因为它在所有文档中都出现，IDF 值为0，说明这个词对于区分文档的贡献很小。