利用互信息比较不同的聚类结果

本文主要是介绍利用互信息比较不同的聚类结果，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

互信息（mutual information）和信息熵（information entropy）一样都是信息论里面的概念。信息熵在决策树里面用的比较多，可以度量样本集合的纯度。而互信息在聚类中有很大的作用，它可以衡量对同一个数据集不同的划分的之间的相似程度。

假设 $P^a，P^b$ 表示数据集 $X$ 上的两个不同的划分， $X$ 包括n的样本。

$P^a$ 包含 $k_a$ 个簇， $P^a$ = { $C_1^a,C_2^a,\cdots,C_{k_a}^a$ }。

$P^b$ 包含 $k_b$ 个簇， $P^b$ = { $C_1^b,C_2^b,\cdots,C_{k_b}^b$ }。

$n_{ij}^{ab}$ 表示 $C_i^a$ 和 $C_j^b$ 中相同样本的个数。

$n_i^a$ 表示 $C_i^a$ 中样本的个数， $n_j^b$ 表示 $C_j^b$ 中样本的个数。

$P^a，P^b$ 的互信息为 $I(P^a，P^b)$ :

I (P a ， P b) = \sum i = 1 k a \sum j = 1 k b n a b i j n log (n a b i j n n a i n * n b j n)

$I(P^a，P^b)=\sum_{i=1}^{k_a}\sum_{j=1}^{k_b}\frac{n_{ij}^{ab}}{n}\log\bigg(\frac{\frac{n_{ij}^{ab}}{n}}{\frac{n_i^a}{n}*\frac{n_j^b}{n}}\bigg)$

接下来还要对 $I(P^a，P^b)$ 进行标准化，使 $I(P^a，P^b)$ 的值域为 $[0,1]$
标准化的互信息用 $NMI$ 表示：

N M I (P a, P b) = I ( P a , P b ) H ( P a ) * H ( P b ) - - - - - - - - - - - - \sqrt

$NMI(P^a,P^b)=\frac{I(P^a,P^b)}{\sqrt{H(P^a)*H(P^b)}}$
其中

H(Pa),H(Pb) $H(P^a),H(P^b)$ 分别表示

Pa,Pb $P^a,P^b$ 的信息熵

NMI(Pa,Pb) $NMI(P^a,P^b)$ 的值介于0到1之间，当划分

Pa,Pb $P^a,P^b$ 只有很小的差别时，

NMI(Pa,Pb) $NMI(P^a,P^b)$ 趋近于1，反之趋近于0。

如果我们通过先验信息，知道了真正的划分 $P^*$ ，那么就可以用 $NMI(P^a，P^*)$ 来检验划分 $P^a$ 是否合理。

这篇关于利用互信息比较不同的聚类结果的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！