本文主要是介绍统计学中不同相关系数的比较,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
目录
- 相关系数的区别
- 不同相关系数的比较
- 1. Pearson 相关系数
- 2. Kendall 秩相关系数
- 3. Spearman 秩相关系数
- 总结
相关系数的区别
不同相关系数的比较
1. Pearson 相关系数
- 定义: 皮尔逊相关系数衡量的是两个变量之间的线性相关程度。其值介于-1和1之间,其中1表示完全正相关,-1表示完全负相关,0表示没有线性相关。
- 使用场景: 当两个变量的关系接近线性,并且数据是连续且大致符合正态分布时,使用皮尔逊相关系数最为合适。
- 公式:
r = ∑ ( x i − x ˉ ) ( y i − y ˉ ) ∑ ( x i − x ˉ ) 2 ∑ ( y i − y ˉ ) 2 r=\frac{\sum (x_{i} - \bar{x}) (y_{i} - \bar{y}) }{\sqrt{\sum(x_{i}-\bar{x})^{2} \sum(y_{i}-\bar{y})^{2}}} r=∑(xi−xˉ)2∑(yi−yˉ)2∑(xi−xˉ)(yi−yˉ)
2. Kendall 秩相关系数
-
定义: 肯德尔秩相关系数(Kendall’s tau)是一种用于测量两个变量之间序数关联性的非参数统计方法。它基于两个变量的配对观测值之间的一致性和不一致性。
-
使用场景: 当你的数据是序数的,或者数据含有许多重复值,或者样本量较小时,肯德尔秩相关系数是一个更好的选择。
-
公式:
τ = 2 n ( n − 1 ) ∑ sign ( x i − x j ) sign ( y i − y j ) \tau = \frac{2}{n(n-1)} \sum \text{sign}(x_i - x_j) \text{sign}(y_i - y_j) τ=n(n−1)2∑sign(xi−xj)sign(yi−yj)其中,
sign
函数是符号函数,n
是数据点的数量。
3. Spearman 秩相关系数
-
定义: 斯皮尔曼秩相关系数(Spearman’s rho)也是一种非参数的秩相关统计方法,它衡量的是两个变量的等级之间的单调关系。
-
使用场景: 当数据不满足正态分布、存在异常值或者非线性关系时,斯皮尔曼秩相关系数是一个更合适的选择。
-
公式:
ρ = 1 − 6 ∑ d i 2 n ( n 2 − 1 ) \rho = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)} ρ=1−n(n2−1)6∑di2其中, d i d_{i} di是两个变量的秩次之差, n n n是数据点的数量。
总结
- Pearson 是对线性关系的度量,对于非线性关系和非正态分布的数据可能不是很敏感。
- Kendall 和 Spearman 是非参数方法,它们对于非正态分布的数据和非线性关系更为稳健,但通常具有较低的统计效能。
- Spearman 通常对异常值更为敏感,而 Kendall 在处理小样本数据或有许多重复值的数据时更为可靠。
这篇关于统计学中不同相关系数的比较的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!