本文主要是介绍独立性和条件独立性测试方法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
独立性和条件独立性测试方法[1]
独立和条件独立定义:两个变量X, Z是独立的,其中P(Z=z)>0,有:
P ( X = x , Z = z ) = P ( X = x ) P ( Z = z ) P(X=x, Z=z)=P(X=x)P(Z=z) P(X=x,Z=z)=P(X=x)P(Z=z)
给定变量集合S,X和Z条件独立,记为 I n d ( X , Z ∣ S ) Ind(X,Z|S) Ind(X,Z∣S):
P ( X = x , Z = z ∣ S = s ) = P ( X = x ∣ S = s ) P ( Z = z ∣ S = s ) P(X=x, Z=z|S=s)=P(X=x|S=s)P(Z=z|S=s) P(X=x,Z=z∣S=s)=P(X=x∣S=s)P(Z=z∣S=s), 其中 P ( S = s ) > 0 P(S=s)>0 P(S=s)>0
方法1:Fisher’s z-Transform for Correlation and Partial Correlation
(1)独立性测试
给定一个包含n个样本的X,Y变量,皮尔森相关系数计算如下:
r = ∑ i = 1 n ( X i − X ˉ ) ( Y i − Y ˉ ) ∑ i = 1 n ( X i − X ˉ ) 2 ∑ i = 1 n ( Y i − Y ˉ ) 2 r=\frac{\sum_{i=1}^{n}{(X_i-\bar X)(Y_i-\bar Y)}}{\sqrt{\sum_{i=1}^n{(X_i-\bar X)^2}}\sqrt{\sum_{i=1}^n{(Y_i-\bar Y)^2}}} r=∑i=1n(Xi−Xˉ)2∑i=1n(Yi−Yˉ)2∑i=1n(Xi−Xˉ)(Yi−Yˉ)
Fisher 的r-to-z transformation 其实是将皮尔森相关系数转化成具有正态分布的变量z, z ∼ N ( μ z , σ z ) z\sim N(\mu_z,\sigma_z) z∼N(μz,σz):
z = 0.5 l n ( 1 + r 1 − r ) z = 0.5ln(\frac{1+r}{1-r}) z=0.5ln(1−r1+r)
and
μ z = 0.5 l n ( 1 + ρ 1 − ρ ) , σ z = 1 n − 3 \mu_z=0.5ln(\frac{1+\rho}{1-\rho}), \sigma_z = \frac{1}{\sqrt{n-3}} μz=0.5ln(1−ρ1+ρ),σz=n−31
其中 ρ \rho ρ是总体皮尔森相关系数
PS总体皮尔森相关系数和样本皮尔森相关系数:
给定显著性水平 α \alpha α和皮尔森相关系数 r r r,X, Y相关需要满足以下条件:
z n − 3 > ϕ − 1 ( 1 − α / 2 ) z\sqrt{n-3}>\phi^{-1}(1-\alpha/2) zn−3>ϕ−1(1−α/2)
ϕ \phi ϕ表示标准正态分布函数
例:假如有一组包含100个样本的X,Y变量组,计算得出二者皮尔森相关系数为 0.4。在95%的置信水平下,有:
z n − 3 = 0.5 l n ( 1 + 0.4 1 − 0.4 ) 100 − 3 = 4.172458 z\sqrt{n-3}=0.5ln(\frac{1+0.4}{1-0.4})\sqrt{100-3}=4.172458 zn−3=0.5ln(1−0.41+0.4)100−3=4.172458
还有:
ϕ − 1 ( 1 − α / 2 ) = ϕ − 1 ( 1 − 0.05 / 2 ) = ϕ − 1 ( 0.975 ) = 1.959964 \phi^{-1}(1-\alpha/2)=\phi^{-1}(1-0.05/2)=\phi^{-1}(0.975)=1.959964 ϕ−1(1−α/2)=ϕ−1(1−0.05/2)=ϕ−1(0.975)=1.959964
因为前者4.172458大于后者1.959964,所以X和Y不独立(相关的)。
(2)条件独立性测试
给定变量集S情况下,X,Y的条件相关系数计算如下:
r X , Y ∣ S = r X , Y ∣ S \ W − r X , W ∣ S \ W r Y , W ∣ S \ W ( 1 − r X , W ∣ S \ W 2 ) ( 1 − r Y , W ∣ S \ W 2 ) r_{X,Y|S}=\frac{r_{X,Y|S\backslash W}-r_{X,W|S\backslash W}r_{Y,W|S\backslash W}}{\sqrt{(1-r^2_{X,W|S\backslash W})(1-r^2_{Y,W|S\backslash W})}} rX,Y∣S=(1−rX,W∣S\W2)(1−rY,W∣S\W2)rX,Y∣S\W−rX,W∣S\WrY,W∣S\W
其中W是变量集S的任意一个变量,
PS:论文[2]给出了一种计算 r X , Y ∣ S r_{X,Y|S} rX,Y∣S的高效算法。
给定显著性水平 α \alpha α,X和Y在给定变量集S的相关性需满足以下条件:
z n − ∣ S ∣ − 3 > ϕ − 1 ( 1 − α / 2 ) z\sqrt{n-|S|-3}>\phi^{-1}(1-\alpha/2) zn−∣S∣−3>ϕ−1(1−α/2)
其中 |S|表示变量集S的长度,且有:
z = 0.5 l n ( 1 + r X , Y ∣ S 1 − r X , Y ∣ S ) z=0.5 ln(\frac{1+r_{X,Y|S}}{1-r_{X,Y|S}}) z=0.5ln(1−rX,Y∣S1+rX,Y∣S)
方法2: Chi-Square Test of Independence and Conditional Independence
(1)独立性检测
构建一个列联表,表示X,Z两个变量的联合频率分布。如下图:
n 11 , n 12 , n 21 , n 22 n_{11},n_{12},n_{21},n_{22} n11,n12,n21,n22分别表示 ( X = 1 , Z = 1 ) , ( X = 1 , Z = 0 ) , ( X = 0 , Z = 1 ) , ( X = 0 , Z = 0 ) (X=1,Z=1),(X=1,Z=0),(X=0,Z=1),(X=0,Z=0) (X=1,Z=1),(X=1,Z=0),(X=0,Z=1),(X=0,Z=0)的数量,称为观测频率; n 1 ∗ , n 2 ∗ , n ∗ 1 , n ∗ 2 n_{1*},n_{2*},n_{*1},n_{*2} n1∗,n2∗,n∗1,n∗2分别表示 X = 1 , X = 0 , Z = 1 , Z = 0 X=1,X=0,Z=1,Z=0 X=1,X=0,Z=1,Z=0的数量,称为边缘频率。
基于联合频率表,我们可以计算出卡方检验统计量:
χ 2 = ∑ i = 1 i = 2 ∑ j = 1 j = 2 ( n i j − n ^ i j ) 2 n ^ i j \chi^2=\sum_{i=1}^{i=2}\sum_{j=1}^{j=2}\frac{(n_{ij}-\hat{n}_{ij})^2}{\hat n_{ij}} χ2=∑i=1i=2∑j=1j=2n^ij(nij−n^ij)2
其中 n ^ 11 , n ^ 12 , n ^ 21 , n ^ 22 \hat{n}_{11},\hat n_{12},\hat n_{21},\hat n_{22} n^11,n^12,n^21,n^22是期望频率,按照下式计算:
n ^ i j = n i ∗ n ∗ j n \hat n_{ij}=\frac{n_{i*}n_{*j}}{n} n^ij=nni∗n∗j
给定置信水平 α \alpha α,可以查询卡方分布(自由度为)的值 χ α 2 \chi^2_\alpha χα2。如果计算出的卡方统计量大于 χ α 2 \chi^2_\alpha χα2,就拒绝零假设,两者在给定的置信水平下有相关关系。
(2)条件独立性
在条件独立性测试中,测试X和Z在给定变量集S的独立性,我们生成取变量集S每个值情况下的列联表。例如,如果S中只有一个变量W,然后我们给出W=1和W=0两个情况下的列联表,如下图:
条件独立测试中的卡方统计量是所有列联表卡方统计量的总和。例如,如果W=1的表的卡方值为1.7,W=0表的卡方值为0.9,所以最终的卡方统计量的值为1.7+0.9=2.6。类似于非条件独立测试,我们可以通过比较卡方统计量与 χ α 2 \chi^2_\alpha χα2来判断是否独立。但是需要注意的是,条件独立性测试时自由度为 2 ∣ S ∣ 2^{|S|} 2∣S∣,|S|是变量集S中的变量个数。
参考文献
[1] Practical approaches to causal relationship exploration. LI J,LIU L,LE T D. Springerbriefs in Electrical and Computer Engineering . 2015,LIU L,LE T D. Springerbriefs in Electrical and Computer Engineering . 2015
[2] J. Schaefer, R. Opgen-Rhein, and K. Strimmer. corpcor: Effificient estimation of covariance and (partial) correlation. R package version 1.5, 7, 2010.
这篇关于独立性和条件独立性测试方法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!