本文主要是介绍t检验全析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
文章目录
- 两个分布
- $chi^2$分布
- t分布
- 三个关键点
- 一个重点式子
- t-检验
两个分布
c h i 2 chi^2 chi2分布
设独立同分布的随机变量 X 1 , X 2 , . . . X n ∼ N ( 0 , 1 ) X_1, X_2, ...X_n \sim N(0, 1) X1,X2,...Xn∼N(0,1)
令 X = ∑ i = 1 n X i 2 ( 1 ) X = \sum\limits_{i = 1}^{n}X_i^2 \qquad (1) X=i=1∑nXi2(1)
则称X是自由度为n的 χ 2 \chi^2 χ2随机变量。
t分布
设 X ∼ N ( 0 , 1 ) , Y ∼ χ 2 ( n ) X\sim N(0 ,1), Y \sim \chi^2(n) X∼N(0,1),Y∼χ2(n), 且X,Y独立,称:
T = X T / n ( 2 ) T = \frac{X}{\sqrt{T/ n}} \qquad (2) T=T/nX(2)
为自由度为n的t变量,其分布称为自由度为n的t分布。
三个关键点
设独立同分布的随机变量 X 1 , X 2 . . . X n ∼ N ( μ , σ 2 ) X_1, X_2... X_n \sim N(\mu, \sigma^2) X1,X2...Xn∼N(μ,σ2)
(3) X ˉ ∼ N ( μ , σ 2 n ) \bar{X}\sim N(\mu, \frac{\sigma^2}{n})\qquad Xˉ∼N(μ,nσ2)
(4) ( n − 1 ) S 2 σ 2 ∼ χ 2 ( n − 1 ) \frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1) σ2(n−1)S2∼χ2(n−1)
(5) X ˉ 和 S 2 独 立 \bar{X}和S^2独立 Xˉ和S2独立
一个重点式子
X = X ˉ − μ S n ∼ t ( n − 1 ) ( 6 ) X = \frac{\bar X - \mu}{\frac{S}{\sqrt{n}}}\sim t(n-1) \qquad (6) X=nSXˉ−μ∼t(n−1)(6)
由(3)式:
X ˉ − μ σ n ∼ N ( 0 , 1 ) ( 3 ) \frac{\bar{X}- \mu}{\frac{\sigma}{\sqrt{n}}}\sim N(0 ,1) \qquad (3) nσXˉ−μ∼N(0,1)(3)
由(4)式, 令
Y = ( n − 1 ) S 2 σ 2 ∼ χ 2 ( n − 1 ) ( 4 ) Y = \frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1) \qquad (4) Y=σ2(n−1)S2∼χ2(n−1)(4)
∴ X Y / ( n − 1 ) ∼ t ( n − 1 ) ( 7 ) \therefore\frac{X}{\sqrt{Y/(n-1)}} \sim t(n-1) \qquad(7) ∴Y/(n−1)X∼t(n−1)(7)
代入(3)、(4)式,得:
X ˉ − μ σ n ( n − 1 ) S 2 σ 2 / ( n − 1 ) ∼ t ( n − 1 ) ( 8 ) \frac{\frac{\bar{X} - \mu}{\frac{\sigma}{\sqrt{n}}}}{\frac{(n-1)S^2}{\sigma^2}/ (n-1)} \sim t(n-1) \qquad(8) σ2(n−1)S2/(n−1)nσXˉ−μ∼t(n−1)(8)
化简得(6):
X ˉ − μ S n ∼ t ( n − 1 ) \frac{\bar{X} - \mu}{\frac{S}{\sqrt{n}}} \sim t(n-1) \qquad nSXˉ−μ∼t(n−1)
t-检验
QoG2012.csv 数据集中有一列反映了各个国家的gdp。我们使用这一列数据进行假设检验。
首先要明白的是假设检验是一种反证的方法,也就是
在假定原假设正确的基础上进行推理
原假设( H 0 H_0 H0): \qquad μ = 10000 \mu = 10000 μ=10000
备择假设( H 1 H_1 H1): \quad μ ≠ 10000 \mu\neq10000 μ̸=10000
# 导入readr包
library(readr)
library(dplyr)
# 载入data
world_data = read.csv("D://pdf//ucl//day3//day3//QoG2012.csv")
# 对world_data 进行总结
summary(world_data)
# tansform the judiciary to factor
world_data$judiciary <- factor(world_data$judiciary, levels = c(0, 1), labels = c('controled', 'free'))
#transform the former_col to factor
world_data$former_col <- factor(world_data$former_col, levels = c(0, 1), labels = c('no', 'yes'))
# calculate the mean of gdp
gdp_mean = mean(world_data$gdp, na.rm = TRUE)
[1] 10184.09
在这里, gdp_mean就是公式(6)中 X ˉ \bar{X} Xˉ
# calculate se
se <- sd(world_data$gdp, na.rm = TRUE) / sqrt(n)
se
[1] 922.7394
在这里,se就是公式(6)中的 S n \frac{S}{\sqrt{n}} nS
由(6)式:
可以计算得到t.value
t.value <- (gdp_mean - 10000) / se
t.value
[1] 0.1995059
# p-value calculation
2*(1 - pt(t.value, df = (n-1)))
[1] 0.842
pt 函数是t分布的分布函数,df是自由度,由(6)式,符合t(n-1)分布,所以df =n-1
p t ( t . v a l u e , d f = n − 1 ) = ∫ − ∞ t . v a l u e t ( n − 1 ) ( x ) d x pt(t.value, df = n -1) = \int_{-\infty}^{t.value} t_{(n-1)}(x)dx pt(t.value,df=n−1)=∫−∞t.valuet(n−1)(x)dx
1 − p t ( t . v a l u e , d f = n − 1 ) 1 - pt(t.value, df = n-1) 1−pt(t.value,df=n−1) 是右边的尾部,由于是双侧检验,所以
p-value = 2*(1 - pt(t.value, df = n-1))
与三种显著性标准进行比较,发现p-value很大,比0.05的显著性标准还大。
p-value反映的是:
发生比当前情况更加极端情况的概率
可以发现发生比当前情况极端情况的概率是0.842, 也就是说当前情况很容易发生,所以
不能拒绝原假设,也就是说不能够拒绝 μ = 10000 \mu = 10000 μ=10000
后记:
证明(3):
预备知识:
E ( c X ) = c E ( X ) E(cX) = cE(X) E(cX)=cE(X)
D ( c X ) = c 2 D ( X ) D(cX) = c^2D(X) D(cX)=c2D(X)
由: X ˉ = ∑ i n X i n \bar{X}=\frac{\sum\limits_i^{n}X_i}{n} Xˉ=ni∑nXi
E ( X ˉ ) = E ( ∑ i n X i n ) E(\bar{X})=E(\frac{\sum\limits_i^{n}X_i}{n}) E(Xˉ)=E(ni∑nXi)
s = 1 n E ( ∑ i n X i ) ( 9 ) =\frac{1}{n}E(\sum\limits_i^{n}X_i) \qquad(9) =n1E(i∑nXi)(9)
由于 X 1 , X 2 . . . X n X_1, X_2...X_n X1,X2...Xn是独立同分布的正态变量。由期望线性性
所以(9)式可化简为:
1 n n E ( X ) \frac{1}{n}n E(X) n1nE(X)
= E ( X ) ( 10 ) =E(X) \qquad (10) =E(X)(10)
而 E ( X ) = μ E(X) = \mu E(X)=μ,所以 E ( X ˉ ) E(\bar{X}) E(Xˉ)
D ( X ˉ ) D(\bar{X}) D(Xˉ)
= D ( ∑ i n X i n ) = D(\frac{\sum\limits_i^{n}X_i}{n}) =D(ni∑nXi)
= 1 n 2 D ( ∑ i n X i ) = \frac{1}{n^2}D(\sum\limits_i^nX_i) =n21D(i∑nXi)
= 1 n 2 n D ( X ) = \frac{1}{n^2}nD(X) =n21nD(X)
= 1 n D ( X ) = \frac{1}{n}D(X) =n1D(X)
即证。
这篇关于t检验全析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!