【概率论】4-3:方差(Variance)

2024-04-17 23:18
文章标签 方差 概率论 variance

本文主要是介绍【概率论】4-3:方差(Variance),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

原文地址1:https://www.face2ai.com/Math-Probability-4-3-Variance转载请标明出处

Abstract: 本文介绍继期望之后分布的另一个重要数学性质,方差
Keywords: Variance,Standard Deviation

方差

这两天更新有点频繁,但是没办法,必须快速的完成的基础知识积累,毕竟时间是有限的,还要留出更多的时间用于更进一步的深入研究,打牢基础的同时尽可能的提升速度。

如果我虚度光阴,那就请结束我的一生。如果你用奉承掐媚愚弄我,那我便自得取乐,如果你用荣华富贵诱惑我,那即便我的末日来临,我也要赌个输赢!

虽然期望很有用,但是并不能够完全的反应分布的信息,这么思考,首先,一个分布是一个公式确定的,这个公式的结构,和参数,如果能用一个参数全部概括,那么我们就有了一个超级模型一样的东西,这显然是不存在的,所以我们要用更多的数字特征来描述,代表一个分布的样子。
本文我们就介绍一款特征可以表示分布的离散程度(英文叫 “spread out”)——方差,他的衍生小弟叫做标准差是他的平方根,目前还不知道有啥特殊用途。

先举个例子,股票。。
一个股波动范围在 [ 25 , 35 ] [25,35] [25,35] 之间,均匀分布,第二个股分布在 [ 15 , 45 ] [15,45] [15,45] 之间的均匀分布。
那么其图像显示如下:

可见这个图像上,均值一致,都是30,但是分布有着明显区别,我们开始介绍我们的主角——“方差”

方差和标准差的定义 Definitions of the Variance and the Standard Deviation

Definition Variance/Standard Deviation.Let X X X be a random variable with finite mean μ = E ( X ) \mu=E(X) μ=E(X) ,The variance of X X X denoted by V a r ( x ) Var(x) Var(x) ,is defined as follows:
V a r ( X ) = E [ ( X − μ ) 2 ] Var(X)=E[(X-\mu)^2] Var(X)=E[(Xμ)2]

上面是关于方差和标准差的定义,首先随机变量的必须有一个有限的期望,然后再这个期望的基础上,每个变量和均值做差然后求其平方的期望,一共两步,用到了两次期望,可见方差其实就是随机变量函数的期望,而这个函数内又包含期望的运算。
注意无限的均值,或者不存在均值,都会导致方差无法计算,这是我们说随机变量没有方差,比如柯西分布,没有均值,也就没有方差,可见不是所有分布都有均值和方差的,同样,后面所有用到期望求的数字特征都没有。
方差用希腊字母 σ 2 \sigma^2 σ2 表示,标准差用希腊字母 σ \sigma σ 表示,这是单个变量的分布时,当有多个变量的时候只需要对 σ \sigma σ 加以区分就可以,比如加下标 σ a \sigma_a σa so so

那么我们来计算个🌰 :
计算上面例子中第一种股票的方差:
[ 25 , 35 ] [25,35] [25,35] 的均匀分布
KaTeX parse error: Undefined control sequence: \arrowvert at position 71: …0}\frac{x^3}{3}\̲a̲r̲r̲o̲w̲v̲e̲r̲t̲^5_{x=-5}=\frac…

上面的积分,和积分限的计算请自行打草稿,这里不再赘述了。
下面开始看看方差有哪些定理

Theorem Alternative Method for Calculating the Variance.For every random variable X X X , V a r ( X ) = E ( X 2 ) − [ E ( X ) ] 2 Var(X)=E(X^2)-[E(X)]^2 Var(X)=E(X2)[E(X)]2

这个定理中文不知道叫啥,二选一定理?不知道,反正结论是方差可以直接用两个期望计算,一个是随机变量的平方的期望,另一个是期望的平方。

证明:
V a r ( X ) = E [ ( X − μ ) 2 ] = E ( X 2 − 2 μ X + μ 2 ) = E ( X 2 ) − 2 μ E ( X ) + μ 2 = E ( X 2 ) − μ 2 \begin{aligned} Var(X) & =E[(X-\mu)^2]\\ & =E(X^2-2\mu X+\mu^2)\\ & =E(X^2)-2\mu E(X)+ \mu^2\\ & =E(X^2)-\mu^2 \end{aligned} Var(X)=E[(Xμ)2]=E(X22μX+μ2)=E(X2)2μE(X)+μ2=E(X2)μ2
Q.E.D

简单的计算过程,用到的性质都是期望的性质,所以又不懂回到前两篇重新研究。

方差和标准差只取决于其分布,而且其实际意义就是随机变量对均值 μ \mu μ 的离散程度,值越大说明越分散,相反,越小表示与均值越聚集。
这里可以有个例子,这里我就不写啦,大家自己看书吧

方差的性质 Properties of the Variance

学了定义,该学性质了,看起来方差的性质没有期望多,期望用了整整一课来说明,方差只是一个小section。

Theorem For each X X X , V a r ( X ) ≥ 0 Var(X)\geq 0 Var(X)0 .If X X X is a bounded random varibale,then V a r ( X ) Var(X) Var(X) must exist and be finite.

对于所有随机变量,其方差永远是大于等于零的,其为0的情况是当且仅当, P r ( X = μ ) = 1 Pr(X=\mu)=1 Pr(X=μ)=1
如果 随机变量 X X X 有界,那么其方差必然存在,并且是有限的。

这个定理的证明要靠概念,没有逻辑过程,首先根据定义,方差是个平方,所以其必然大于等于0,又因为方差存在与否取决于两个期望,如果这两个期望都存在,方差没有不存在的理由,故而有界随机变量存在期望,故成立,证毕。

Theorem V a r ( X = 0 ) Var(X=0) Var(X=0) if and only if there exists a constant c such that P r ( X = c ) = 1 Pr(X=c)=1 Pr(X=c)=1 ,then μ = c \mu=c μ=c and P r [ ( X − c ) 2 = 0 ] = 1 Pr[(X-c)^2=0]=1 Pr[(Xc)2=0]=1

哈哈,刚才一不小心把这个定理先直播出来了,那么我们就直接证明,证明 if and only if 要证明两个方向:

  1. 假设存在一个随机变量 X X X 和一个常数c 满足 P r ( X = c ) = 1 Pr(X=c)=1 Pr(X=c)=1 那么 E ( X ) = c E(X)=c E(X)=c 并且 P r [ ( X − c ) 2 = 0 ] = 1 Pr[(X-c)^2=0]=1 Pr[(Xc)2=0]=1 然后就有了
    V a r ( X ) = E [ ( X − c ) 2 ] = 0 Var(X)=E[(X-c)^2]=0 Var(X)=E[(Xc)2]=0

  2. 反过来假设 V a r ( X ) = 0 Var(X)=0 Var(X)=0

    • 那么就有 P r [ ( X − μ ) 2 ≥ 0 ] = 1 Pr[(X-\mu)^2\geq 0]=1 Pr[(Xμ)20]=1
    • 但是又因为 E [ ( X − μ ) 2 ] = 0 E[(X-\mu)^2]=0 E[(Xμ)2]=0 也就是 0 = ∫ − ∞ ∞ P r 【 ( x − μ ) 2 】 ( x − μ ) 2 d x 0=\int^{\infty}_{-\infty}Pr【(x-\mu)^2】(x-\mu)^2dx 0=Pr(xμ)2(xμ)2dx
    • 根据定理( Theorem Suppose that E ( x ) = a E(x)=a E(x)=a and that either P r ( X ≥ a ) = 1 Pr(X\geq a)=1 Pr(Xa)=1 or P r ( X ≤ a ) = 1 Pr(X\leq a)=1 Pr(Xa)=1 Then P r ( X = a ) = 1 Pr(X=a)=1 Pr(X=a)=1
    • 可以得到
      P r [ ( X − μ ) 2 = 0 ] = 1 Pr[(X-\mu)^2=0]=1 Pr[(Xμ)2=0]=1
      证毕(其实2中用的那个定理有点问题,我还没想明白)

Theorem For constant a a a and b b b let Y = a X + b Y=aX+b Y=aX+b Then
V a r ( Y ) = a 2 V a r ( X ) Var(Y)=a^2Var(X) Var(Y)=a2Var(X)
and σ Y = ∣ a ∣ σ X \sigma_Y=|a|\sigma_X σY=aσX
定理表明线性关系下,随机变量的方差的变化
证明:令 μ = E ( X ) \mu=E(X) μ=E(X) 那么根据上一篇我们有 E ( Y ) = a E ( X ) + b E(Y)=aE(X)+b E(Y)=aE(X)+b
V a r ( Y ) = E [ ( a X + b − a μ − b ) 2 ] = E [ ( a X − a μ ) 2 ] = a 2 E [ ( X − μ ) 2 ] = a 2 V a r ( X ) \begin{aligned} Var(Y) & =E[(aX+b-a\mu-b)^2]=E[(aX-a\mu)^2]\\ & =a^2E[(X-\mu)^2]=a^2Var(X) \end{aligned} Var(Y)=E[(aX+baμb)2]=E[(aXaμ)2]=a2E[(Xμ)2]=a2Var(X)

求平方根就能得到关于标准差的公式。
当线性变换中 a = 1 a=1 a=1 的时候就变成给分布搬家了,而其形状完全不变:

图上就是搬家计算了,图例中最后一个是错的,应该是 x − 3 x-3 x3

根据上面定理还能推导出一些其他关系式,比如说:
V a r ( − x ) = V a r ( x ) Var(-x)=Var(x) Var(x)=Var(x)

Theorem If X 1 , … , X n X_1,\dots,X_n X1,,Xn are independent random variable with finite means,Then
V a r ( X 1 + ⋯ + X n ) = V a r ( X 1 ) + ⋯ + V a r ( X n ) Var(X_1+\dots +X_n)=Var(X_1)+\dots+Var(X_n) Var(X1++Xn)=Var(X1)++Var(Xn)

独立随机变量之和的方差等去其方差之和,证明过程如下:
证明:
我们只证明两个独立随机变量的情况
假设 E [ X 1 ] = μ 1 E[X_1]=\mu_1 E[X1]=μ1 以及 E [ X 2 ] = μ 2 E[X_2]=\mu_2 E[X2]=μ2 然后有
E [ X 1 ] + E [ X 2 ] = μ 1 + μ 2 E[X_1]+E[X_2]=\mu_1+\mu_2 E[X1]+E[X2]=μ1+μ2

那么
V a r ( X 1 + X 2 ) = E [ ( X 1 + X 2 − μ 1 − μ 2 ) 2 ] = E [ ( X 1 − μ 1 ) 2 + ( X 2 − μ 2 ) 2 + 2 ( X 1 − μ 1 ) ( X 2 − μ 2 ) ] = E [ ( X 1 − μ 1 ) 2 ] + E [ ( X 2 − μ 2 ) 2 ] + E [ 2 ( X 1 − μ 1 ) ( X 2 − μ 2 ) ] = V a r ( X 1 ) + V a r ( X 2 ) + E [ 2 ( X 1 − μ 1 ) ( X 2 − μ 2 ) ] \begin {aligned} Var(X_1+X_2)& =E[(X_1+X_2-\mu_1-\mu_2)^2]\\ &=E[(X_1-\mu_1)^2+(X_2-\mu_2)^2+2(X_1-\mu_1)(X_2-\mu_2)]\\ &=E[(X_1-\mu_1)^2]+E[(X_2-\mu_2)^2]+E[2(X_1-\mu_1)(X_2-\mu_2)]\\ &=Var(X_1)+Var(X_2)+E[2(X_1-\mu_1)(X_2-\mu_2)] \end{aligned} Var(X1+X2)=E[(X1+X2μ1μ2)2]=E[(X1μ1)2+(X2μ2)2+2(X1μ1)(X2μ2)]=E[(X1μ1)2]+E[(X2μ2)2]+E[2(X1μ1)(X2μ2)]=Var(X1)+Var(X2)+E[2(X1μ1)(X2μ2)]
根据随机变量期望的性质
When  X 1 and  X 2 are independent E [ 2 ( X 1 − μ 1 ) ( X 2 − μ 2 ) ] = 2 × E [ ( X 1 − μ 1 ) ] E [ ( X 2 − μ 2 ) ] = 0 \text{When } X_1 \text{ and } X_2 \text{ are independent}\\ E[2(X_1-\mu_1)(X_2-\mu_2)]=2\times E[(X_1-\mu_1)]E[(X_2-\mu_2)]=0 When X1 and X2 are independentE[2(X1μ1)(X2μ2)]=2×E[(X1μ1)]E[(X2μ2)]=0
证毕

这就是关于独立随机变量方差之间的关系,但是如果不是独立的随机变量,他们的方差会是什么样的呢?这是个很有意思的课题,后面我们会介绍相关话题。

Corollary If X 1 , … , X n X_1,\dots,X_n X1,,Xn are independent random varibales with finite means,and if a 1 , … , a n a_1,\dots,a_n a1,,an then
V a r ( a 1 X 1 + ⋯ + a n X n ) = a 2 V a r ( X 1 ) + ⋯ + a n 2 V a r ( X n ) Var(a_1X_1+\dots+a_nX_n)=a^2Var(X_1)+\dots+a_n^2Var(X_n) Var(a1X1++anXn)=a2Var(X1)++an2Var(Xn)

这个推论的证明用到了上面两个已经被证明的定理,所以我们就不用证明了,没错,我又开始偷懒了。。

二项分布的方差 The Variance of a Binomial Distribution

二项式分布的方差:
独立同伯努利分布的随机变量的和是满足二项分布的随机变量,这个我们前面已经说过了,后面下一章还会再说,我们现在就假装知道他们是独立的就行,根据独立随机变量的方差性质。
V a r ( X ) = ∑ i = 1 n V a r ( X i ) Var(X)=\sum^{n}_{i=1}Var(X_i) Var(X)=i=1nVar(Xi)
然后我们根据二选一定理,某个伯努利随机变量 V a r ( X i ) = E ( X i 2 ) − [ E ( X i ) ] 2 Var(X_i)=E(X_i^2)-[E(X_i)]^2 Var(Xi)=E(Xi2)[E(Xi)]2 来计算方差,首先要得到 X i 2 X_i^2 Xi2 的方差,因为伯努利分布只有0和1,那么 X i 2 X_i^2 Xi2 也是0和1,故 X i 2 X_i^2 Xi2 的分布于原始 X i X_i Xi 的分布一样,均值是 p p p (参考不努力分布的期望)那么,我们就有
V a r ( X i ) = E ( X i 2 ) − [ E ( X i ) ] 2 = p − p 2 Var(X_i)=E(X_i^2)-[E(X_i)]^2=p-p^2 Var(Xi)=E(Xi2)[E(Xi)]2=pp2
这是对于某一个随机变量的方差,因为他们互不相关,所以把他们加起来就好了,最后结果:
V a r ( X ) = ∑ i = 1 n V a r ( X i ) = ∑ i = 1 n ( p − p 2 ) = n p ( 1 − p ) \begin{aligned} Var(X) & =\sum^{n}_{i=1} Var(X_i)\\ & =\sum^{n}_{i=1}(p-p^2)\\ &=np(1-p) \end{aligned} Var(X)=i=1nVar(Xi)=i=1n(pp2)=np(1p)
行了,就这么样了,二项分布的方差就是上面这个了。

四分位数范围 Interquartile Range

我们是否还记得方差的实际意义,他描述的是分布距离均值的离散程度,方差可以没有,也就是说当期望不存在或者无限的时候,方差可以不存在,但是描述分布的离散程度,这个可以有啊,所以我们就提出个新的数字特征,这个特征能帮忙解决没有方差,比如柯西分布,这种特殊的分布的离散程度的刻画。

Definition Interquartile Range(IQR). Let X be a random varibale with quatile function F − 1 ( p ) F^{-1}(p) F1(p) for 0 < p < 1 0<p<1 0<p<1 .The interquartile range (IQR) is defined to be F − 1 ( 0.75 ) − F − 1 ( 0.25 ) F^{-1}(0.75)-F^{-1}(0.25) F1(0.75)F1(0.25)

换句话说,IQR就是四分之一分位数,和四分之三分位数之间的距离。

总结

继期望过后,我们用期望引申出了一个更复杂的,刻画分布另一个性质的期望。
下几篇还是期望,我们本章就叫期望。
待续

这篇关于【概率论】4-3:方差(Variance)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/913129

相关文章

机械学习—零基础学习日志(概率论总笔记5)

引言——“黑天鹅” 要获得95%以上置信度的统计结果,需要被统计的对象出现上千次,但是如果整个样本只有几千字,被统计的对象能出现几次就不错了。这样得到的数据可能和真实的概率相差很远。怎么避免“黑天鹅”? 古德-图灵折扣估计法 在词语统计中,有点词语虽然是出现0次,但是实际的出现概率并不是永远不可能的零。 那需要把一些概率转移给到这些词语。 古德的做法实际上就是把出现1次的单词的总量,给了

【深度学习 误差计算】10分钟了解下均方差和交叉熵损失函数

常见的误差计算函数有均方差、交叉熵、KL 散度、Hinge Loss 函数等,其中均方差函数和交叉熵函数在深度学习中比较常见,均方差主要用于回归问题,交叉熵主要用于分类问题。下面我们来深刻理解下这两个概念。 1、均方差MSE。 预测值与真实值之差的平方和,再除以样本量。 均方差广泛应用在回归问题中,在分类问题中也可以应用均方差误差。 2、交叉熵 再介绍交叉熵损失函数之前,我们首先来介绍信息

概率论与数理统计(1)

第一节博客已经整理了求导的公式,一些常用的概念。链接如下:高等数学基础(1)-CSDN博客。         第二节博客整理了微积分的公式及其相关概念。链接如下:高等数学基础(2)——微积分-CSDN博客         第三节博客则整理了泰勒公式和拉格朗日公式的相关概念。链接如下:高等数学基础(3)——泰勒公式与拉格朗日-CSDN博客         第四节博客则整理了行

概率论 --- Uva 11181 Probability|Given

Uva 11181 Probability|Given  Problem's Link:   http://acm.hust.edu.cn/vjudge/problem/viewProblem.action?id=18546   Mean:  n个人去逛超市,第i个人会购买东西的概率是Pi。出超市以后发现有r个人买了东西,问你每个人购买东西的实际概率是多少。   analyse

概率学 笔记一 - 概率 - 随机变量 - 期望 - 方差 - 标准差(也不知道会不会有二)

概率不用介绍,它的定义可以用一个公式写出: 事件发生的概率 = 事件可能发生的个数 结果的总数 事件发生的概率=\cfrac{事件可能发生的个数}{结果的总数} 事件发生的概率=结果的总数事件可能发生的个数​ 比如一副标准的 52 张的扑克牌,每张牌都是唯一的,所以,抽一张牌时,每张牌的概率都是 1/52。但是有人就会说了,A 点明明有四张,怎么会是 1/52 的概率。 这就需要精准的指出

机械学习—零基础学习日志(概率论总笔记3)

“条件概率”和“本身概率” 对于几乎所有的随机事件来讲,条件概率由于条件的存在,它通常不等于本身的概率。前提条件会影响后续的概率,在一个前提条件下,某个时间发生的概率,我理解,这叫,条件概率。 写成P(事件|条件)的形式。 吴军老师给到的启发:很多人学习别人的经验,用到自己身上就不灵了,原因就是没有搞清楚条件。另一方面,有些原来大家认为不可能做成的事情,一旦条件具备,就成为了大概率事件。

方差(Variance) 偏差(bias) 过拟合 欠拟合

机器学习中方差(Variance)和偏差(bias)的区别?与过拟合欠拟合的关系?   (1)bias描述的是根据样本拟合出的模型的输出预测结果的期望与样本真实结果的差距,简单讲,就是在样本上拟合的好不好。 低偏差和高方差(对应右上图)是使得模型复杂,增加了模型的参数,这样容易过拟合。 这种情况下,形象的讲,瞄的很准,但手不一定稳。 (2)varience描述的是样本上训练出来的模型

概率论原理精解【11】

文章目录 测度论拓扑基定义性质应用拓扑基生成拓扑的过程1. 拓扑基的定义2. 由拓扑基生成拓扑3. 例子说明 4. 总结例子 子基基础例子构造由子基生成的拓扑基础拓扑子基的定义解释例子总结 子基(subbase)是一个用于生成拓扑的较弱的工具定义构造过程性质示例例子 1: 实数线上的半开区间例子 2: 离散拓扑例子 3: 有限补拓扑 参考文献 测度论 拓扑基 是拓扑学中的一