【概率论】5-2:伯努利和二项分布(The Bernoulli and Binomial Distributions)

本文主要是介绍【概率论】5-2:伯努利和二项分布(The Bernoulli and Binomial Distributions),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

原文地址1:https://www.face2ai.com/Math-Probability-5-2-the-Bernoulli-and-Binomial-Distributions转载请标明出处

Abstract: 本文介绍Bernoulli Distribution (伯努利分布)和Binomial Distribution(二项分布)
Keywords: Bernoulli Distributions,Binomial Distributions

伯努利和二项分布

吐血更,一天三篇,虽然上一篇只能算一段,但是确实应该加快总结的步伐了,给后面的新内容腾出足够的时间

一杯敬自由,一杯敬死亡

在本章的开始,我们从离散分布下手,看看每个分布有这什么样的特点,然后用我们的工具分析研究其内在的性质,当然要从最简单的开始,逐步构建出我们要研究的有代表性的这些分布,第一个被处理的就是伯努利分布(bernoulli Distribution)
随机变量 X X X 只有两个取值,0或者1,并且取1的概率固定是 p p p 那么我们就说 X X X 有一个参数为 p p p 的伯努利分布。如果我们只知道试验输出对应的随机变量只有两个结果,非此即彼,那么这个随机变量的分布就是伯努利族中的一个随机变量。
如果随机变量 X 1 , X 2 , … , X n X_1,X_2,\dots,X_n X1,X2,,Xn 有相同的伯努利分布,他们的和就是其中为1的随机变量的个数,这个个数也是随机的,其对应的分布为二项分布。

伯努利分布 The Bernoulli Distributions

上来先来个例子:


临床试验,对于某种治疗,我们简单的把结果划分成两种,一种有效,一种无效,我们用随机变量来表示这两个结果, X = 1 X=1 X=1 表示治疗有效 X = 0 X=0 X=0 表示治疗无效,那么我们要做的是得到这个概率就是 P r ( X = 1 ) = p Pr(X=1)=p Pr(X=1)=p 的值就是我们关心的结果。 p p p 的取值范围在 [ 0 , 1 ] [0,1] [0,1] 对应于不同的 p p p 我们就有了伯努利分布族。


Definition Bernoulli Distribution.A random variable X has the Bernoulli distribution with parameter p p p ( 0 ≤ p ≤ 1 0\leq p\leq 1 0p1 )if X can take only the values 0 and 1 and the probabilities are
P r ( X = 1 ) = p Pr(X=1)=p Pr(X=1)=p
and
P r ( X = 0 ) = 1 − p Pr(X=0)=1-p Pr(X=0)=1p

其概率函数可以被写成:
f ( x ∣ p ) = { p x ( 1 − p ) 1 − x for  x = 0 , 1 0 otherwise f(x|p)= \begin{cases} p^x(1-p)^{1-x}&\text{ for }x=0,1\\ 0&\text{otherwise} \end{cases} f(xp)={px(1p)1x0 for x=0,1otherwise
p.f.的表示方法可以看出伯努利分布是依赖于参数 p p p 的,所以 p p p 可以看成一个条件,那么我们后面所有类似的分布都可以将其p.f.或者p.d.f.写成这种形式。
c.d.f.(似乎我们学c.d.f的时候已经讲过了)可以被写成:
F ( x ∣ p ) = { 0 for  x < 0 1 − p for  0 < x < 1 1 for  x ≥ 1 F(x|p)= \begin{cases} 0&\text{ for }x<0 \\ 1-p&\text{ for }0 < x < 1 \\ 1&\text{ for }x\geq 1 \end{cases} F(xp)=01p1 for x<0 for 0<x<1 for x1

期望 Expectation

当我们研究完其p.f.和c.d.f.以后就研究研究他的期望吧,也没啥可研究的了,随机变量 X X X 有参数为 p p p 的伯努利分布,那么其期望:
E ( X ) = p × 1 + 0 × ( 1 − p ) = p E(X)=p\times1 + 0\times(1-p)=p E(X)=p×1+0×(1p)=p
然后我们研究一下随机变量 X 2 X^2 X2 的概率分布
E ( X 2 ) = p × 1 2 + ( 1 − p ) × 0 2 = p E(X^2)=p\times1^2 + (1-p)\times0^2=p E(X2)=p×12+(1p)×02=p

方差 Variance

期望完了当然是方差了,同样是随机变量 X X X 有参数为 p p p 的伯努利分布,那么其方差:
V a r ( X ) = E [ ( X − E ( X ) ) 2 ] = ( 1 − p ) 2 p + ( − p ) 2 ( 1 − p ) = p ( 1 − p ) ( 1 − p + p ) = p ( 1 − p ) Var(X)=E[(X-E(X))^2]=(1-p)^2p+(-p)^2(1-p)=p(1-p)(1-p+p)=p(1-p) Var(X)=E[(XE(X))2]=(1p)2p+(p)2(1p)=p(1p)(1p+p)=p(1p)
或者通过更简单的公式:
V a r ( X ) = E [ X 2 ] − E 2 [ X ] = p − p 2 = p ( 1 − p ) Var(X)=E[X^2]-E^2[X]=p-p^2=p(1-p) Var(X)=E[X2]E2[X]=pp2=p(1p)
结果一致。

距生成函数 m.g.f.

我们说过除了p.d.f./p.f.和c.d.f.,m.g.f.也是非常重要的分布标书工具,所以伯努利分布自然也有m.g.f.
ψ ( t ) = E [ e t X ] = p ( e t × 1 ) + ( 1 − p ) ( e t × 0 ) for  − ∞ < t < ∞ \begin {aligned} \psi(t)=E[e^{tX}]=p(e^{t\times 1})+(1-p)(e^{t\times 0}) &\text{ for } -\infty<t<\infty \end {aligned} ψ(t)=E[etX]=p(et×1)+(1p)(et×0) for <t<
这个写起来应该没啥难度,注意好 X X X 就行,然后就是期望对应的概率值。

伯努利过程 Bernoulli Trials/Process

说到序列我就想起了数学分析,Tao的分析我们已经开始更新了,但是我想把概率基础部分先写完,然后一边研究数理统计一边写分析的博客,想到分析的原因是我看到了序列
如果一个序列不论是否有限,每一个元素都是独立同分布的(i.i.d.)的伯努利随机变量,那么我们就叫他们伯努利序列或者伯努利过程。

Definition Bernoulli Trails/Process.If the random variables in a finite or infinite sequence X 1 , X 2 , … X_1,X_2,\dots X1,X2, and i.i.d.,and if each random variable X i X_i Xi has the Bernoulli distribution with parameter p,then it is said that X 1 , X 2 , … X_1,X_2,\dots X1,X2, are Bernoulli trials with parameter p p p .An infinite sequence of Bernoulli trials is also called a Bernoulli Process.

伯努利过程的例子最简单的就是连续丢同一枚硬币,组成的结果正反,就组成了伯努利过程。

二项分布 The Binomial Distributions

举个例子,这个例子和上面伯努利过程有关,连续生产一批零件,每个零件有一定的合格率,,所有零件组成的序列是一个伯努利过程,那么么我们想知道这些随机变量的和满足怎么样的分布。

Definition Binomial Distribution.A random variable X X X has the binomial distribution with parameters n n n and p p p if X X X has a discrete distribution for which the p.f. is as follow:
f ( x ∣ n , p ) = { ( n x ) p x ( 1 − p ) n − x for  x = 0 , 1 , … 0 otherwise f(x|n,p)= \begin{cases} \begin{pmatrix}n\\x\end{pmatrix} p^x(1-p)^{n-x }&\text{ for }x=0,1,\dots\\ 0&\text{otherwise} \end{cases} f(xn,p)=(nx)px(1p)nx0 for x=0,1,otherwise
in this distribution , n n n must be a positive integer, and p p p must lie in the interval 0 ≤ p ≤ 1 0\leq p\leq 1 0p1

这个定义确实是以定义的语言风格来写的,直接明了的告诉你,什么东西,叫什么名字,来源出处并不是定义要阐述的,但是我们要从理论上分析为啥这就是二项分布了呢?二项分布首先是因为这个分布产生系数和二项式系数一致,而且中有两个项,而其来源是多个独立同分布的伯努利分布随机变量求和结果。

注意:二项分布是概率论和数理统计的重要基础!

Theorem If the random varibales X 1 , … , X n X_1,\dots,X_n X1,,Xn from n n n Bernoulli trials with parameter p p p ,and if X = X 1 + ⋯ + X n X=X_1+\dots+X_n X=X1++Xn ,then X X X has the binomial distribution with parameters n n n and p p p

这个定理的证明用到的是前面计数方法以及乘法法则,加法法则,也就是 n n n 个样本中每一个都有 p p p 的概率是1,其余是0,总和是 x x x 的组合方法共有 ( n x ) \begin{pmatrix}n\\x\end{pmatrix} (nx) 种,所以把这些种概率 p x ( 1 − p ) n − x p^x(1-p)^{n-x } px(1p)nx 相加就得到了结果,被定义为二项分布。

根据上面这条定理,我们可以很轻松的计算二项分布的数字特征了。终于知道学习那些数字特征的计算法则的用途了,下面将会非常简单。

期望 Expectation

随机变量 X X X 是一个参数为 n n n p p p 的二项分布,那么其期望是:
E ( X ) = ∑ i = 0 n E ( X i ) = n p E(X)=\sum^{n}_{i=0}E(X_i)=np E(X)=i=0nE(Xi)=np
用到的法则:

  1. 独立的随机变量的和的期望,等于期望的和

方差 Variance

随机变量 X X X 是一个参数为 n n n p p p 的二项分布,那么其方差是:
V a r ( X ) = ∑ i = 1 n = n p ( 1 − p ) Var(X)=\sum^{n}_{i=1}=np(1-p) Var(X)=i=1n=np(1p)
用到的法则:

  1. 独立的随机变量的和的方差,等于方差的和

如果使用别的方法求方差会非常麻烦,比如定义或者 V a r ( X ) = E [ X 2 ] − E 2 [ X ] Var(X)=E[X^2]-E^2[X] Var(X)=E[X2]E2[X] 别问我怎么知道的。

距生成函数 m.g.f.

随机变量 X X X 是一个参数为 n n n p p p 的二项分布,那么其距生成函数是:
ψ ( t ) = E ( e t X ) = Π i = 1 n E ( e t X i ) = ( p e t + 1 − p ) n \psi(t)=E(e^{tX})=\Pi^{n}_{i=1}E(e^{tX_i})=(pe^t+1-p)^n ψ(t)=E(etX)=Πi=1nE(etXi)=(pet+1p)n
用到的法则:

  1. 独立的随机变量的和的m.g.f.,等于m.g.f.的累积

二项分布随机变量相加

Theorem If X 1 , … , X n X_1,\dots,X_n X1,,Xn are independent random varibales,and if X i X_i Xi has the binomial distribution with parameters n i n_i ni and p p p ( i = 1 , … , k i=1,\dots,k i=1,,k ) ,then the sum X 1 + ⋯ + X k X_1+\dots+X_k X1++Xk has the binomial distribution with parameters n = n 1 + ⋯ + n k n=n_1+\dots+n_k n=n1++nk and p p p .

当多个二项分布有不同的 n n n 但是有相同的 p p p 那么他们可以相加, n n n 是所有 n n n 的和, p p p 不变,这个可以根据将二项分布打散成伯努利分布然后再加起来可以看出来定理是正确的

那么什么时候可以使用上述定理呢?

  1. 所有随机变量相互独立
  2. 参数 p p p 必须相同

这两点有任何一点不成立,上面的定理都不成立。
书上接着给了个大长例子,讲的是血液检验,还有到了二分查找法,可以看看

总结

本文介绍伯努利分布和二项分布,分析了其对应数字特征,和m.g.f下一篇我们继续研究分布——超几何分布。
待续。。。

这篇关于【概率论】5-2:伯努利和二项分布(The Bernoulli and Binomial Distributions)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/913135

相关文章

机械学习—零基础学习日志(概率论总笔记5)

引言——“黑天鹅” 要获得95%以上置信度的统计结果,需要被统计的对象出现上千次,但是如果整个样本只有几千字,被统计的对象能出现几次就不错了。这样得到的数据可能和真实的概率相差很远。怎么避免“黑天鹅”? 古德-图灵折扣估计法 在词语统计中,有点词语虽然是出现0次,但是实际的出现概率并不是永远不可能的零。 那需要把一些概率转移给到这些词语。 古德的做法实际上就是把出现1次的单词的总量,给了

概率论与数理统计(1)

第一节博客已经整理了求导的公式,一些常用的概念。链接如下:高等数学基础(1)-CSDN博客。         第二节博客整理了微积分的公式及其相关概念。链接如下:高等数学基础(2)——微积分-CSDN博客         第三节博客则整理了泰勒公式和拉格朗日公式的相关概念。链接如下:高等数学基础(3)——泰勒公式与拉格朗日-CSDN博客         第四节博客则整理了行

概率论 --- Uva 11181 Probability|Given

Uva 11181 Probability|Given  Problem's Link:   http://acm.hust.edu.cn/vjudge/problem/viewProblem.action?id=18546   Mean:  n个人去逛超市,第i个人会购买东西的概率是Pi。出超市以后发现有r个人买了东西,问你每个人购买东西的实际概率是多少。   analyse

机械学习—零基础学习日志(概率论总笔记3)

“条件概率”和“本身概率” 对于几乎所有的随机事件来讲,条件概率由于条件的存在,它通常不等于本身的概率。前提条件会影响后续的概率,在一个前提条件下,某个时间发生的概率,我理解,这叫,条件概率。 写成P(事件|条件)的形式。 吴军老师给到的启发:很多人学习别人的经验,用到自己身上就不灵了,原因就是没有搞清楚条件。另一方面,有些原来大家认为不可能做成的事情,一旦条件具备,就成为了大概率事件。

概率论原理精解【11】

文章目录 测度论拓扑基定义性质应用拓扑基生成拓扑的过程1. 拓扑基的定义2. 由拓扑基生成拓扑3. 例子说明 4. 总结例子 子基基础例子构造由子基生成的拓扑基础拓扑子基的定义解释例子总结 子基(subbase)是一个用于生成拓扑的较弱的工具定义构造过程性质示例例子 1: 实数线上的半开区间例子 2: 离散拓扑例子 3: 有限补拓扑 参考文献 测度论 拓扑基 是拓扑学中的一

概率论原理精解【10】

文章目录 测度论拓扑基定义性质例子应用拓扑基的例子例题 子基基础例子构造由子基生成的拓扑 子基(subbase)是一个用于生成拓扑的较弱的工具定义构造过程性质示例例子 1: 实数线上的半开区间例子 2: 离散拓扑例子 3: 有限补拓扑 参考文献 测度论 拓扑基 是拓扑学中的一个重要概念,用于描述拓扑空间的基本结构。以下是对拓扑基的详细解释: 定义 设 X X X是拓扑空间

概率论的本质

几何分布 第一次出现正面所需要的次数 E(x) = 1/p Var(x) = (1-p)/p^2 柏松分布 其实是二项分布的一个简化版。n很大, p很小 p(k) = e-m (x^k/k!) 期望 E(x) = sum{xp(x)} Var(x) =E[(x-Ex)^2] 平均分布 E(x) = (a+b)/2 Var(x) = (n^2 - 1)/12 疑问: P105