如何深刻理解从二项式分布到泊松分布

2023-11-27 03:52

本文主要是介绍如何深刻理解从二项式分布到泊松分布,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述
泊松镇贴

二项分布和泊松分布的表达式

二项分布:
P ( x = k ) = C n k p k ( 1 − p ) n − k P(x=k) = C_n^kp^k(1-p)^{n-k} P(x=k)=Cnkpk(1p)nk

泊松分布:
P ( x = k ) = λ k k ! e − λ P(x=k) = \frac{\lambda^k}{k!}e^{-\lambda} P(x=k)=k!λkeλ

一个现实生活中的例子

一条汽车单向行驶的公路边有个便利店,店家经过一周的统计,得到数据:上个周一共有100辆次的车从这个便利店通过,其中有5辆次的车来买了东西。那么,店家现在想用这个数据来推测,下周,有6辆次的车会在这个便利店买东西的概率是多少?

现在,假设我们只知道二项分布而对泊松分布一无所知,我们如何通过构建二项分布的数学模型来解决这个问题呢?

这是二项分布的经典场景。对于通过的每一辆车,它只有两种可能的观测结果,那就是买东西和不买东西。这是一个 0-1 分布。现在我们做一个假设,假设每辆车通过时停下来买东西的概率是一样的(这样做假设不会影响整体的推测,因为做统计时,我们只统计了通过的车的总辆次和停下来买东西的车的总次数,也就是说做统计时每辆车是没有区别的)。通过买东西的车的总辆次 / 通过的车的总辆次,我们能得到每一辆车的 0-1 分布,任意一辆车停下来买东西的概率 P 为: 5 100 = 0.05 \frac{5}{100}=0.05 1005=0.05

行为买东西不买东西
P0.050.95

现在,我们已经通过对之前统计的数据的分析,知道了任意一辆车通过时停下来买东西的概率。如何通过这个0-1分布来做预测?那就做独立重复实验(也就是伯努利试验),假设有 n 辆车在下个周通过该路口,每辆车停下来买东西的概率都是 p,则有 k 辆车到商店买东西的概率为:

P ( x = k ) = C n k p k ( 1 − p ) n − k P(x=k) = C_n^kp^k(1-p)^{n-k} P(x=k)=Cnkpk(1p)nk
为此,我们必须颇为无奈地对下个周通过这条路的车的总辆次做个假设,那就是也通过100辆。现在我们就能做预测啦!
P ( x = 6 ) = C 100 6 × 0.0 5 6 × ( 1 − 0.05 ) 100 − 6 ≈ 0.15 P(x=6) = C_{100}^{6}\times0.05^{6}\times(1-0.05)^{100-6} \approx 0.15 P(x=6)=C1006×0.056×(10.05)10060.15

如果以时间为维度来考量,二项分布就会出问题

上一种通过二项分布来做预测的方法,依赖于我们需要做一个假设,即下一个周通过这条路的车的总辆次是100辆。现在我们想绕过需要对总辆次做假设这一障碍,用时间来作为观察的基准。但是因为二项分布所对应的伯努利实验的每一次实验是零散的,所以不得不将连续的时间进行分割。这就要涉及到单位时间,我们不妨把单位时间设置成小时,1周 = 7 × 24 = 168 7 \times 24 = 168 7×24=168 小时。根据之前的观察,一共有 5 辆车次的车去到商店买东西,也就是说,每小时有车进商店买东西的概率为 P = 5 168 ≈ 0.02976 P=\frac{5}{168}\approx 0.02976 P=16850.02976。好像,我们又可以像上面那样去建立一个关于单位时间的0-1分布了。但是其实这个模型缺陷就出来了,由于考察的对象是单位时间,它的结果不再只有两个,即该时间段进入商店买东西的车的数量除了0、1,还可能是2、3、4、…,所以其实用0-1分布来对单位时间进入商店的车的数量进行模拟是不太科学的。

那怎么办呢?自然而然,会想到将单位时间继续分割为更小的单位时间,如果把小时分割为分钟,那每分钟就可以做60次独立重复实验,也就是说这下每分钟最多可以有60辆车进入商店买东西了。但是这样仍然不满足时间这个连续的度量,要是出现极端情况,每分钟有70辆车进入商店呢,这个模型又没法满足了。自然而然,我们想到将时间无限的分割下去。在非常非常小的一段时间里,我们就能做0-1分布的假设了,即在这段时间里只有 0 或 1 辆车进入商店买东西。但是无限的分割时间之后,我们还怎么计算这个无穷小的单位时间里车进入商店的概率呢?答案是,根本就不用去计算。因为我们的观测量是一个周汽车进入商店的辆次的总数,不妨把它记为 λ \lambda λ,它满足下面的等式:

λ = n p \lambda = n p λ=np
其中 n 为将一周的时间无限分割成的无穷小的单位时间的总份数,而 p 是分割成这么多份数之后,根据观测值 λ \lambda λ 所计算出来的该单位时间里有车辆进入商店的概率。

从二项式公式推导泊松公式

P ( X = k ) = lim ⁡ n → ∞ C n k p k ( 1 − p ) n − k = lim ⁡ n → ∞ C n k ( λ n ) k ( 1 − λ n ) n − k = lim ⁡ n → ∞ n × ( n − 1 ) × ⋯ × ( n − k + 1 ) k ! ( λ n ) k ( 1 − λ n ) n ( 1 − λ n ) − k = lim ⁡ n → ∞ n × ( n − 1 ) × ⋯ × ( n − k + 1 ) n × n × ⋯ × n λ k k ! ( 1 − λ n ) − k ( 1 − λ n ) n = 1 × λ k k ! × 1 × e − λ = λ k k ! e − λ \begin{align*} P(X=k) & = \lim_{n\rightarrow\infty}C_n^kp^k(1-p)^{n-k}\\ &= \lim_{n\rightarrow\infty}C_n^k(\frac{\lambda}{n})^k(1-\frac{\lambda}{n})^{n-k}\\ &= \lim_{n\rightarrow\infty}\frac{n\times(n-1)\times\cdots\times(n-k+1)}{k!}(\frac{\lambda}{n})^k(1-\frac{\lambda}{n})^{n}(1-\frac{\lambda}{n})^{-k}\\ &=\lim_{n\rightarrow\infty}\frac{n\times(n-1)\times\cdots\times(n-k+1)}{n\times n\times\cdots\times n}\frac{\lambda^k}{k!}(1-\frac{\lambda}{n})^{-k}(1-\frac{\lambda}{n})^{n}\\ &= 1\times \frac{\lambda^k}{k!} \times 1 \times e^{-\lambda} \\ &= \frac{\lambda^k}{k!}e^{-\lambda} \end{align*} P(X=k)=nlimCnkpk(1p)nk=nlimCnk(nλ)k(1nλ)nk=nlimk!n×(n1)××(nk+1)(nλ)k(1nλ)n(1nλ)k=nlimn×n××nn×(n1)××(nk+1)k!λk(1nλ)k(1nλ)n=1×k!λk×1×eλ=k!λkeλ
推导之后我们发现,其实根本不需要用到 n 和 p 这两个数据,而只有观测值 λ \lambda λ。到这里是不是觉得泊松大大干了一件非常有价值的事情!

通过泊松分布来对这个问题进行预测

根据之前的统计, λ = 5 \lambda = 5 λ=5
P ( X = 6 ) = 5 6 6 ! e − 5 ≈ 0.1462 P(X=6) = \frac{5^6}{6!}e^{-5} \approx 0.1462 P(X=6)=6!56e50.1462

总结

根据二项分布推导出了泊松分布,并不代表二项分布就没有泊松分布先进,只是对于解决连续时间的这种问题,显然泊松分布更好用。但是有些情况下,二项分布会更好用。

这篇关于如何深刻理解从二项式分布到泊松分布的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/427009

相关文章

全英文地图/天地图和谷歌瓦片地图杂交/设备分布和轨迹回放/无需翻墙离线使用

一、前言说明 随着风云局势的剧烈变化,对我们搞软件开发的人员来说,影响也是越发明显,比如之前对美对欧的软件居多,现在慢慢的变成了对大鹅和中东以及非洲的居多,这两年明显问有没有俄语或者阿拉伯语的输入法的增多,这要是放在2019年以前,一年也遇不到一个人问这种需求场景的。 地图应用这块也是,之前的应用主要在国内,现在慢慢的多了一些外国的应用场景,这就遇到一个大问题,我们平时主要开发用的都是国内的地

【Get深一度】谐振腔中的电场(E Field[V_per_m])与磁场(H field[A_per_m])分布

1.模式1[TM010模]的电场和磁场分布                  模式1在腔体横截面(XY)上的电磁场分布

[转载]t检验、t分布、t值

1. t检验的历史   阿瑟·健力士公司(Arthur Guinness Son Co.)是一家由阿瑟·健力士(Arthur Guinness)于1759年在爱尔兰都柏林建立的一家酿酒公司:   不过它最出名的却不是啤酒,而是《吉尼斯世界纪录大全》:   1951年11月10日,健力士酒厂的董事休·比佛爵士(Sir Hugh Beaver)在爱尔兰韦克斯福德郡打猎时,因为没打中金鸻,于

量化交易面试:什么是二项式模型?

二项式模型是一种用于描述具有两个可能结果的随机过程的统计模型。它在金融领域特别是在量化交易中有多种应用,比如股票价格变动、期权定价等。以下是对二项式模型的详细解释: 基本概念: 二项式模型基于二项分布,即每次实验只有两个可能的结果:成功(通常记为1)或失败(通常记为0)。在金融中,这通常用于模型化资产价格在特定时间内的涨跌。 二项式树: 在量化交易中,二项式模型通常以二项式树的形式表示。在

开绕组永磁电机驱动系统零序电流抑制策略研究(7)——基于零矢量重新分布的120°矢量解耦/中间六边形调制零序电流抑制策略

1.前言 很久没有更新过开绕组电机的仿真了。在一年前发了开绕组的各种调制策略。开绕组电机最常见的两种解耦调制就是120°矢量解耦/中间六边形调制和180°矢量解耦/最大六边形调制。 我当时想的是,180°解耦调制/最大六边形调制的电压利用率最高,所以我就一直用这个调制方式。但是近年来做开绕组电机的基本都是华科的老师,而他们都采用了120°调制/中间六边形调制。 我之前是做了120°解耦调

全球1km分辨率人口分布栅格数据

我们在《全国省市县三级“七普”人口数据分享》一文中,为你分享过全国人口数据。 现在再为你分享全球1km分辨率人口分布栅格数据,你可以在文末查看该数据的领取方法。 全球1km分辨率人口分布 人口空间分布数据是在各项研究中经常使用的数据,它在人口分布模拟、环境评估、城市规划等领域具有重要的作用。 我国县级人口分布密度示意 现在给你分享的全球1km分辨率人口分布栅格数据,来源于Land

2019年Android版本分布(市场占有率、市场份额)统计

分发仪表板 此页面提供有关共享特定特征的设备的相对数量的信息,例如Android版本或屏幕大小。每个数据快照代表过去7天内访问过Google Play商店的所有设备。通过显示Android和Google Play生态系统中哪些设备处于活动状态,信息此柯林斯帮助您确定请立即获取iTunes不同设备的工作的优先顺序。 如果您想想查看用户运行应用的设备的信息,您可以使用Google Play控制台。