概率论与数理统计期末复习

2024-06-21 23:28

本文主要是介绍概率论与数理统计期末复习,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

概率论常考知识点汇总

请添加图片描述
请添加图片描述

请添加图片描述请添加图片描述请添加图片描述
请添加图片描述请添加图片描述

总括

1. 基础概率论

  • 概率定义:理解概率是事件发生的可能性度量,范围从0(不可能)到1(必然发生)。
  • 概率公理:掌握概率的三大公理,即非负性、规范性和可加性。
  • 条件概率:P(A|B)表示在事件B已发生的条件下,事件A发生的概率。
  • 贝叶斯定理:用于计算在已知某些证据或数据的条件下,某个假设为真的概率。
  • 独立事件与相关事件:理解独立事件的概率乘法规则及相关事件的处理方法。

2. 随机变量及其分布

  • 离散随机变量:了解伯努利分布、二项分布、泊松分布等,以及它们的应用场景。
  • 连续随机变量:熟悉均匀分布、正态分布(高斯分布)、指数分布等,掌握其概率密度函数(PDF)和累积分布函数(CDF)。
  • 联合分布与边缘分布:理解多维随机变量的联合分布,及其边缘分布的计算方法。
  • 条件分布与协方差:学习如何基于给定条件下一个随机变量的分布,以及随机变量间的相互依赖关系。

3. 数理统计基础

  • 点估计:了解均值、中位数、众数作为参数的估计方法,以及最大似然估计和最小二乘法。
  • 区间估计:掌握置信区间的概念,理解如何构建参数的置信区间,特别是正态分布情况下的Z检验和t检验。
  • 假设检验:熟悉原假设与备择假设,掌握单样本和双样本检验,包括显著性水平、p值的理解与应用。
  • 方差分析(ANOVA):理解方差分析的基本原理,用于比较两个以上样本均值是否存在显著差异。

4. 高级主题(根据兴趣选择)

  • 贝叶斯统计:深入理解贝叶斯分析,包括先验概率、后验概率和贝叶斯推断。
  • 大数定律与中心极限定理:掌握这两个定理对于统计推断的重要意义。
  • 非参数统计:了解当数据不符合正态分布或其他特定分布时,使用如卡方检验、秩和检验等非参数方法。
  • 时间序列分析:研究随时间变化的数据序列,涉及自回归模型(AR)、移动平均模型(MA)及它们的组合ARIMA等。

基本概率公式

在概率论中,事件之间的关系及其运算主要涉及交集、并集、补事件以及条件概率,这些是理解和计算复合事件概率的基础。下面详细解释这些概念:

1. 交集 (Intersection)

  • 定义:如果A和B是两个事件,那么A∩B表示事件A和事件B同时发生的事件。即A和B的交集包含了所有既属于A又属于B的样本点。
  • 概率运算:事件A和B同时发生的概率,记作P(A∩B),等于各自发生的概率的乘积,仅当A和B是独立事件时,即P(A∩B) = P(A) * P(B)。若A和B不独立,则需要根据具体情况计算。

2. 并集 (Union)

  • 定义:事件A和B的并集,记作A∪B,包含所有至少属于A或B(或两者都属于)的样本点。

  • 概率运算

    :事件A或B至少有一个发生的概率,记作P(A∪B),可以通过以下公式计算:

    𝑃(𝐴∪𝐵)=𝑃(𝐴)+𝑃(𝐵)−𝑃(𝐴∩𝐵)P(A∪B)=P(A)+P(B)−P(A∩B)

    这里减去P(A∩B)是为了避免A和B共同部分被重复计算。

3. 补事件 (Complement)

  • 定义:对于任意事件A,它的补事件记作A’或𝐴ˉAˉ,表示A不发生的事件。
  • 概率运算:一个事件与其补事件的概率之和等于1,即P(A’) = 1 - P(A)。补事件的概念简化了某些问题的处理,特别是在计算“至少”或“至多”这类问题时。

4. 条件概率 (Conditional Probability)

  • 定义:在事件B已经发生的条件下,事件A发生的概率,记作P(A|B)。

  • 计算公式

    𝑃(𝐴∣𝐵)=𝑃(𝐴∩𝐵)𝑃(𝐵)P(A∣B)=P(B)P(A∩B)

    只有当P(B) > 0时,上述公式才有意义。

5. 乘法法则 (Multiplication Rule)

  • 用于计算两个事件同时发生的概率,特别地,它也关联条件概率和无条件概率的关系:

    𝑃(𝐴∩𝐵)=𝑃(𝐴)⋅𝑃(𝐵∣𝐴)=𝑃(𝐵)⋅𝑃(𝐴∣𝐵)P(A∩B)=P(A)⋅P(B∣A)=P(B)⋅P(A∣B)

    这表明可以从不同的角度理解两个事件同时发生的概率

随机变量

随机变量

定义:随机变量是将随机试验的结果与实数建立对应关系的函数。它可以分为两种类型:

  • 离散随机变量:取值为有限个或可数无限个确定值的随机变量,如抛掷一枚骰子得到的点数。
  • 连续随机变量:取值可以在某个区间内取任何值(理论上无限多)的随机变量,如测量一个人的身高。

分布函数

定义:随机变量 𝑋X 的分布函数(Cumulative Distribution Function, CDF),记作 𝐹(𝑥)F(x),定义为随机变量 𝑋X 取值小于或等于 𝑥x 的概率。形式上,对于任意实数 𝑥x,有:

𝐹(𝑥)=𝑃(𝑋≤𝑥)F(x)=P(X≤x)

性质

  1. 单调性:分布函数 𝐹(𝑥)F(x) 是单调不减的,即如果 𝑥1<𝑥2x1<x2,则 𝐹(𝑥1)≤𝐹(𝑥2)F(x1)≤F(x2)。
  2. 右连续性:𝐹(𝑥)F(x) 在每一个点 𝑥x 处都是右连续的,意味着 𝐹(𝑥)F(x) 在 𝑥x 的右侧极限存在,并等于 𝐹(𝑥)F(x) 在 𝑥x 处的值。
  3. 边界条件:分布函数在 −∞−∞ 处为 0,在 +∞+∞ 处为 1,即 𝐹(−∞)=0F(−∞)=0,𝐹(+∞)=1F(+∞)=1。
  4. 概率计算:对于任意两个实数 𝑎a 和 𝑏b,若 𝑎<𝑏a<b,则随机变量 𝑋X 落在区间 (𝑎,𝑏](a,b] 内的概率为 𝑃(𝑎<𝑋≤𝑏)=𝐹(𝑏)−𝐹(𝑎)P(a<X≤b)=F(b)−F(a)。

分布函数的分类

  • 离散随机变量的分布函数:通常是阶梯函数,每一步的跳跃高度代表相应值的概率质量。
  • 连续随机变量的分布函数:对于连续型随机变量,分布函数是连续的,而概率密度函数 𝑓(𝑥)f(x) 与分布函数的关系为 𝐹′(𝑥)=𝑓(𝑥)F′(x)=f(x) 在 𝑓(𝑥)f(x) 连续的地方成立,即分布函数的导数(在定义的地方)给出了概率密度。

离散型概率以及分布

离散型概率分布描述的是离散随机变量取不同值的概率。离散随机变量只能取有限个或可数无限个值,每个值都有一个明确的概率与之对应。下面是几个典型的离散型概率分布及其特征:

1. 伯努利分布 (Bernoulli Distribution)

  • 定义:伯努利试验是指只有两种可能结果的试验,通常称为“成功”和“失败”,且每次试验这两种结果的概率保持不变。设成功的概率为 𝑝p,失败的概率为 1−𝑝1−p,则一个伯努利随机变量 𝑋X 取值为1(成功)的概率为 𝑝p,取值为0(失败)的概率为 1−𝑝1−p。
  • 概率质量函数 (PMF):𝑃(𝑋=𝑘)=𝑝𝑘(1−𝑝)1−𝑘P(X=k)=pk(1−p)1−k,其中 𝑘=0,1k=0,1。

2. 二项分布 (Binomial Distribution)

  • 定义:在一系列独立的伯努利试验中,成功次数的分布称为二项分布。如果进行了 𝑛n 次独立的伯努利试验,每次试验成功的概率为 𝑝p,则在这些试验中恰好成功 𝑘k 次的概率服从二项分布。
  • PMF:𝑃(𝑋=𝑘)=(𝑛𝑘)𝑝𝑘(1−𝑝)𝑛−𝑘P(X=k)=(kn)pk(1−p)n−k,其中 (𝑛𝑘)(kn) 是组合数,表示从 𝑛n 个不同元素中取出 𝑘k 个元素的组合方式数量。

3. 泊松分布 (Poisson Distribution)

  • 定义:泊松分布常用来描述在一定时间或空间区域内,稀有事件发生次数的概率分布。如果平均每单位时间(或空间)内事件发生的次数为 𝜆λ,则在任意时间(或空间)区间内事件发生 𝑘k 次的概率遵循泊松分布。
  • PMF:𝑃(𝑋=𝑘)=𝜆𝑘𝑒−𝜆𝑘!P(X=k)=k!λke−λ,其中 𝜆λ 是平均事件数,𝑒e 是自然对数的底。

4. 几何分布 (Geometric Distribution)

  • 定义:几何分布描述的是首次成功前进行试验的次数。在一个伯努利试验序列中,直到首次成功所需试验的次数 𝑋X 服从几何分布,每次试验成功的概率为 𝑝p。
  • PMF:𝑃(𝑋=𝑘)=(1−𝑝)𝑘−1𝑝P(X=k)=(1−p)k−1p,𝑘=1,2,3,…k=1,2,3,…。

5. 负二项分布 (Negative Binomial Distribution)

  • 定义:负二项分布描述的是在第 𝑟r 次成功之前已经发生了 𝑘k 次失败的概率分布。它扩展了几何分布,考虑了达到固定成功次数前的失败次数。
  • PMF:𝑃(𝑋=𝑘)=(𝑘+𝑟−1𝑘)𝑝𝑟(1−𝑝)𝑘P(X=k)=(kk+r−1)pr(1−p)k,其中 𝑟r 是预先设定的成功次数。

组合公式

组合公式是用来计算从n个不同元素中不重复地选择r个元素的方法数,记作 𝐶(𝑛,𝑟)C(n,r) 或者 “𝑛n 选 𝑟r”,也称为二项式系数。公式如下:

𝐶(𝑛,𝑟)=𝑛!𝑟!(𝑛−𝑟)!C(n,r)=r!(n−r)!n!

其中,

  • 𝑛!n! 表示n的阶乘,即 𝑛×(𝑛−1)×(𝑛−2)×⋯×1n×(n−1)×(n−2)×⋯×1,
  • 𝑟!r! 是r的阶乘,
  • 𝑛−𝑟n−r 代表剩余未被选择的元素数量,
  • "!"符号表示阶乘运算。

当 𝑛<𝑟n<r 时,𝐶(𝑛,𝑟)C(n,r) 定义为0,因为无法从较少的元素中选择更多的元素。

这个公式在概率论、统计学、组合数学以及日常生活中解决排列组合问题时非常有用。

连续型随机变量

连续性随机变量是概率论中的一种重要概念,它用来描述那些可能取值无法逐一列举,而是在某个区间内可以取任意实数值的随机变量。与离散型随机变量不同,连续型随机变量在数轴上的取值是连续的,其概率分布需要用概率密度函数(probability density function, PDF)来描述,而不是概率质量函数。以下是连续性随机变量的详细解析:

请添加图片描述请添加图片描述

常见的连续型随机变量的及其分布

请添加图片描述

离散型随机变量函数的分布

离散型随机变量函数的分布是指如果有一个离散型随机变量 𝑋X,其概率质量函数(probability mass function, PMF)为 𝑃(𝑋=𝑥𝑖)=𝑝𝑖P(X=xi)=pi,对于 𝑋X 的某个函数 𝑌=𝑔(𝑋)Y=g(X),我们想要找到 𝑌Y 的分布,即求解 𝑌Y 的概率质量函数 𝑃(𝑌=𝑦𝑗)P(Y=yj)。

处理离散型随机变量函数分布的一般步骤如下:

  1. 确定 𝑌Y 的可能值:首先需要明确通过函数 𝑔g 转换后,𝑌Y 可能取到的所有值。这通常需要考虑 𝑋X 的所有可能取值,并应用 𝑔g 函数。
  2. 计算每个 𝑦𝑗yj 的概率:对于 𝑌Y 的每一个可能值 𝑦𝑗yj,需要找出所有能使 𝑔(𝑋)=𝑦𝑗g(X)=yj 的 𝑋X 的值集合 𝑆𝑗Sj,然后将这些 𝑋X 值对应的概率相加来得到 𝑃(𝑌=𝑦𝑗)P(Y=yj)。

𝑃(𝑌=𝑦𝑗)=∑𝑥𝑖∈𝑆𝑗𝑃(𝑋=𝑥𝑖)P(Y=yj)=∑xi∈SjP(X=xi)

这里,𝑆𝑗Sj 是使得 𝑔(𝑥𝑖)=𝑦𝑗g(xi)=yj 成立的所有 𝑥𝑖xi 的集合。

  1. 特殊情况处理:如果函数 𝑔g 导致某些 𝑌Y 的值没有对应的 𝑋X 值(即 𝑔g 不是满射),则那些 𝑌Y 的值的概率为0。反之,如果 𝑔g 将多个 𝑋X 映射到同一个 𝑌Y 值,则需要累加这些 𝑋X 值的概率。

举例说明:

假设 𝑋X 是一个离散型随机变量,取值为 {1, 2, 3},相应的概率分别为 1331。考虑函数 𝑌=𝑔(𝑋)=𝑋2Y=g(X)=X2。

  • 确定 𝑌Y 的可能值:应用 𝑔g 后,𝑌Y 的可能值为 {1, 4, 9}。
  • 计算每个 𝑦𝑗yj 的概率
    • 对于 𝑌=1Y=1,只有当 𝑋=1X=1 时成立,因此 𝑃(𝑌=1)=𝑃(𝑋=1)=13P(Y=1)=P(X=1)=31。
    • 对于 𝑌=4Y=4,只有当 𝑋=2X=2 时成立,所以 𝑃(𝑌=4)=𝑃(𝑋=2)=13P(Y=4)=P(X=2)=31。
    • 对于 𝑌=9Y=9,只有当 𝑋=3X=3 时成立,故 𝑃(𝑌=9)=𝑃(𝑋=3)=13P(Y=9)=P(X=3)=31。

最终,我们得到了 𝑌Y 的概率质量函数 𝑃(𝑌=1)=13P(Y=1)=31, 𝑃(𝑌=4)=13P(Y=4)=31, 𝑃(𝑌=9)=13P(Y=9)=31,这表明 𝑌Y 也是一个均匀分布的离散型随机变量。

二维连续型随机变量及其分布

二维连续性随机变量指的是由两个连续随机变量构成的随机向量,它们可以同时描述两个相互关联的连续随机现象。二维连续性随机变量的联合分布由联合概率密度函数(Joint Probability Density Function, JPDF)来描述,而边缘分布则描述了每个变量单独的分布情况。以下是二维连续性随机变量及其分布的详细说明:
请添加图片描述

请添加图片描述

协方差

请添加图片描述

计算协方差

计算协方差的具体步骤可以通过一个简单的例子来说明。假设我们有一组关于两个变量 𝑋X 和 𝑌Y 的数据对,分别是:

𝑋X𝑌Y
24
46
68
810

首先,我们计算每个变量的平均值(均值):

𝐸[𝑋]=2+4+6+84=204=5E[X]=42+4+6+8=420=5𝐸[𝑌]=4+6+8+104=284=7E[Y]=44+6+8+10=428=7

接下来,我们使用样本协方差的公式来计算协方差:

𝐶𝑜𝑣^(𝑋,𝑌)=1𝑛−1∑𝑖=1𝑛(𝑥𝑖−𝑥‾)(𝑦𝑖−𝑦‾)Cov(X,Y)=n−11∑i=1n(xi−x)(yi−y)

其中 𝑛=4n=4 是样本量,𝑥‾=5x=5 是 𝑋X 的均值,𝑦‾=7y=7 是 𝑌Y 的均值。现在,我们计算每一项并求和:

  • 对于第一对数据(2, 4):(2−5)(4−7)=(−3)(−3)=9(2−5)(4−7)=(−3)(−3)=9
  • 对于第二对数据(4, 6):(4−5)(6−7)=(−1)(−1)=1(4−5)(6−7)=(−1)(−1)=1
  • 对于第三对数据(6, 8):(6−5)(8−7)=(1)(1)=1(6−5)(8−7)=(1)(1)=1
  • 对于第四对数据(8, 10):(8−5)(10−7)=(3)(3)=9(8−5)(10−7)=(3)(3)=9

现在,将这些乘积相加并应用公式:

𝐶𝑜𝑣^(𝑋,𝑌)=14−1×(9+1+1+9)=13×20=203Cov(X,Y)=4−11×(9+1+1+9)=31×20=320

因此,变量 𝑋X 和 𝑌Y 之间的样本协方差大约为 6.676.67。这个正值表明 𝑋X 和 𝑌Y 之间存在正相关关系,即随着 𝑋X 的增加,𝑌Y 也倾向于增加。
请添加图片描述

这篇关于概率论与数理统计期末复习的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1082640

相关文章

可视化实训复习篇章

前言: 今天,我们来学习seaborn库可视化,当然,这个建立在Matplotlib的基础上,话不多说,进入今天的正题吧!当然,这个是《python数据分析与应用》书中,大家有需求的可以参考这本书。 知识点: Matplotlib中有两套接口分别是pyplot和pyylab,即绘图时候主要导入的是Matplotlib库下的两个子模块(两个py文件)matplotlib.pyplot和matp

数据库期末复习知识点

A卷 1. 选择题(30') 2. 判断范式(10') 判断到第三范式 3. 程序填空(20') 4. 分析填空(15') 5. 写SQL(25') 5'一题 恶性 B卷 1. 单选(30') 2. 填空 (20') 3. 程序填空(20') 4. 写SQL(30') 知识点 第一章 数据库管理系统(DBMS)  主要功能 数据定义功能 (DDL, 数据定义语

复习2-20240624

vscode 使用 Javabean (封装性) public class Demo01 {/*1.原则 : 字母 数字 $ _ 中文 除了 这五个 其它都不可以2. 细则 : 数字 不能 开头%hbviunh &hfiureh )nhjrn 7487j -ni +hbiu tgf h

操作系统实训复习笔记(1)

目录 Linux vi/vim编辑器(简单) (1)vi/vim基本用法。 (2)vi/vim基础操作。 进程基础操作(简单) (1)fork()函数。 写文件系统函数(中等) ​编辑 (1)C语言读取文件。 (2)C语言写入文件。 1、write()函数。  读文件系统函数(简单) (1)read()函数。 作者本人的操作系统实训复习笔记 Linux

【云计算 复习】第1节 云计算概述和 GFS + chunk

一、云计算概述 1.云计算的商业模式 (1)软件即服务(SaaS) 有些景区给游客提供烧烤场地,游客需要自己挖坑或者砌烧烤台,然后买肉、串串、烧烤。 (2)平台即服务(PaaS) 有些景区给游客提供烧烤场地,同时搭建好烧烤台,游客只需要自己带食材和调料、串串、烧烤。 (3)基础设施即服务(IaaS) 有些景区给游客提供烧烤场地,同时搭建好烧烤台,还有专门的厨师来烧烤,用户不需要关心前面的所有

数据库原理与安全复习笔记(未完待续)

1 概念 产生与发展:人工管理阶段 → \to → 文件系统阶段 → \to → 数据库系统阶段。 数据库系统特点:数据的管理者(DBMS);数据结构化;数据共享性高,冗余度低,易于扩充;数据独立性高。DBMS 对数据的控制功能:数据的安全性保护;数据的完整性检查;并发控制;数据库恢复。 数据库技术研究领域:数据库管理系统软件的研发;数据库设计;数据库理论。数据模型要素 数据结构:描述数据库

Deep Learning复习笔记0

Key Concept: Embedding: learned dense, continuous, low-dimensional representations of object 【将难以表示的对象(如图片,文本等)用连续的低维度的方式表示】 RNN: Recurrent Neural Network -> for processing sequential data (time se

【大数据 复习】第11,12,13,14章

Web应用与流数据 1.在Web应用、网络监控、传感监测等领域,兴起了一种新的数据密集型应用——静态数据,即数据以大量、快速、时变的流形式持续到达。( )    正确答案: 错误 错误在静态数据,这里应该叫非静态数据之类的,虽然没有这个名词。 2.流数据适合采用批量计算,因为流数据适合用传统的关系模型建模。( )    正确答案: 错误 传统的关系模型一般是用于静态数据的存储和分析,例如 S

秋招突击——6/22——复习{区间DP——加分二叉树,背包问题——买书}——新作{移除元素、实现strStr()}

文章目录 引言复习区间DP——加分二叉树个人实现 背包问题——买书个人实现参考实现 新作移除元素个人实现参考思路 找出字符串中第一个匹配项的下标个人实现参考实现 总结 引言 今天做了一个噩梦,然后流了一身汗,然后没起来,九点多才起床背书。十点钟才开始把昨天那道题题目过一遍,然后十一点才开始复习题目,为了不耽误下午的时间,所以这里的就单纯做已经做过的题目,主打一个有量,不在学

JAVA复习3

目录 19. 下列关于 do…while 语句和 while 语句的叙述中错误的是( C ) 20. 若有定义 int a=9, b=6; System.out.println(a > b) 的结果是( D ) 21. 关于接口和抽象类,下列说法正确的是(A) 22. 下列那一个主函数是对的(D) 23. 下列那些数据类型定义的是对的(A) 24. 仔细阅读以下程序代码,对结果分析正确