数理统计基础:参数估计与假设检验

2023-12-10 21:45

本文主要是介绍数理统计基础:参数估计与假设检验,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在学习机器学习的过程中,我充分感受到概率与统计知识的重要性,熟悉相关概念思想对理解各种人工智能算法非常有意义,从而做到知其所以然。因此打算写这篇笔记,先好好梳理一下参数估计与假设检验的相关内容。

1 总体梳理

先从整体结构上进行一个把握。数理统计的主要任务是通过样本的信息推断总体的信息,即统计推断工作。统计推断主要有两大类问题:参数估计假设检验。它们都建立在抽样分布理论的基础之上,但角度不同。参数估计是利用样本信息推断未知的总体参数;而假设检验是先对总体参数提出一个假设值,然后利用样本信息判断这一假设是否成立。参数估计又分为点估计区间估计,假设检验也可以根据具体问题分为单侧检验和双侧检验。

在正式开始前,对统计量抽样分布进行简要的介绍,有助于后面的理解。

统计量:统计量是样本的函数,且不含任何未知参数。若 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn是总体 X X X 的样本,统计量可表示为 T = T ( X 1 , X 2 , . . . , X n ) T=T(X_1,X_2,...,X_n) T=T(X1,X2,...,Xn)。统计量依赖且只依赖于样本 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn,它不含总体分布的任何未知参数。也就是说,当获得了样本观测值后,统计量的值可以被唯一确定下来。

统计量也是随机变量,统计量的分布叫抽样分布 。统计量的分布与样本分布有关,样本分布与未知的总体分布有关,因此抽样分布也与总体分布有关。一般求出统计量的分布是非常困难的事,但如果总体是正态分布,问题会变得相对简单。
以样本平均数为例,它是总体平均数的一个估计量,如果按照相同的样本容量,相同的抽样方式,反复地抽取样本,每次可以计算一个平均数,所有可能样本的平均数所形成的分布,就是样本平均数的抽样分布。

2 参数估计

总体的信息是由总体的分布来刻画的,在实际问题中,往往可以根据问题的背景确定该随机现象的总体所具有的分布类型,但是总体中往往有些参数是未知的。一般来说,这些参数很难精确求出,为此要从总体中抽取样本对其进行估计,这类问题称为参数估计问题。

2.1 点估计

点估计是通过样本值求出总体参数的一个具体的估计量和估计值(这里说的“具体的估计值”是为了和区间估计相对,区间估计是给出区间和置信度,而不是具体的值). 其一般的步骤可概括为 “抽样—构造—代值—计算”

  1. 设总体 X X X 的分布函数 F ( x ; θ ) F(x;\theta) F(x;θ) 形式已知,其中含有一个未知参数 θ \theta θ
  2. 从总体中抽取样本 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn
  3. 构造合适的统计量 g ( X 1 , X 2 , . . . , X n ) g(X_1,X_2,...,X_n) g(X1,X2,...,Xn)作为 θ \theta θ 的估计量,记为 θ ^ = g ( X 1 , X 2 , . . . , X n ) \hat{\theta}=g(X_1,X_2,...,X_n) θ^=g(X1,X2,...,Xn)
  4. 代入样本观测值 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn,得到估计值 θ ^ = g ( x 1 , x 2 , . . . , x n ) \hat{\theta}=g(x_1,x_2,...,x_n) θ^=g(x1,x2,...,xn)

2.1.1 矩估计

矩估计法的基本思想是替换原理,即用样本矩替换同阶总体矩。·其依据是由大数定律知,各阶样本矩依概率收敛于同阶总体矩,于是可令各阶样本矩与同阶总体矩相等,下式中 i 代表阶数,k 代表总体中未知参数个数,有几个未知参数就列几个方程: E ( X i ) = A i = 1 n ∑ j = 1 n x j i ( i = 1 , 2 , . . . , k ) E(X^i)=A_i=\frac{1}{n}\sum_{j=1}^nx_j^i\quad(i=1,2,...,k) E(Xi)=Ai=n1j=1nxji(i=1,2,...,k)

是对变量分布和形态特点的一组度量。n阶矩被定义为变量的n次方与其概率密度函数之积的积分。直接使用变量计算的矩被称为原始矩(raw moment),移除均值后计算的矩被称为中心矩(central moment)。变量的一阶原始矩等价于数学期望(expectation)、二至四阶中心矩被定义为方差(variance)、偏度(skewness)和峰度(kurtosis)。

举个最简单的例子,设总体 X X X 的分布为 F ( x ; θ ) F(x;\theta) F(x;θ) θ \theta θ为待估参数, X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn 为来自总体的样本。那么 E ( X ) E(X) E(X) 应为 θ \theta θ 的函数 h ( θ ) h(\theta) h(θ),由大数定律知样本均值依概率收敛于总体均值,因此可令 E ( X ) = X ‾ = h ( θ ) E(X)=\overline{X}=h(\theta) E(X)=X=h(θ)将样本观测值代入求出 X ‾ \overline{X} X,再解此方程求出 θ \theta θ 即可。这个过程可以看作是用样本一阶矩 X ‾ = 1 n ∑ i = 1 n X i \overline{X}=\frac{1}{n}\sum_{i=1}^nX_i X=n1i=1nXi 估计总体一阶矩 E ( X ) E(X) E(X)的过程。结合点估计的一般步骤可知,这里构造的统计量就是样本均值。

【例】 设总体为 X X X ,总体均值 E ( X ) = μ E(X)=\mu E(X)=μ 和总体方差 D ( X ) = σ 2 D(X)=\sigma^2 D(X)=σ2 存在, X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn 为来自总体的样本,求 μ \mu μ σ 2 \sigma^2 σ2的矩估计量。

要求两个未知参数,令一阶样本矩等于一阶总体矩,二阶样本矩等于二阶总体矩:
{ E ( X ) = X ‾ E ( X 2 ) = D ( X ) + [ E ( X ) ] 2 = A 2 \begin{cases} E(X)=\overline{X} \\\\E(X^2)=D(X)+[E(X)]^2=A_2 \end{cases} E(X)=XE(X2)=D(X)+[E(X)]2=A2 即: { μ = X ‾ σ 2 + μ 2 = 1 n ∑ i = 1 n X i 2 \begin{cases}\mu=\overline{X}\\ \\ \sigma^2+\mu^2=\dfrac{1}{n}\sum\limits_{i=1}^nX_i^2 \end{cases} μ=Xσ2+μ2=n1i=1nXi2
解得矩估计量为 { μ ^ = X ‾ σ 2 ^ = 1 n ∑ i = 1 n X i 2 − X ‾ 2 = 1 n ∑ i = 1 n ( X i − X ‾ ) 2 \begin{cases}\hat{\mu}=\overline{X}\\ \\ \hat{\sigma^2}=\dfrac{1}{n}\sum\limits_{i=1}^nX_i^2 -\overline{X}^2=\dfrac{1}{n}\sum\limits_{i=1}^n(X_i-\overline{X})^2\end{cases} μ^=Xσ2^=n1i=1nXi2X2=n1i=1n(XiX)2


  • 优点: 直观简单,适用性广,无需知道总体分布的具体形式
  • 缺点: 要求总体矩存在,否则不能使用;只利用了矩的信息,没有充分利用分布对参数所提供的信息。

2.1.2 极大似然估计MLE

极大似然估计法(Maximum Likelihood Estimate) 是建立在极大似然原理基础上的。所谓极大似然,可理解为“最大可能性”,即令每个样本属于其真实标记的可能性越大越好。

极大似然原理的直观想法是:概率最大的事最可能出现。设一个随机试验有若干可能结果 A 1 , A 2 , . . . , A n A_1,A_2,...,A_n A1,A2,...,An,若在一次结果中 A k A_k Ak 出现,则认为 A k A_k Ak 出现的概率较大,那未知参数的取值应当满足 A k A_k Ak 发生概率最大。

为了介绍极大似然估计,这里引入似然函数的概念:

似然函数     设 X 1 , X 2 , . . . , X N X_1,X_2,...,X_N X1,X2,...,XN 为来自总体 X X X 的简单随机样本, x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn 为样本观测值,称 L ( θ ) = ∏ i = 1 n p ( x i , θ ) L(\theta)=\prod\limits_{i=1}^np(x_i,\theta) L(θ)=i=1np(xi,θ) 为参数 θ \theta θ 的似然函数。

当总体 X X X 是离散型随机变量时, p ( x i , θ ) p(x_i,\theta) p(xi,θ) 表示 X X X 的分布列 P { X = x i } P\{X=x_i\} P{X=xi}
当总体 X X X 是连续型随机变量时, p ( x i , θ ) p(x_i,\theta) p(xi,θ) 表示 X X X 的密度函数 f ( x , θ ) f(x,\theta) f(x,θ) x i x_i xi处的取值 。

参数 θ \theta θ 的似然函数 L ( θ ) L(\theta) L(θ) 实际上就是样本 X 1 , X 2 , . . . , X N X_1,X_2,...,X_N X1,X2,...,XN 恰好取观测值 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn (或其邻域)的概率。以离散型为例:

L ( θ ) = P { X 1 = x 1 , X 2 = x 2 , . . . , X n = x n } = P { X 1 = x 1 } P { X 2 = x 2 } . . . P { X n = x n } = ∏ i = 1 n p ( x i , θ ) \begin{aligned} L(\theta) &=P\{X_1=x_1,X_2=x_2,...,X_n=x_n\} \\ &=P\{X_1=x_1\}P\{X_2=x_2\}...P\{X_n=x_n\} \\ &=\prod_{i=1}^np(x_i,\theta)\end{aligned} L(θ)=P{X1=x1,X2=x2,...,Xn=xn}=P{X1=x1}P{X2=x2}...P{Xn=xn}=i=1np(xi,θ) 从这个公式也可以看出,极大似然估计的一个重要假设是:来自总体的简单随机样本 X 1 , X 2 , . . . , X N X_1,X_2,...,X_N X1,X2,...,XN 是独立同分布的。

存在一个只与观测值 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn 有关是实数 θ ^ ( x 1 , x 2 , . . . , x n ) \hat{\theta}(x_1,x_2,...,x_n) θ^(x1,x2,...,xn) ,使 L ( θ ^ ) = m a x L ( θ ) L(\hat{\theta})=max\ L(\theta) L(θ^)=max L(θ) ,则称 θ ^ ( x 1 , x 2 , . . . , x n ) \hat{\theta}(x_1,x_2,...,x_n) θ^(x1,x2,...,xn) 为参数 θ \theta θ 的最大似然估计值, θ ^ ( X 1 , X 2 , . . . , X n ) \hat{\theta}(X_1,X_2,...,X_n) θ^(X1,X2,...,Xn)是极大似然估计量。

极大似然估计对未知参数的数量没有要求,可以求一个,也可以一次求出多个。它要求总体的分布是已知的。由于似然函数是多个函数乘积的形式,为简化运算可以考虑对 L ( θ ) L(\theta) L(θ) 取对数得到对数似然函数 I n L ( θ ) InL(\theta) InL(θ)

【例】 设总体 X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) XN(μ,σ2) X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn 为来自总体的样本,求未知参数 μ \mu μ σ 2 \sigma^2 σ2的最大似然估计量。

2.1.3 最大后验估计MAP

2.1.4 最小二乘估计

2.1.5 贝叶斯估计

2.2 区间估计

3 假设检验

【几年前的草稿,发出来先用着、、、】

这篇关于数理统计基础:参数估计与假设检验的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/478467

相关文章

MySQL中my.ini文件的基础配置和优化配置方式

《MySQL中my.ini文件的基础配置和优化配置方式》文章讨论了数据库异步同步的优化思路,包括三个主要方面:幂等性、时序和延迟,作者还分享了MySQL配置文件的优化经验,并鼓励读者提供支持... 目录mysql my.ini文件的配置和优化配置优化思路MySQL配置文件优化总结MySQL my.ini文件

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

【Linux 从基础到进阶】Ansible自动化运维工具使用

Ansible自动化运维工具使用 Ansible 是一款开源的自动化运维工具,采用无代理架构(agentless),基于 SSH 连接进行管理,具有简单易用、灵活强大、可扩展性高等特点。它广泛用于服务器管理、应用部署、配置管理等任务。本文将介绍 Ansible 的安装、基本使用方法及一些实际运维场景中的应用,旨在帮助运维人员快速上手并熟练运用 Ansible。 1. Ansible的核心概念

AI基础 L9 Local Search II 局部搜索

Local Beam search 对于当前的所有k个状态,生成它们的所有可能后继状态。 检查生成的后继状态中是否有任何状态是解决方案。 如果所有后继状态都不是解决方案,则从所有后继状态中选择k个最佳状态。 当达到预设的迭代次数或满足某个终止条件时,算法停止。 — Choose k successors randomly, biased towards good ones — Close

音视频入门基础:WAV专题(10)——FFmpeg源码中计算WAV音频文件每个packet的pts、dts的实现

一、引言 从文章《音视频入门基础:WAV专题(6)——通过FFprobe显示WAV音频文件每个数据包的信息》中我们可以知道,通过FFprobe命令可以打印WAV音频文件每个packet(也称为数据包或多媒体包)的信息,这些信息包含该packet的pts、dts: 打印出来的“pts”实际是AVPacket结构体中的成员变量pts,是以AVStream->time_base为单位的显

C 语言基础之数组

文章目录 什么是数组数组变量的声明多维数组 什么是数组 数组,顾名思义,就是一组数。 假如班上有 30 个同学,让你编程统计每个人的分数,求最高分、最低分、平均分等。如果不知道数组,你只能这样写代码: int ZhangSan_score = 95;int LiSi_score = 90;......int LiuDong_score = 100;int Zhou

c++基础版

c++基础版 Windows环境搭建第一个C++程序c++程序运行原理注释常亮字面常亮符号常亮 变量数据类型整型实型常量类型确定char类型字符串布尔类型 控制台输入随机数产生枚举定义数组数组便利 指针基础野指针空指针指针运算动态内存分配 结构体结构体默认值结构体数组结构体指针结构体指针数组函数无返回值函数和void类型地址传递函数传递数组 引用函数引用传参返回指针的正确写法函数返回数组

【QT】基础入门学习

文章目录 浅析Qt应用程序的主函数使用qDebug()函数常用快捷键Qt 编码风格信号槽连接模型实现方案 信号和槽的工作机制Qt对象树机制 浅析Qt应用程序的主函数 #include "mywindow.h"#include <QApplication>// 程序的入口int main(int argc, char *argv[]){// argc是命令行参数个数,argv是

【MRI基础】TR 和 TE 时间概念

重复时间 (TR) 磁共振成像 (MRI) 中的 TR(重复时间,repetition time)是施加于同一切片的连续脉冲序列之间的时间间隔。具体而言,TR 是施加一个 RF(射频)脉冲与施加下一个 RF 脉冲之间的持续时间。TR 以毫秒 (ms) 为单位,主要控制后续脉冲之前的纵向弛豫程度(T1 弛豫),使其成为显著影响 MRI 中的图像对比度和信号特性的重要参数。 回声时间 (TE)

Java基础回顾系列-第七天-高级编程之IO

Java基础回顾系列-第七天-高级编程之IO 文件操作字节流与字符流OutputStream字节输出流FileOutputStream InputStream字节输入流FileInputStream Writer字符输出流FileWriter Reader字符输入流字节流与字符流的区别转换流InputStreamReaderOutputStreamWriter 文件复制 字符编码内存操作流(