杂记——极大似然估计的渐近正态性

2024-04-24 20:08

本文主要是介绍杂记——极大似然估计的渐近正态性,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

结论

  假设 x 1 , ⋯ , x n x_1, \cdots, x_n x1,,xn是来自 f θ ( x ) f_{\theta}(x) fθ(x)的独立同分布样本, θ ^ M L E \hat{\theta}_{MLE} θ^MLE是参数 θ \theta θ的极大似然估计,那么 θ ^ M L E ∼ ˙ N ( θ , 1 n I ( θ ) ) (1) \hat{\theta}_{MLE}\dot{\sim}N(\theta, \frac{1}{nI(\theta)})\tag{1} θ^MLE˙N(θ,nI(θ)1)(1)其中, I ( θ ) I(\theta) I(θ) F i s h e r Fisher Fisher信息量。

证明

  首先来看单样本的情况,即有样本 x x x来自 f θ ( x ) f_{\theta}(x) fθ(x),则其似然函数为 l x ( θ ) = l o g ( f θ ( x ) ) (2) l_x(\theta)=log (f_{\theta}(x))\tag{2} lx(θ)=log(fθ(x))(2) θ \theta θ求导有 l ˙ x ( θ ) = ∂ ∂ θ l o g ( f θ ( x ) ) = f ˙ θ ( x ) f θ ( x ) (3) \dot{l}_x(\theta)=\frac{\partial }{\partial \theta}log(f_{\theta}(x))=\frac{\dot{f}_\theta(x)}{f_\theta(x)}\tag{3} l˙x(θ)=θlog(fθ(x))=fθ(x)f˙θ(x)(3) l ˙ x ( θ ) \dot{l}_x(\theta) l˙x(θ)被称作得分函数,它的期望为: E ( l ˙ x ( θ ) ) = ∫ χ f ˙ θ ( x ) f θ ( x ) f θ ( x ) d x = ∫ χ f ˙ θ ( x ) d x = ∫ χ ∂ ∂ x f θ ( x ) d x = ∂ ∂ x ∫ χ f θ ( x ) d x = ∂ ∂ x 1 = 0 (4) E(\dot{l}_x(\theta))=\int_{\chi}\frac{\dot{f}_\theta(x)}{f_\theta(x)}f_\theta(x)dx=\int_{\chi}\dot{f}_\theta(x)dx=\int_{\chi}\frac{\partial }{\partial x}f_\theta(x)dx=\frac{\partial }{\partial x}\int_{\chi}f_\theta(x)dx=\frac{\partial }{\partial x}1=0\tag{4} E(l˙x(θ))=χfθ(x)f˙θ(x)fθ(x)dx=χf˙θ(x)dx=χxfθ(x)dx=xχfθ(x)dx=x1=0(4)
I ( θ ) I(\theta) I(θ) F i s h e r Fisher Fisher信息量,被定义为得分函数 l ˙ x ( θ ) \dot{l}_x(\theta) l˙x(θ)的方差:
I ( θ ) = E { l ˙ x ( θ ) − E ( l ˙ x ( θ ) ) } 2 (5) I(\theta)=E\{\dot{l}_x(\theta)-E(\dot{l}_x(\theta))\}^2\tag{5} I(θ)=E{l˙x(θ)E(l˙x(θ))}2(5)
而由 E ( l ˙ x ( θ ) ) = 0 E(\dot{l}_x(\theta))=0 E(l˙x(θ))=0可知:
I ( θ ) = E { l ˙ x ( θ ) } 2 = E { f ˙ θ ( x ) f θ ( x ) } 2 (6) I(\theta)=E\{\dot{l}_x(\theta)\}^2=E\{\frac{\dot{f}_{\theta}(x)}{{f}_{\theta}(x)}\}^2\tag{6} I(θ)=E{l˙x(θ)}2=E{fθ(x)f˙θ(x)}2(6)
因此可记 l ˙ x ( θ ) \dot{l}_x(\theta) l˙x(θ)为: l ˙ x ( θ ) ∼ ( 0 , I ( θ ) ) (7) \dot{l}_x(\theta)\sim(0, I(\theta))\tag{7} l˙x(θ)(0,I(θ))(7)
接下来考虑得分函数的二阶导数 l ¨ x ( θ ) \ddot{l}_x(\theta) l¨x(θ),即对式子 ( 3 ) (3) (3)等号两边同时对 θ \theta θ求导:
l ¨ x ( θ ) = ∂ ∂ θ ( f ˙ θ ( x ) f θ ( x ) ) = f ¨ θ ( x ) f θ ( x ) − ( f ˙ θ ( x ) f θ ( x ) ) 2 (8) \ddot{l}_x(\theta)=\frac{\partial}{\partial \theta}(\frac{\dot{f}_\theta(x)}{f_\theta(x)})=\frac{\ddot{f}_{\theta}(x)}{{f}_{\theta}(x)}-(\frac{\dot{f}_{\theta}(x)}{{f}_{\theta}(x)})^2\tag{8} l¨x(θ)=θ(fθ(x)f˙θ(x))=fθ(x)f¨θ(x)(fθ(x)f˙θ(x))2(8)
因此得分函数的二阶导数 l ¨ x ( θ ) \ddot{l}_x(\theta) l¨x(θ)的期望为: E { l ¨ x ( θ ) } = 0 − E { f ˙ θ ( x ) f θ ( x ) } 2 = − I ( θ ) (9) E\{\ddot{l}_x(\theta)\}=0-E\{\frac{\dot{f}_{\theta}(x)}{{f}_{\theta}(x)}\}^2=-I(\theta)\tag{9} E{l¨x(θ)}=0E{fθ(x)f˙θ(x)}2=I(θ)(9)
同样可记 l ¨ x ( θ ) \ddot{l}_x(\theta) l¨x(θ)为: − l ¨ x ( θ ) ∼ ( I ( θ ) , J ( θ ) ) (10) -\ddot{l}_x(\theta)\sim(I(\theta), J(\theta))\tag{10} l¨x(θ)(I(θ),J(θ))(10)
其中, J ( θ ) J(\theta) J(θ) l ¨ x ( θ ) \ddot{l}_x(\theta) l¨x(θ)的方差,我们这里不进行考虑。

  接下来讨论 n n n个样本的情况,即 x 1 , ⋯ , x n x_1, \cdots, x_n x1,,xn是来自 f θ ( x ) f_{\theta}(x) fθ(x)的独立同分布样本,那么此时的联合密度函数为: f θ ( X ) = ∏ i = 1 n f θ ( x i ) f_{\theta}(X)=\prod\limits_{i=1}^nf_{\theta}(x_i) fθ(X)=i=1nfθ(xi),同样的,总的得分函数为: l ˙ X ( θ ) = ∑ i = 1 n l ˙ x i ( θ ) (11) \dot{l}_X({\theta})=\sum\limits_{i=1}^n\dot{l}_{x_i}(\theta)\tag{11} l˙X(θ)=i=1nl˙xi(θ)(11)
根据 ( 7 ) (7) (7),每个 l ˙ x i ( θ ) ∼ ( 0 , I ( θ ) ) \dot{l}_{x_i}(\theta)\sim(0, I(\theta)) l˙xi(θ)(0,I(θ)),结合样本之间是独立的,可知: l ˙ X ( θ ) ∼ ( 0 , n I ( θ ) ) (12) \dot{l}_X({\theta})\sim(0, nI(\theta))\tag{12} l˙X(θ)(0,nI(θ))(12)
类似的,有: − l ¨ X ( θ ) = ∑ i = 1 n ( − l ¨ x i ( θ ) ) (13) -\ddot{l}_X({\theta})=\sum\limits_{i=1}^n(-\ddot{l}_{x_i}(\theta))\tag{13} l¨X(θ)=i=1n(l¨xi(θ))(13)
同样的,根据 ( 10 ) (10) (10),每个 − l ¨ x i ( θ ) ∼ ( I ( θ ) , J ( θ ) ) -\ddot{l}_{x_i}(\theta)\sim(I(\theta), J(\theta)) l¨xi(θ)(I(θ),J(θ)),因此有: − l ¨ X ( θ ) ∼ ( n I ( θ ) , n J ( θ ) ) (14) -\ddot{l}_X({\theta})\sim(nI(\theta), nJ(\theta))\tag{14} l¨X(θ)(nI(θ),nJ(θ))(14)
根据定义,基于样本 x 1 , ⋯ , x n x_1, \cdots, x_n x1,,xn,参数 θ \theta θ的极大似然估计 θ ^ M L E \hat{\theta}_{MLE} θ^MLE满足最大化条件 l ˙ X ( θ ^ ) = 0 \dot{l}_X{(\hat{\theta})}=0 l˙X(θ^)=0,对其在 θ \theta θ处一阶泰勒展开有: 0 = l ˙ X ( θ ^ ) ≈ l ˙ X ( θ ) + l ¨ X ( θ ) ( θ ^ − θ ) (15) 0=\dot{l}_X{(\hat{\theta})}\approx\dot{l}_X{(\theta)}+\ddot{l}_X{(\theta)}(\hat{\theta}-\theta)\tag{15} 0=l˙X(θ^)l˙X(θ)+l¨X(θ)(θ^θ)(15)
对其变形,有: θ ^ ≈ θ − l ˙ X ( θ ) l ¨ X ( θ ) = θ + l ˙ X ( θ ) n − l ¨ X ( θ ) n (16) \hat{\theta}\approx\theta-\frac{\dot{l}_X(\theta)}{\ddot{l}_X(\theta)}=\theta+\frac{\frac{\dot{l}_X(\theta)}{n}}{-\frac{\ddot{l}_X(\theta)}{n}}\tag{16} θ^θl¨X(θ)l˙X(θ)=θ+nl¨X(θ)nl˙X(θ)(16)
( 12 ) (12) (12)和中心极限定理表明: l ˙ X ( θ ) n ∼ ˙ N ( 0 , I ( θ ) n ) (17) \frac{\dot{l}_X(\theta)}{n}\dot{\sim} N(0, \frac{I(\theta)}{n})\tag{17} nl˙X(θ)˙N(0,nI(θ))(17)
( 14 ) (14) (14)和大数定律表明: − l ¨ X ( θ ) n 趋 于 常 量 I ( θ ) (18) -\frac{\ddot{l}_X(\theta)}{n}趋于常量I(\theta)\tag{18} nl¨X(θ)I(θ)(18)
综合式 ( 16 ) , ( 17 ) , ( 18 ) (16), (17), (18) (16),(17),(18),即可得到 θ ^ ∼ ˙ N ( θ , 1 n I ( θ ) ) (19) \hat{\theta}\dot{\sim}N(\theta, \frac{1}{nI(\theta)})\tag{19} θ^˙N(θ,nI(θ)1)(19)此即 ( 1 ) (1) (1)式,证毕。

这篇关于杂记——极大似然估计的渐近正态性的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/932719

相关文章

数据集 3DPW-开源户外三维人体建模-姿态估计-人体关键点-人体mesh建模 >> DataBall

3DPW 3DPW-开源户外三维人体建模数据集-姿态估计-人体关键点-人体mesh建模 开源户外三维人体数据集 @inproceedings{vonMarcard2018, title = {Recovering Accurate 3D Human Pose in The Wild Using IMUs and a Moving Camera}, author = {von Marc

数据集 Ubody人体smplx三维建模mesh-姿态估计 >> DataBall

Ubody开源人体三维源数据集-smplx-三维建模-姿态估计 UBody:一个连接全身网格恢复和真实生活场景的上半身数据集,旨在拟合全身网格恢复任务与现实场景之间的差距。 UBody包含来自多人的现实场景的1051k张高质量图像,这些图像拥有2D全身关键点、3D SMPLX模型。 UBody由国际数字经济学院(IDEA)提供。 (UBody was used for mesh r

生活杂记1

生命中,总有一些事需要你一生去治愈,我把这些杂记写出来,写完了就不再想了,太内耗了…hahaha~ 因为嘴馋,小时候经常去老姑家,她家有各类零食及平时很少吃的“山珍海味”。去的次数多了,就和她家附近的邻居小孩也混的熟络了。再后来上了高中去的就少了,当年七中统招线521自费线491。我刚好压自费线,举全家之力花了15000读了七中,也没争气,后面高考也一塌糊涂。高二那会,一次去老姑家做客,经

【杂记】裂脑人实验和语言模型幻觉

【杂记】裂脑人实验和语言模型幻觉 模型的自主意识在哪里,人的自我认知在哪里?自然而然的,“裂脑人” 这个词突然出现在我脑海里。然后随意翻了翻相关的文章,觉得这个问题和目前大模型面临的幻觉问题也高度相关,遂随笔记录。 裂脑人 什么是裂脑人?人的大脑左右半脑本来是一个整体,因为先天或者后天的原因让左右半脑分开不产生连接,就是“裂脑”。过去这个方法被作为控制恶性癫痫的治疗手段。 一些铺垫知识

Kaggle克隆github项目+文件操作+Kaggle常见操作问题解决方案——一文搞定,以openpose姿态估计项目为例

文章目录 前言一、Kaggle克隆仓库1、克隆项目2、查看目录 二、安装依赖三、文件的上传、复制、转移操作1.上传.pth文件到input目录2、将权重文件从input目录转移到工作目录 三、修改工作目录里的文件内容1、修改demo_camera.py内容 四、运行! 前言 想跑一些深度学习的项目,但是电脑没有显卡,遂看向云服务器Kaggle,这里可以每周免费使用30h的GP

【译】PCL官网教程翻译(18):估计一组点的视点特征直方图(VFH)签名 - Estimating VFH signatures for a set of points

英文原文查看 估计一组点的视点特征直方图(VFH)签名 本文描述了视点特征直方图([VFH])描述符,这是一种针对聚类(如对象)识别和6DOF姿态估计问题的点簇表示方法。 下图展示了一个VFH识别和姿态估计的例子。给定一组火车数据(除最左边的点云外,最上面一行、最下面一行),学习一个模型,然后使用一个云(最左边的部分)查询/测试模型。匹配的结果按从最好到最差的顺序从左到右从左下角开始。有关更多

分歧时间估计与被子植物的年代-文献精读43

Ad fontes: divergence-time estimation and the age of angiosperms 回归本源:分歧时间估计与被子植物的年代 摘要 准确的分歧时间对于解释和理解谱系演化的背景至关重要。在过去的几十年里,有关冠被子植物推测的分子年龄(通常估计为晚侏罗世至二叠纪)与化石记录(将被子植物置于早白垩纪)之间的差异,引发了广泛的争论。如果冠被子植物早在二

SLAM ORB-SLAM2(29)PnP估计姿态

SLAM ORB-SLAM2(29)PnP估计姿态 1. PnP问题2. EPnP算法2.1. 计算4对控制点的世界坐标2.2. 计算齐次质心坐标2.3. 计算4对控制点的相机坐标2.3.1. 构造M矩阵2.3.2. 计算 M T M M^TM MTM的0特征值对应的特征向量2.3.3. 计算零空间的秩2.3.4. 计算线性组合的系数 2.4. 选择最小重投影误差 3. 标题

pytorch负对数似然损失函数介绍

nn.NLLLoss(负对数似然损失)是 PyTorch 中的一种损失函数,常用于分类任务,特别是在模型的输出已经经过了 log-softmax 的情况下。与 nn.CrossEntropyLoss 不同的是,nn.NLLLoss 期望输入的是对数概率值(即 log-softmax 的输出),而不是未经过处理的 logits。 ‌Log-Softmax函数‌是对Softmax函数的对数版本,它在

损失函数、成本函数cost 、最大似然估计

一、损失函数 什么是损失函数? 【深度学习】一文读懂机器学习常用损失函数(Loss Function)-腾讯云开发者社区-腾讯云 损失函数(loss function)是用来估量模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。损失函数是经验风险函数的核心部分,也是结构风险函数重要组成部分。模型的结构风险函