#通俗理解# 从极大似然估计(MLE)到最大期望(EM)算法

2024-01-08 06:59

本文主要是介绍#通俗理解# 从极大似然估计(MLE)到最大期望(EM)算法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 1. 期望(Expectation)
  • 2. 极大似然估计(Maximum Likelihood Estimate,MLE)
  • 3. 最大方差估计(Expectation-Maximum,EM)
    • 对于第2步的解释
    • 对于第3步的解释
    • 对于第4步的解释

1. 期望(Expectation)

顾名思义,最大期望算法就是让某个函数的期望最大化从而得到最优参数,首先我们先要了解期望的公式:
在这里插入图片描述
期望本质上就是根据随机变量的分布对函数值的加权求和,平均值是期望的一种特殊形式,平均值假设随机变量取到每种值得概率相同(均分分布)

2. 极大似然估计(Maximum Likelihood Estimate,MLE)

对于一个样本数据,如果我们可以得到通过一个公式(带有未知参数)得到这个样本出现的概率,那么我们就可以称这个公式为似然函数

因为这个样本数据被我们观测到了,因此我们认为这个样本出现的概率最大,我们通过最大化似然函数的值就能够得到函数中参数的最优值

为了得到最大化似然函数下参数的最优值,我们首先求的似然函数对参数的偏导数,然后令偏导数等于0从而得到参数的最优值;极大似然函数一般一次就能够得到结果,不需要迭代

极大似然估计的公式如下:
θ m l e = arg ⁡ max ⁡ θ ( θ ) l o g P ( x ∣ θ ) θ_{mle}=\mathop{\arg\max}\limits_{\theta}(θ)logP(x|θ) θmle=θargmax(θ)logP(xθ)
上式之所以要去 log,是因为取完log后内部的乘法变为加法,能够简化运算

3. 最大方差估计(Expectation-Maximum,EM)

对于包含隐变量的似然函数,计算参数的偏导数为零时的参数值往往十分困难,因此对于包含隐变量的似然函数使用极大似然估计很难得到结果

EM算法一般用来求解包含隐变量函数的参数问题,EM算法将隐变量的概率分布Z和似然函数内的参数θ看作是两个部分依次迭代优化,具体实现方式如下:

  1. 随机初始化似然函数的参数θ
  2. 根据似然函数内的参数估计隐变量z
  3. 最大化似然函数对于隐变量的期望,并最求得期望最大时似然函数内部参数的更新值θ
  4. 跳到第2步用更新后的θ估计隐变量分布Z,然后执行3步…直至函数收敛

EM算法的迭代公式如下:
θ t + 1 = arg ⁡ max ⁡ θ ∫ z l o g ( P ( x , z ∣ θ ) ) P ( x ∣ z , θ t ) d z θ^{t+1}=\mathop{\arg\max}\limits_{\theta}\int_zlog(P(x,z|\theta))P(x|z,\theta^t)dz θt+1=θargmaxzlog(P(x,zθ))P(xz,θt)dz
其实这就是一个求期望的公式,积分号内可以看做两部分,一部分是 log似然函数,一部分是隐变量的概率分布函数(先验概率)总结来说就是求log似然函数在隐变量上的积分(期望)

对于第2步的解释

隐变量z由多个隐状态组成( z 1 , z 2 . . . z n z_1,z_2...z_n z1,z2...zn),估计隐变量z的概率分布,换句话说就是就算隐变量每种情况出现的概率;

  • 以混合高斯模型(GMM)为例,隐变量是每种高斯分布的权重参数,估计隐变量z等价于估计各个权重系数的概率分布(连续分布)

  • 以隐马尔可夫模型(HMM)为例,隐变量是HMM观测序列对应的隐层状态序列,估计隐变量z等价于估计当前观测序列由每种隐层状态序列得出的概率(离散分布)

对于第3步的解释

第3步的作用是计算似然函数在隐变量上的期望,换个角度理解是:令似然函数在每种隐变量的情况下同时最大化(当然每种情况的权重不同);离散分布的隐变量和连续分布的隐变量求期望的方式有所不同:

  • 离散分布的隐变量,EM算法等价于对隐变量取不同值时的似然函数进行加权求和,权重是隐变量取得不同值时的概率;最后,令加权之后的似然函数最大化从而得到更新后的参数值θ
  • 连续分布的隐变量,EM算法等价于对似然函数在隐变量上进行积分,然后对积分后的函数最大化从而得到更新后的参数值θ

对于第4步的解释

第3步我们更新了似然函数中的参数θ,接着跳到第2步得到新的隐变量z,然后执行第3步,这样依次循环更新参数θ和隐变量直至模型收敛

这篇关于#通俗理解# 从极大似然估计(MLE)到最大期望(EM)算法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/582632

相关文章

springboot+dubbo实现时间轮算法

《springboot+dubbo实现时间轮算法》时间轮是一种高效利用线程资源进行批量化调度的算法,本文主要介绍了springboot+dubbo实现时间轮算法,文中通过示例代码介绍的非常详细,对大家... 目录前言一、参数说明二、具体实现1、HashedwheelTimer2、createWheel3、n

SpringBoot实现MD5加盐算法的示例代码

《SpringBoot实现MD5加盐算法的示例代码》加盐算法是一种用于增强密码安全性的技术,本文主要介绍了SpringBoot实现MD5加盐算法的示例代码,文中通过示例代码介绍的非常详细,对大家的学习... 目录一、什么是加盐算法二、如何实现加盐算法2.1 加盐算法代码实现2.2 注册页面中进行密码加盐2.

Java时间轮调度算法的代码实现

《Java时间轮调度算法的代码实现》时间轮是一种高效的定时调度算法,主要用于管理延时任务或周期性任务,它通过一个环形数组(时间轮)和指针来实现,将大量定时任务分摊到固定的时间槽中,极大地降低了时间复杂... 目录1、简述2、时间轮的原理3. 时间轮的实现步骤3.1 定义时间槽3.2 定义时间轮3.3 使用时

如何通过Golang的container/list实现LRU缓存算法

《如何通过Golang的container/list实现LRU缓存算法》文章介绍了Go语言中container/list包实现的双向链表,并探讨了如何使用链表实现LRU缓存,LRU缓存通过维护一个双向... 目录力扣:146. LRU 缓存主要结构 List 和 Element常用方法1. 初始化链表2.

golang字符串匹配算法解读

《golang字符串匹配算法解读》文章介绍了字符串匹配算法的原理,特别是Knuth-Morris-Pratt(KMP)算法,该算法通过构建模式串的前缀表来减少匹配时的不必要的字符比较,从而提高效率,在... 目录简介KMP实现代码总结简介字符串匹配算法主要用于在一个较长的文本串中查找一个较短的字符串(称为

通俗易懂的Java常见限流算法具体实现

《通俗易懂的Java常见限流算法具体实现》:本文主要介绍Java常见限流算法具体实现的相关资料,包括漏桶算法、令牌桶算法、Nginx限流和Redis+Lua限流的实现原理和具体步骤,并比较了它们的... 目录一、漏桶算法1.漏桶算法的思想和原理2.具体实现二、令牌桶算法1.令牌桶算法流程:2.具体实现2.1

深入理解Apache Airflow 调度器(最新推荐)

《深入理解ApacheAirflow调度器(最新推荐)》ApacheAirflow调度器是数据管道管理系统的关键组件,负责编排dag中任务的执行,通过理解调度器的角色和工作方式,正确配置调度器,并... 目录什么是Airflow 调度器?Airflow 调度器工作机制配置Airflow调度器调优及优化建议最

一文带你理解Python中import机制与importlib的妙用

《一文带你理解Python中import机制与importlib的妙用》在Python编程的世界里,import语句是开发者最常用的工具之一,它就像一把钥匙,打开了通往各种功能和库的大门,下面就跟随小... 目录一、python import机制概述1.1 import语句的基本用法1.2 模块缓存机制1.

深入理解C语言的void*

《深入理解C语言的void*》本文主要介绍了C语言的void*,包括它的任意性、编译器对void*的类型检查以及需要显式类型转换的规则,具有一定的参考价值,感兴趣的可以了解一下... 目录一、void* 的类型任意性二、编译器对 void* 的类型检查三、需要显式类型转换占用的字节四、总结一、void* 的

深入理解Redis大key的危害及解决方案

《深入理解Redis大key的危害及解决方案》本文主要介绍了深入理解Redis大key的危害及解决方案,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着... 目录一、背景二、什么是大key三、大key评价标准四、大key 产生的原因与场景五、大key影响与危