StanFord ML 笔记 第九部分

2024-05-28 20:08
文章标签 笔记 部分 第九 ml stanford

本文主要是介绍StanFord ML 笔记 第九部分,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!


第九部分:

  1.高斯混合模型

  2.EM算法的认知


1.高斯混合模型

  之前博文已经说明:http://www.cnblogs.com/wjy-lulu/p/7009038.html

2.EM算法的认知

  2.1理论知识之前已经说明:http://www.cnblogs.com/wjy-lulu/p/7010258.html

  2.2公式的推导 

    2.2.1. Jensen不等式

          回顾优化理论中的一些概念。设f是定义域为实数的函数,如果对于所有的实数x,

clip_image002
,那么f是凸函数。当x是向量时,如果其hessian矩阵H是半正定的(
clip_image004
),那么f是凸函数。如果
clip_image006
或者
clip_image008
,那么称f是严格凸函数。

          Jensen不等式表述如下:

          如果f是凸函数,X是随机变量,那么

          

clip_image010

          特别地,如果f是严格凸函数,那么

clip_image012
当且仅当
clip_image014
,也就是说X是常量。

          这里我们将

clip_image016
简写为
clip_image018

          如果用图表示会很清晰:

      

clip_image019

          图中,实线f是凸函数,X是随机变量,有0.5的概率是a,有0.5的概率是b。(就像掷硬币一样)。X的期望值就是a和b的中值了,图中可以看到

clip_image010[1]
成立。

          当f是(严格)凹函数当且仅当-f是(严格)凸函数。

          Jensen不等式应用于凹函数时,不等号方向反向,也就是

clip_image021

    2.2.2 EM算法

          给定的训练样本是

clip_image023
,样例间独立,我们想找到每个样例隐含的类别z,能使得p(x,z)最大。p(x,z)的最大似然估计如下:

      

clip_image024

          第一步是对极大似然取对数,第二步是对每个样例的每个可能类别z求联合分布概率和。但是直接求

clip_image026
一般比较困难,因为有隐藏变量z存在,但是一般确定了z后,求解就容易了。

          EM是一种解决存在隐含变量优化问题的有效方法。竟然不能直接最大化

clip_image028
,我们可以不断地建立
clip_image030
的下界(E步),然后优化下界(M步)。这句话比较抽象,看下面的。

          对于每一个样例i,让

clip_image032
表示该样例隐含变量z的某种分布,
clip_image032[1]
满足的条件是
clip_image034
。( 如果z是连续性的,那么
clip_image032[2]
是概率密度函数,需要将求和符号换做积分符号,这里概率论书上也有说明,看个例子大家就明白)。比如要将班上学生聚类,假设隐藏变量z是身高,那么就是连续的高斯分布。如果按照隐藏变量是男女,那么就是伯努利分布了。 这里就是上面说的Z的概率和为1.

    可以由前面阐述的内容得到下面的公式:

      

clip_image035

          (1)到(2)比较直接,就是分子分母同乘以一个相等的函数。(2)到(3)利用了Jensen不等式,考虑到

clip_image037
是凹函数(二阶导数小于0),而且

      

clip_image038

          就是

clip_image039
的期望(回想期望公式中的Lazy Statistician规则):

      Lazy Statistician:这个公式没啥稀奇的,就是连续概率函数的期望公式,每本概率论书上都有的!

      设Y是随机变量X的函数

clip_image041
(g是连续函数),那么

      (1) X是离散型随机变量,它的分布律为

clip_image043
,k=1,2,…。若
clip_image045
绝对收敛,则有

      

clip_image047

      (2) X是连续型随机变量,它的概率密度为

clip_image049
,若
clip_image051
绝对收敛,则有

      

clip_image053

      对应于上述问题,Y是

clip_image039[1]
,X是
clip_image055
clip_image057
clip_image059
,g是
clip_image055[1]
clip_image039[2]
的映射。这样解释了式子(2)中的期望,再根据凹函数时的Jensen不等式:

      

clip_image060

可以得到(3)。

注释:这里(3)的推到没有什么捷径,大家动手一下就可以了,连续函数的期望+Log函数性质+Jensen不等式,运用这三个公式去推导! 

          这个过程可以看作是对

clip_image028[1]
求了下界。对于
clip_image032[3]
的选择,有多种可能,那种更好的?假设
clip_image026[1]
已经给定,那么
clip_image028[2]
的值就决定于
clip_image057[1]
clip_image062
了。我们可以通过调整这两个概率使下界不断上升,以逼近
clip_image028[3]
的真实值,那么什么时候算是调整好了呢?当不等式变成等式时,说明我们调整后的概率能够等价于
clip_image028[4]
了。按照这个思路,我们要找到等式成立的条件。根据Jensen不等式,要想让等式成立,需要让随机变量变成常数值,这里得到:

注释:开投的Jensen正面已经有说明!

      

clip_image063

          c为常数,不依赖于

clip_image065
。对此式子做进一步推导,我们知道
clip_image067
,那么也就有
clip_image069
,(多个等式分子分母相加不变,这个认为每个样例的两个概率比值都是c),那么有下式:

 

      

clip_image070

          此,我们推出了在固定其他参数

clip_image026[2]
后,
clip_image072
的计算公式就是后验概率,解决了
clip_image072[1]
如何选择的问题。这一步就是E步,建立
clip_image028[5]
的下界。接下来的M步,就是在给定
clip_image072[2]
后,调整
clip_image026[3]
,去极大化
clip_image028[6]
的下界(在固定
clip_image072[3]
后,下界还可以调整的更大)。那么一般的EM算法的步骤如下:

循环重复直到收敛 {

      (E步)对于每一个i,计算

                  

clip_image074

      (M步)计算

                  

clip_image075

          那么究竟怎么确保EM收敛?假定

clip_image077
clip_image079
是EM第t次和t+1次迭代后的结果。如果我们证明了
clip_image081
,也就是说极大似然估计单调增加,那么最终我们会到达最大似然估计的最大值。下面来证明,选定
clip_image077[1]
后,我们得到E步

      

clip_image083

          这一步保证了在给定

clip_image077[2]
时,Jensen不等式中的等式成立,也就是

      

clip_image084

          然后进行M步,固定

clip_image086
,并将
clip_image088
视作变量,对上面的
clip_image090
求导后,得到
clip_image092
,这样经过一些推导会有以下式子成立:

          注释:其实我们做的每一步都是求每个位置的局部极大值,这里肯定是大于等于前面一个值的。

clip_image093

          解释第(4)步,得到

clip_image092[1]
时,只是最大化
clip_image090[1]
,也就是
clip_image095
的下界,而没有使等式成立,等式成立只有是在固定
clip_image026[4]
,并按E步得到
clip_image097
时才能成立。

 

          况且根据我们前面得到的下式,对于所有的

clip_image097[1]
clip_image026[5]
都成立

      

clip_image098

          第(5)步利用了M步的定义,M步就是将

clip_image088[1]
调整到
clip_image100
,使得下界最大化。因此(5)成立,(6)是之前的等式结果。

          这样就证明了

clip_image102
会单调增加。一种收敛方法是
clip_image102[1]
不再变化,还有一种就是变化幅度很小。

          再次解释一下(4)、(5)、(6)。首先(4)对所有的参数都满足,而其等式成立条件只是在固定

clip_image026[6]
,并调整好Q时成立,而第(4)步只是固定Q,调整
clip_image026[7]
,不能保证等式一定成立。(4)到(5)就是M步的定义,(5)到(6)是前面E步所保证等式成立条件。也就是说E步会将下界拉到与
clip_image102[2]
一个特定值(这里
clip_image088[2]
)一样的高度,而此时发现下界仍然可以上升,因此经过M步后,下界又被拉升,但达不到与
clip_image102[3]
另外一个特定值一样的高度,之后E步又将下界拉到与这个特定值一样的高度,重复下去,直到最大值。

          如果我们定义

      

clip_image103

          从前面的推导中我们知道

clip_image105
,EM可以看作是J的坐标上升法,E步固定
clip_image026[8]
,优化
clip_image107
,M步固定
clip_image107[1]
优化
clip_image026[9]

参考:https://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html#2103308

这篇关于StanFord ML 笔记 第九部分的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1011566

相关文章

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

poj 2976 分数规划二分贪心(部分对总体的贡献度) poj 3111

poj 2976: 题意: 在n场考试中,每场考试共有b题,答对的题目有a题。 允许去掉k场考试,求能达到的最高正确率是多少。 解析: 假设已知准确率为x,则每场考试对于准确率的贡献值为: a - b * x,将贡献值大的排序排在前面舍弃掉后k个。 然后二分x就行了。 代码: #include <iostream>#include <cstdio>#incl

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

数学建模笔记—— 非线性规划

数学建模笔记—— 非线性规划 非线性规划1. 模型原理1.1 非线性规划的标准型1.2 非线性规划求解的Matlab函数 2. 典型例题3. matlab代码求解3.1 例1 一个简单示例3.2 例2 选址问题1. 第一问 线性规划2. 第二问 非线性规划 非线性规划 非线性规划是一种求解目标函数或约束条件中有一个或几个非线性函数的最优化问题的方法。运筹学的一个重要分支。2

【C++学习笔记 20】C++中的智能指针

智能指针的功能 在上一篇笔记提到了在栈和堆上创建变量的区别,使用new关键字创建变量时,需要搭配delete关键字销毁变量。而智能指针的作用就是调用new分配内存时,不必自己去调用delete,甚至不用调用new。 智能指针实际上就是对原始指针的包装。 unique_ptr 最简单的智能指针,是一种作用域指针,意思是当指针超出该作用域时,会自动调用delete。它名为unique的原因是这个

查看提交历史 —— Git 学习笔记 11

查看提交历史 查看提交历史 不带任何选项的git log-p选项--stat 选项--pretty=oneline选项--pretty=format选项git log常用选项列表参考资料 在提交了若干更新,又或者克隆了某个项目之后,你也许想回顾下提交历史。 完成这个任务最简单而又有效的 工具是 git log 命令。 接下来的例子会用一个用于演示的 simplegit

记录每次更新到仓库 —— Git 学习笔记 10

记录每次更新到仓库 文章目录 文件的状态三个区域检查当前文件状态跟踪新文件取消跟踪(un-tracking)文件重新跟踪(re-tracking)文件暂存已修改文件忽略某些文件查看已暂存和未暂存的修改提交更新跳过暂存区删除文件移动文件参考资料 咱们接着很多天以前的 取得Git仓库 这篇文章继续说。 文件的状态 不管是通过哪种方法,现在我们已经有了一个仓库,并从这个仓

忽略某些文件 —— Git 学习笔记 05

忽略某些文件 忽略某些文件 通过.gitignore文件其他规则源如何选择规则源参考资料 对于某些文件,我们不希望把它们纳入 Git 的管理,也不希望它们总出现在未跟踪文件列表。通常它们都是些自动生成的文件,比如日志文件、编译过程中创建的临时文件等。 通过.gitignore文件 假设我们要忽略 lib.a 文件,那我们可以在 lib.a 所在目录下创建一个名为 .gi

取得 Git 仓库 —— Git 学习笔记 04

取得 Git 仓库 —— Git 学习笔记 04 我认为, Git 的学习分为两大块:一是工作区、索引、本地版本库之间的交互;二是本地版本库和远程版本库之间的交互。第一块是基础,第二块是难点。 下面,我们就围绕着第一部分内容来学习,先不考虑远程仓库,只考虑本地仓库。 怎样取得项目的 Git 仓库? 有两种取得 Git 项目仓库的方法。第一种是在本地创建一个新的仓库,第二种是把其他地方的某个