PRML读书会第二章 Probability Distributions

2023-10-04 09:30

本文主要是介绍PRML读书会第二章 Probability Distributions,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

PRML读书会第二章 Probability Distributions

开始吧,先不要发言了,先讲PRML第二章Probability Distributions。今天的内容比较多,还是边思考边打字,会比较慢,大家不要着急,上午讲不完下午会接着讲。
顾名思义,PRML第二章Probability Distributions的主要内容有:伯努利分布、 二项式 –beta共轭分布、多项式分布 -狄利克雷共轭分布 、高斯分布 、频率派和贝叶斯派的区别联系 、指数族等。
先看最简单的伯努利分布:

prml2-1

最简单的例子就是抛硬币,正反面的概率。
再看二项式分布:

prml2-2

抛N次有m次是正面或反面的概率,所以伯努利分布是二项式分布的特例。

向大家推荐一本好书,陈希孺的《数理统计简史》,对数理统计的一些基本东西的来龙去脉介绍的很详细,这样有助于理解。先818二项式分布,正态分布被发现前,二项式分布是大家研究的主要内容。
由二项式分布可以推出其他很多分布形式,比如泊松定理:

prml2-3

泊松分布是二项式分布的极限形式,这个估计大家都推导过。由二项式分布也能推出正态分布。
贝叶斯思想也是当时对二项式分布做估计产生的,后来沉寂了一百多年。

数据少时用最大似然方法估计参数会过拟合,而贝叶斯方法认为模型参数有一个先验分布,因此共轭分布在贝叶斯方法中很重要,现在看二项式分布的共轭分布beta分布:

prml2-4

结合上面的二项式分布的形式,不难看出beta分布和二项式分布的似然函数有着相同的形式,这样用beta分布做二项式分布参数的先验分布,乘似然函数以后得到的后验分布依然是beta分布。
a b是超参,大家可以看到beta分布的形式非常灵活:

prml2-5

假设抛硬币N次,l和m分别为正反面的记数,那么参数的后验分布便是:

prml2-6
不难看出,后验分布是先验和数据共同作用的结果。
这种数据矫正先验的形式可以通过序列的形式进行,非常适合在线学习。
单拿一步来说明问题:

prml2-7
可以看出,a的记数增加了1。

书上通过序列数据流的形式来矫正先验的描述,每次可以用一个观测数据也可以用small batches,很适合实时的学习:

prml2-9

回到上面的二项式-beta共轭,随着数据的增加,m,l趋于无穷大时,这时参数的后验分布就等于最大似然解。
有些先验分布可以证明,随着数据的增加方差越来越小,分布越来越陡,最后坍缩成狄拉克函数,这时贝叶斯方法和频率派方法是等价的。举个第三章的贝叶斯线性回归的例子,对于下图中间参数W的高斯先验分布,随着数据不断增加,参数后验分布的不确定性逐渐减少,朝一个点坍缩:

prml2-10

接着看多项式分布:把抛硬币换成了掷骰子

prml2-11

同样它的共轭分布狄利克雷分布也得和似然函数保持相同的形式。
狄利克雷分布:

prml2-12
后验形式:

prml2-13
大家依然能看到记数。

下面讲高斯分布,大家看高斯分布的形式:

prml2-14
多元高斯分布的形式:

prml2-16
高斯分布有着优良的性质 ,便于推导,很多时候会得到解析解。一元高斯分布是个钟形的曲线,大部分都集中在均值附近,朝两边的概率呈指数衰减,这个可以用契比雪夫不等式来说明,偏离均值超过3个标准差的概率就非常低了:

prml2-17
正态分布是如何发现的,在《数理统计简史》有详细的介绍,当时已经有很多人包括拉普拉斯在找随机误差的分布形式,都没有找到,高斯是出于一个假设找到的,也就是随机误差分布的最大似然解是算数平均值,只有正态分布这个函数满足这个要求。

然后高斯进一步将随机误差的正态分布假设和最小二乘联系到了一块,两者是等价的:

prml2-20

prml2-21
后来就是拉普拉斯迅速跟进,提出了中心极限定理,大量随机变量的和呈正态分布,这样解释了随机误差是正态分布的原因。中心极限定理的公式:

prml2-22

大家看PRML上的图,很形象的说明高斯分布是怎么生长出来的:

prml2-24

从[0,1]随机取N个变量,然后算它们的算术平均,随着N的增大,均值的分布逐渐呈现出高斯分布,可以比较直观的了解中心极限定理 。
接着看高斯分布的几何形式:
先给出样本到均值的马氏距离prml2-25

把协方差矩阵的逆  prml2-26  带入上式

会得到以协方差矩阵的特征值平方根为轴长的标准椭圆方程  prml2-27
其中prml2-28 prml2-29

也就是原来的坐标系经过平移和旋转,由协方差矩阵特征向量组成的矩阵U负责旋转坐标轴。
看下面张图就很明白了:

prml2-30

接着是条件高斯分布和边缘高斯分布,这两个分布由高斯分布组成,自身也是高斯分布。
条件高斯分布的推导过程略过,大家记住这个结论:

prml2-31
上面是条件高斯分布的均值和方差,以后的Gaussian Processes在最后预测时会用到均值。
另一个是线性高斯模型 p(y|x)均值是 x 的线性函数,协方差与 x 独立,也会经常用到。
接下来是关于高斯分布的贝叶斯方法,方差已知均值未知,先验用高斯分布;均值已知方差未知用Gamma分布;都不知道用Gaussian-Gamma distribution。这方面的推导略过,大家用到时翻书查看就行了:

prml2-33

接下来看Student t-distribution,Student是笔名,此人在数理统计史上是非常nb的人物。

prml2-35

上面是t分布的形式,具体如何发现的可以参看《数理统计简史》,大家看上面的积分形式,t分布其实是无限个均值一样,方差不同的高斯分布混合而成,高斯分布是它的特例,相比较高斯分布,t分布对outliers干扰的鲁棒性要强很多。

从这个图就可以看出,高斯分布对右边孤立点的干扰很敏感,t分布基本上没有变化:

prml2-40

接着讲混合高斯分布:看下图里的例子,单个高斯分布表达能力有限,无法捕捉到两个簇结构:

prml2-41

我们可以多个高斯分布的线性组合来逼近复杂的分布,并且对非指数族的分布也一样有效。

混合高斯分布的形式:prml2-42
RIVERS(773600590) 11:01:09
可不可以使用非线性的组合呢?
网络上的尼采(813394698) 11:01:48
那就太复杂了

prml2-43
这个图是三个高斯分布混合逼近一个复杂分布的例子。

混合高斯模型里面有一个隐变量,也就是数据点属于哪个高斯分布。

这个就是隐变量的期望:

prml2-44

这个是我们的最大似然目标函数:

prml2-46

可以用EM算法,一边是隐变量,一边是模型的参数,迭代着来回倒腾,收敛到局部最优。混合高斯我在第九章详细讲了,感兴趣的可以看下原来的记录。
xunyu(2118773) 11:09:18
隐变量和最大似然函数的联系在哪里
落英缤纷(348609341) 11:10:16
不设置隐变量直接用ML不好解
网络上的尼采(813394698) 11:10:31
下面讲指数族,很多分布包括我们上面提到的二项式分布、beta分布、多项式分布、狄利克雷分布、高斯分布都可以转换成这种指数族的形式:

prml2-47
其中η是参数,g(η)是归一化因子,u(x)是x的函数。

指数族的似然函数:

prml2-48

对lnp(X|η)关于η求导,令其等于0,会得到最大似然解的形式:

prml2-49

很显然,prml2-50是充分统计量。充分统计量其实很好理解,拿最简单的二项式分布来说,抛硬币我们只需要记住正反面出现的次数就行,原来的数据就可以丢弃了。

DUDA是指数族专家,这是从他书上截的图,大家可以看下表中的指数族:

prml2-52

 

指数族的共轭先验形式:

prml2-53

后验形式:

prml2-55

 

注:PRML读书会系列文章由 @Nietzsche_复杂网络机器学习 同学授权发布,转载请注明原作者和相关的主讲人,谢谢。

PRML读书会讲稿PDF版本以及更多资源下载地址:http://vdisk.weibo.com/u/1841149974

主讲人 网络上的尼采

(新浪微博:@Nietzsche_复杂网络机器学习)

网络上的尼采(813394698) 9:11:56


本文链接地址:http://www.52nlp.cn/prml读书会第二章-probability-distributions

这篇关于PRML读书会第二章 Probability Distributions的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1804

相关文章

第二章 《凯斯迈之岛》

就在埃塞克斯大学的两名大学生紧锣密鼓地开发MUD之时,位于大洋彼岸的美国弗吉尼亚大学的两名大学生也在做着自己的游戏,他们名字叫做约翰•R•泰勒(John R Taylor III)和凯尔顿•弗林(Kelton Flinn)。泰勒与特鲁布肖一样是计算机科学专业的学生,而弗林则正在攻读应用数学专业的博士学位。   和当时美国大学校园中的多数学生一样,二人最大的乐趣是使

第一篇 第一章资金时间价值计算及应用 第二章经济效果评价

第1章 资金时间价值计算及应用 资金具有时间价值 1.1 利息的计算 1.1.1 利息和利率 I=F-P 债务人为资金需求方 债权人为资金供给方利息对经济活动的影响(1.影响企业行为 2.影响居民资产选择行为 3.影响政府行为) 利率 1.影响因素(1.社会平均利润率的高低 2.市场资金供求对比状况 3.资金要承担的风险 4.债务资金使用期限长短 5.政府宏观调控政策 6.经济周期所处

第二章 可行性研究与软件开发计划简记

第二章  可行性研究与软件开发计划 可行性研究的任务:回答所开发的软件系统有无可行的解决办法或者这个系统值得开发么。 可行性研究大体可分为三个大的方面:工艺技术、市场需求、财务经济状况。 可行性研究的目的:就是尽可能的用最小的代价在尽可能短的时间内确定问题是否能解决。 可行性研究的解决方案:一般集中在 1.技术可行性2.经济可行性3.操作可行性。

第二章 感受Mac 之美-惊艳从Mac 外设开始,一周后的使用感受

期望已久,同时老婆也是极力推荐说,既然是吃饭的家伙,那么就下点血本投资下自己,原来那台已经满足不了你现在的工作效率了,继续沿用,得不偿失啊。 衡量了一下目前的情况,同时考虑到自己也是一个程序员爸爸了,也有房贷在身,所以去没有选择 16g 内存,512g 的 ssd,15.4 或者新版 16 寸大屏幕的高配,而是选择了比较适合我现阶段的配置的【Apple 2019 款 MacBook Pro 13

概率论 --- Uva 11181 Probability|Given

Uva 11181 Probability|Given  Problem's Link:   http://acm.hust.edu.cn/vjudge/problem/viewProblem.action?id=18546   Mean:  n个人去逛超市,第i个人会购买东西的概率是Pi。出超市以后发现有r个人买了东西,问你每个人购买东西的实际概率是多少。   analyse

第二章 实用类介绍

文章目录 第二章 实用类介绍1、枚举(enum)2、包装类1.包装类的作用2.包装类的构造方法3.包装类的常用方法 3、装箱和拆箱4、Math类5、Random类6、String类7、StringBuffer类8、操作日期时间 第二章 实用类介绍 1、枚举(enum) 枚举指由一组固定的常量组成的类型 //定义一个性别枚举public enum Genders{Male,

花书第二章——线性代数

2.1 标量、向量、矩阵、张量和转置 标量(scalar):标量就是一个单独的数,例如数字1、2、1.1、1.2都是标量; 向量(vector):一个向量可以看作是一组标量形成的一维数组,例如由 n 个实数组成的向量 x \pmb{x} x 为: x \pmb{x} x = [ x 1 , x 2 , … , x n x_1,x_2, \dots,x_n x1​,x2​,…,xn​]。我

【Arm Cortex-X925】 -【第二章】-Cortex-X925 core简介

2. Cortex-X925 核心 Cortex-X925 核心是一款高性能、低功耗的产品,采用了 Armv9.2-A 架构。Armv9.2-A 架构在 Armv8‑A 架构的基础上进行了扩展,涵盖了 Armv8.7‑A。 Cortex-X925 核心集成在 DSU-120 DynamIQ™ 集群内。它连接到 DynamIQ™ Shared Unit-120,该单元作为一个完整的互连系统,包含

第二章 识别女人类型

第二章 识别女人类型 识别女人首先要分辨美女和普通女人,受人追捧的女人和不被重视的女人。这个条件应该是男人们都具备的。虽然萝卜青菜各有所爱,有人喜欢模特一样高的,有人喜欢小巧可爱的,有人喜欢白嫩到能掐出水来的,有人喜欢晒成小麦色的运动型女人,也有人喜欢春哥,曾哥。 这是差别,但都不是问题,因为无论你偏爱哪种类型,大家对某个女人应该有个公论,她属于什么档次的。你必须能分清对方是个美女还是个普

操作系统-第二章【上】

目录 一.多道程序设计 程序的顺序执行 程序的并发执行 并发程序执行的条件 二.进程的描述 进程的定义 进程的特性及与程序的区别 动态性 并发性 独立性 异步性 结构特性 进程与程序的区别 进程的基本状态及其转换 进程的三种基本状态  进程三种基本状态间的转换 进程控制块PCB  PCB的作用 PCB的信息 进程的队列 进程的控制 操作系统的内核 内核