PRML读书会第二章 Probability Distributions

2023-10-04 09:30

本文主要是介绍PRML读书会第二章 Probability Distributions,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

PRML读书会第二章 Probability Distributions

开始吧,先不要发言了,先讲PRML第二章Probability Distributions。今天的内容比较多,还是边思考边打字,会比较慢,大家不要着急,上午讲不完下午会接着讲。
顾名思义,PRML第二章Probability Distributions的主要内容有:伯努利分布、 二项式 –beta共轭分布、多项式分布 -狄利克雷共轭分布 、高斯分布 、频率派和贝叶斯派的区别联系 、指数族等。
先看最简单的伯努利分布:

prml2-1

最简单的例子就是抛硬币,正反面的概率。
再看二项式分布:

prml2-2

抛N次有m次是正面或反面的概率,所以伯努利分布是二项式分布的特例。

向大家推荐一本好书,陈希孺的《数理统计简史》,对数理统计的一些基本东西的来龙去脉介绍的很详细,这样有助于理解。先818二项式分布,正态分布被发现前,二项式分布是大家研究的主要内容。
由二项式分布可以推出其他很多分布形式,比如泊松定理:

prml2-3

泊松分布是二项式分布的极限形式,这个估计大家都推导过。由二项式分布也能推出正态分布。
贝叶斯思想也是当时对二项式分布做估计产生的,后来沉寂了一百多年。

数据少时用最大似然方法估计参数会过拟合,而贝叶斯方法认为模型参数有一个先验分布,因此共轭分布在贝叶斯方法中很重要,现在看二项式分布的共轭分布beta分布:

prml2-4

结合上面的二项式分布的形式,不难看出beta分布和二项式分布的似然函数有着相同的形式,这样用beta分布做二项式分布参数的先验分布,乘似然函数以后得到的后验分布依然是beta分布。
a b是超参,大家可以看到beta分布的形式非常灵活:

prml2-5

假设抛硬币N次,l和m分别为正反面的记数,那么参数的后验分布便是:

prml2-6
不难看出,后验分布是先验和数据共同作用的结果。
这种数据矫正先验的形式可以通过序列的形式进行,非常适合在线学习。
单拿一步来说明问题:

prml2-7
可以看出,a的记数增加了1。

书上通过序列数据流的形式来矫正先验的描述,每次可以用一个观测数据也可以用small batches,很适合实时的学习:

prml2-9

回到上面的二项式-beta共轭,随着数据的增加,m,l趋于无穷大时,这时参数的后验分布就等于最大似然解。
有些先验分布可以证明,随着数据的增加方差越来越小,分布越来越陡,最后坍缩成狄拉克函数,这时贝叶斯方法和频率派方法是等价的。举个第三章的贝叶斯线性回归的例子,对于下图中间参数W的高斯先验分布,随着数据不断增加,参数后验分布的不确定性逐渐减少,朝一个点坍缩:

prml2-10

接着看多项式分布:把抛硬币换成了掷骰子

prml2-11

同样它的共轭分布狄利克雷分布也得和似然函数保持相同的形式。
狄利克雷分布:

prml2-12
后验形式:

prml2-13
大家依然能看到记数。

下面讲高斯分布,大家看高斯分布的形式:

prml2-14
多元高斯分布的形式:

prml2-16
高斯分布有着优良的性质 ,便于推导,很多时候会得到解析解。一元高斯分布是个钟形的曲线,大部分都集中在均值附近,朝两边的概率呈指数衰减,这个可以用契比雪夫不等式来说明,偏离均值超过3个标准差的概率就非常低了:

prml2-17
正态分布是如何发现的,在《数理统计简史》有详细的介绍,当时已经有很多人包括拉普拉斯在找随机误差的分布形式,都没有找到,高斯是出于一个假设找到的,也就是随机误差分布的最大似然解是算数平均值,只有正态分布这个函数满足这个要求。

然后高斯进一步将随机误差的正态分布假设和最小二乘联系到了一块,两者是等价的:

prml2-20

prml2-21
后来就是拉普拉斯迅速跟进,提出了中心极限定理,大量随机变量的和呈正态分布,这样解释了随机误差是正态分布的原因。中心极限定理的公式:

prml2-22

大家看PRML上的图,很形象的说明高斯分布是怎么生长出来的:

prml2-24

从[0,1]随机取N个变量,然后算它们的算术平均,随着N的增大,均值的分布逐渐呈现出高斯分布,可以比较直观的了解中心极限定理 。
接着看高斯分布的几何形式:
先给出样本到均值的马氏距离prml2-25

把协方差矩阵的逆  prml2-26  带入上式

会得到以协方差矩阵的特征值平方根为轴长的标准椭圆方程  prml2-27
其中prml2-28 prml2-29

也就是原来的坐标系经过平移和旋转,由协方差矩阵特征向量组成的矩阵U负责旋转坐标轴。
看下面张图就很明白了:

prml2-30

接着是条件高斯分布和边缘高斯分布,这两个分布由高斯分布组成,自身也是高斯分布。
条件高斯分布的推导过程略过,大家记住这个结论:

prml2-31
上面是条件高斯分布的均值和方差,以后的Gaussian Processes在最后预测时会用到均值。
另一个是线性高斯模型 p(y|x)均值是 x 的线性函数,协方差与 x 独立,也会经常用到。
接下来是关于高斯分布的贝叶斯方法,方差已知均值未知,先验用高斯分布;均值已知方差未知用Gamma分布;都不知道用Gaussian-Gamma distribution。这方面的推导略过,大家用到时翻书查看就行了:

prml2-33

接下来看Student t-distribution,Student是笔名,此人在数理统计史上是非常nb的人物。

prml2-35

上面是t分布的形式,具体如何发现的可以参看《数理统计简史》,大家看上面的积分形式,t分布其实是无限个均值一样,方差不同的高斯分布混合而成,高斯分布是它的特例,相比较高斯分布,t分布对outliers干扰的鲁棒性要强很多。

从这个图就可以看出,高斯分布对右边孤立点的干扰很敏感,t分布基本上没有变化:

prml2-40

接着讲混合高斯分布:看下图里的例子,单个高斯分布表达能力有限,无法捕捉到两个簇结构:

prml2-41

我们可以多个高斯分布的线性组合来逼近复杂的分布,并且对非指数族的分布也一样有效。

混合高斯分布的形式:prml2-42
RIVERS(773600590) 11:01:09
可不可以使用非线性的组合呢?
网络上的尼采(813394698) 11:01:48
那就太复杂了

prml2-43
这个图是三个高斯分布混合逼近一个复杂分布的例子。

混合高斯模型里面有一个隐变量,也就是数据点属于哪个高斯分布。

这个就是隐变量的期望:

prml2-44

这个是我们的最大似然目标函数:

prml2-46

可以用EM算法,一边是隐变量,一边是模型的参数,迭代着来回倒腾,收敛到局部最优。混合高斯我在第九章详细讲了,感兴趣的可以看下原来的记录。
xunyu(2118773) 11:09:18
隐变量和最大似然函数的联系在哪里
落英缤纷(348609341) 11:10:16
不设置隐变量直接用ML不好解
网络上的尼采(813394698) 11:10:31
下面讲指数族,很多分布包括我们上面提到的二项式分布、beta分布、多项式分布、狄利克雷分布、高斯分布都可以转换成这种指数族的形式:

prml2-47
其中η是参数,g(η)是归一化因子,u(x)是x的函数。

指数族的似然函数:

prml2-48

对lnp(X|η)关于η求导,令其等于0,会得到最大似然解的形式:

prml2-49

很显然,prml2-50是充分统计量。充分统计量其实很好理解,拿最简单的二项式分布来说,抛硬币我们只需要记住正反面出现的次数就行,原来的数据就可以丢弃了。

DUDA是指数族专家,这是从他书上截的图,大家可以看下表中的指数族:

prml2-52

 

指数族的共轭先验形式:

prml2-53

后验形式:

prml2-55

 

注:PRML读书会系列文章由 @Nietzsche_复杂网络机器学习 同学授权发布,转载请注明原作者和相关的主讲人,谢谢。

PRML读书会讲稿PDF版本以及更多资源下载地址:http://vdisk.weibo.com/u/1841149974

主讲人 网络上的尼采

(新浪微博:@Nietzsche_复杂网络机器学习)

网络上的尼采(813394698) 9:11:56


本文链接地址:http://www.52nlp.cn/prml读书会第二章-probability-distributions

这篇关于PRML读书会第二章 Probability Distributions的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1804

相关文章

《offer来了》第二章学习笔记

1.集合 Java四种集合:List、Queue、Set和Map 1.1.List:可重复 有序的Collection ArrayList: 基于数组实现,增删慢,查询快,线程不安全 Vector: 基于数组实现,增删慢,查询快,线程安全 LinkedList: 基于双向链实现,增删快,查询慢,线程不安全 1.2.Queue:队列 ArrayBlockingQueue:

计算广告:第二章——计算广告基础

一、广告有效性原理 二、互联网广告的技术特点 1、技术和计算向导 2、效果的可衡量性 3、创意和投放方式的标准化 4、媒体概念的多样化 5、数据驱动的投放决策 三、计算广告的核心问题 1、广告收入的分解 2、结算方式与ECMP估计关系 四、在线广告相关行业协会 五、问题 可衡量的效果以及相应的计算优化是在线广告区别线下广告的主要特点,千次展示期望收入(expect

第二章 权限

一、Linux权限的概念 1.Linux下有两种用户:超级用户(root)、普通用户。 超级用户:可以再 linux 系统下做任何事情,不受限制 普通用户:在 linux 下做有限的事情。 超级用户的命令提示符是 “#” ,普通用户的命令提示符是 “$” 。 命令 : su [ 用户名 ] 功能 :切换用户。 例如,要从 root 用户切

Unity Shader第二章作业

一、什么是图元,有哪几种图元 图元就是组成图像的基本单元,有点、线、面三种图元。 二、渲染流水线分哪三个概念阶段?每个概念阶段主要任务是什么,由哪个计算部件执行 应用阶段——》几何阶段——》光柵化阶段 应用阶段:应用阶段通常由CPU负责实现,先准备好场景数据,然后去除不可见的物体,提高渲染能力,设置好每个模型的渲染状态后,输出渲染图元(点,线,三角面),传递给几何阶段。 几何阶段:把渲染

板凳---------unix网络编程卷1:第二章传输层:TCP、UDP 和 SCTP

2.1 概述 焦点是传输层,包括TCP、UDP和SCTP(Stream Control Transmission Protocol,流控制传输协议)。绝大多数客户/服务器网络应用使用TCP或UDP。SCTP是一个较新的协议,最初设计用于跨因特网传输电话信令。这些传输协议都转而使用网络层协议IP:或是IPv4,或是IPv6。绕过传输层直接使用IPv4或IPv6,称为原始套接字。 UDP是一个简单的

《C++ Primer》第二章练习

注意:每十道题给一个链接,一共 42 题 目录 2.10 下列变量的初值分别是什么?2.20 请叙述下面这段代码的作用。2.30 对于下面这些语句,请说明对象被声明成了顶层 const 还是 底层 const ?2.40 根据自己的理解写出 Sales_data 类,最好与书中的有所区别。 2.1 类型 int、long、long long 和 short 的区别是什么 ?无

第二章 编译运行Android Wenet语音识别

系列文章目录 第一章 基于Ubuntu 24.04 搭建wenet语音转文字 第二章 编译运行Android Wenet语音识别 文章目录 系列文章目录前言一、Android Wenet语音识别二、使用步骤1.修改gradle配置2.下载预训练模型3.执行task extractAARForNativeBuild4.构建并运行APK5.遇到问题 总结 前言 本文继续前

第二章 通信信道

第二章 通信信道 第二章 通信信道通信信道的定义和分类信道通信模型通信信道模型:调制信道二对端调制信道模型 通信信道模型:编码信道 信道噪声和干扰信道容量香农公式离散信道容量 第二章 通信信道 通信信道的定义和分类 信道:以传输媒介(质)为基础的信号通路。 信道的作用是传输信号 狭义信道:有线信道、无线信道 广义信道:调制信道(模拟通信系统)、编码信道(数字通

第二章 啊哈!算法

一、围绕三个问题展开          问题一:二分查找      问题二:  翻手掌       问题三: 三阶段    #include <stdio.h>#include <stdlib.h>#include <string.h>#define WORDMAX 100int charcomp(char *x, char *y){ return *x - *y;

Android Studio 手动创建活动(Activity) 第一行代码 第二章

活动概念:是一种可以包含用户界面的组件,主要用于和用户进行交互 手动创建活动:新建一个Android项目,项目名为ActivityTest,包名使用默认值com.example.activitytest 1.新建Android Studio项目 点击Start a new Android Studioproject 将包名改为ActivityTest,其余默认,点击Nex