【机器学习基础】概率分布之高斯分布

2024-04-05 04:38

本文主要是介绍【机器学习基础】概率分布之高斯分布,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本系列为《模式识别与机器学习》的读书笔记。

一,多元高斯分布

考虑⾼斯分布的⼏何形式,⾼斯对于 x \boldsymbol{x} x 的依赖是通过下⾯形式的⼆次型:
Δ 2 = ( x − μ ) T Σ − 1 ( x − μ ) (2.30) \Delta^{2} = (\boldsymbol{x} - \boldsymbol{\mu})^{T} \boldsymbol{\Sigma}^{-1}(\boldsymbol{x} - \boldsymbol{\mu})\tag{2.30} Δ2=(xμ)TΣ1(xμ)(2.30)
其中, Δ \Delta Δ 被叫做 μ \boldsymbol{\mu} μ x \boldsymbol{x} x 之间的马⽒距离Mahalanobis distance)。 当 Σ \boldsymbol{\Sigma} Σ 是单位矩阵时,就变成了欧式距离。对于 x \boldsymbol{x} x 空间中这个⼆次型是常数的曲⾯,⾼斯分布也是常数。

现在考虑协⽅差矩阵特征向量⽅程
Σ μ i = λ i μ i (2.31) \boldsymbol{\Sigma} \boldsymbol{\mu}_i = \lambda_{i} \boldsymbol{\mu}_{i}\tag{2.31} Σμi=λiμi(2.31)
其中 i = 1 , … , D i = 1,\dots , D i=1,,D。由于 Σ \boldsymbol{\Sigma} Σ实对称矩阵,因此它的特征值也是实数,并且特征向量可以被选成单位正交的,即:
μ i T μ j = I i j (2.32) \boldsymbol{\mu}_{i}^{T} \boldsymbol{\mu}_{j} = I_{ij}\tag{2.32} μiTμj=Iij(2.32)

其中 I i j I_{ij} Iij 是单位矩阵的第 i , j i, j i,j 个元素,满⾜:
I i j = { 1 , 如 果 i = j 0 , 其 他 情 况 (2.33) I_{i j}=\left\{\begin{array}{l}{1,如果 i=j} \\ {0,其他情况}\end{array}\right. \tag{2.33} Iij={1i=j0(2.33)
协⽅差矩阵 Σ \boldsymbol{\Sigma} Σ 可以表⽰成特征向量的展开的形式:
Σ = ∑ i = 1 D λ i μ i μ i T (2.34) \boldsymbol{\Sigma} = \sum_{i=1}^{D} \lambda_i \boldsymbol{\mu}_{i}\boldsymbol{\mu}_{i}^{T}\tag{2.34} Σ=i=1DλiμiμiT(2.34)
协⽅差矩阵的逆矩阵 Σ − 1 \boldsymbol{\Sigma}^{-1} Σ1 可以表⽰成特征向量的展开的形式:
Σ − 1 = ∑ i = 1 D 1 λ i μ i μ i T (2.35) \boldsymbol{\Sigma}^{-1} = \sum_{i=1}^{D} \frac{1}{\lambda_i} \boldsymbol{\mu}_{i}\boldsymbol{\mu}_{i}^{T}\tag{2.35} Σ1=i=1Dλi1μiμiT(2.35)
⼆次型公式(2.30)即可表示为:
Δ 2 = ∑ i = 1 D y i 2 λ i (2.36) \Delta^{2} = \sum_{i=1}^{D} \frac{y_{i}^{2}}{\lambda_{i}}\tag{2.36} Δ2=i=1Dλiyi2(2.36)
其中, y i 2 = u i T ( x − μ ) y_{i}^{2} = \boldsymbol{u_i^T} (\boldsymbol{x} - \boldsymbol{\mu}) yi2=uiT(xμ)

{ y i } \{y_i\} {yi} 表⽰成单位正交向量 μ i \boldsymbol{\mu_i} μi 关于原始的 x i x_i xi 坐标经过平移和旋转后形成的新的坐标系。定义向量 y = ( y 1 , … , y D ) T \boldsymbol{y} = (y_1,\dots, y_D)^T y=(y1,,yD)T ,即有:
y = U ( x − μ ) (2.37) \boldsymbol {y} = \boldsymbol{U} (\boldsymbol{x} - \boldsymbol{\mu})\tag{2.37} y=U(xμ)(2.37)
其中 U \boldsymbol{U} U 是⼀个矩阵,它的⾏是向量 u i T \boldsymbol{u}_{i}^{T} uiT 。从公式(2.32)可以看出 U \boldsymbol{U} U 是⼀个正交矩阵, 即它满⾜性质 U U T = I \boldsymbol{U}\boldsymbol{U}^T = \boldsymbol{I} UUT=I ,因此也满⾜ U T U = I \boldsymbol{U}^T \boldsymbol{U} = \boldsymbol{I} UTU=I ,其中 I \boldsymbol{I} I 是单位矩阵。

⼀个特征值严格⼤于零的矩阵被称为正定(positive definite)矩阵。偶尔遇到⼀个或者多个特征值为零的⾼斯分布,那种情况下分布是奇异的,被限制在 了⼀个低维的⼦空间中。如果所有的特征值都是⾮负的,那么这个矩阵被称为半正定(positive semidefine)矩阵

如图2.12,红⾊曲线表⽰⼆维空间 x = ( x 1 , x 2 ) \boldsymbol{x} = (x_1 , x_2) x=(x1,x2) 的⾼斯分布的常数概率密度的椭圆⾯, 它表⽰的概率密度为 exp ⁡ ( − 1 2 ) \exp(−\frac{1}{2}) exp(21),值是在 x = μ \boldsymbol{x} = \boldsymbol{\mu} x=μ 处计算的。椭圆的轴由协⽅差矩阵的特征向量 μ i \mu_i μi 定义,对应的特征值为 λ i \lambda_i λi
椭圆面
现在考虑在由 y i y_i yi 定义的新坐标系下⾼斯分布的形式。 从 x \boldsymbol{x} x 坐标系到 y \boldsymbol{y} y 坐标系, 我们有⼀ 个 Jacobian矩阵 J \boldsymbol{J} J ,它的元素为:
J i j = ∂ x i ∂ j j = U i j (2.38) \boldsymbol{J}_{ij} = \frac{\partial {x_i}}{\partial {j_j}} = U_{ij}\tag{2.38} Jij=jjxi=Uij(2.38)

其中 U j i U_{ji} Uji 是矩阵 U T \boldsymbol{U}^T UT 的元素。使⽤矩阵 U \boldsymbol{U} U 的单位正交性质,我们看到 Jacobian矩阵 ⾏列式的平⽅为:
∣ J 2 ∣ = ∣ U T ∣ 2 = ∣ U T ∣ ∣ U ∣ = ∣ U T U ∣ = ∣ I ∣ = 1 (2.39) | \boldsymbol{J}^{2} | = |\boldsymbol{U}^{T}|^{2} = |\boldsymbol{U}^{T}||\boldsymbol{U}| = |\boldsymbol{U}^{T}\boldsymbol{U}| = |\boldsymbol{I}| = 1\tag{2.39} J2=UT2=UTU=UTU=I=1(2.39)
从而可知, ∣ J ∣ = 1 |\boldsymbol{J}|=1 J=1 ,并且,⾏列式 ∣ Σ ∣ |\boldsymbol{\Sigma}| Σ 的协⽅差矩阵可以写成特征值的乘积,因此:
∣ Σ ∣ 1 2 = ∏ j = 1 D λ j 1 2 (2.40) |\boldsymbol{\Sigma}|^{\frac{1}{2}} = \prod_{j=1}^{D} \lambda_{j}^{\frac{1}{2}}\tag{2.40} Σ21=j=1Dλj21(2.40)
因此在 y \boldsymbol{y} y 坐标系中,⾼斯分布的形式为:
p ( y ) = p ( x ) ∣ J ∣ = ∏ j = 1 D 1 ( 2 π λ j ) 1 2 exp ⁡ { − y i 2 2 λ j } (2.41) p(\boldsymbol{y}) = p(\boldsymbol{x})|\boldsymbol{J}| = \prod_{j=1}^{D} \frac{1}{(2 \pi \lambda_{j})^{\frac{1}{2}}} \exp \left \{- \frac{y_{i}^2}{2\lambda_j} \right \}\tag{2.41} p(y)=p(x)J=j=1D(2πλj)211exp{2λjyi2}(2.41)

这是 D D D 个独⽴⼀元⾼斯分布的乘积。

y \boldsymbol{y} y 坐标系中,概率分布的积分为:
∫ p ( y ) d y = ∏ j = 1 D ∫ − ∞ ∞ 1 ( 2 π λ j ) 1 2 exp ⁡ { − y i 2 2 λ j } d y j = 1 (2.42) \int p(\boldsymbol{y}) \mathrm{d} \boldsymbol{y} = \prod_{j=1}^{D} \int_{-\infty}^{\infty} \frac{1}{(2 \pi \lambda_{j})^{\frac{1}{2}}} \exp \left \{- \frac{y_{i}^2}{2\lambda_j} \right \} \mathrm{d} y_j = 1\tag{2.42} p(y)dy=j=1D(2πλj)211exp{2λjyi2}dyj=1(2.42)
⾼斯分布 x \boldsymbol{x} x 的期望为:
E [ x ] = 1 ( 2 π ) D 2 1 ∣ Σ ∣ 1 2 ∫ exp ⁡ { − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) } x d x = 1 ( 2 π ) D 2 1 ∣ Σ ∣ 1 2 ∫ exp ⁡ { − 1 2 z T Σ − 1 z } ( z + μ ) d z (2.43) \begin{aligned} \mathbb{E}[\boldsymbol{x}] &= \frac{1}{(2 \pi)^{\frac{D}{2}}} \frac{1}{|\boldsymbol{\Sigma}|^{\frac{1}{2}}} \int \exp \left\{-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^{T} \boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})\right\} \boldsymbol{x} \mathrm{d} \boldsymbol{x} \\ &= \frac{1}{(2 \pi)^{\frac{D}{2}}} \frac{1}{|\boldsymbol{\Sigma}|^{\frac{1}{2}}} \int \exp \left\{-\frac{1}{2}\boldsymbol{z}^{T} \boldsymbol{\Sigma}^{-1} \boldsymbol{z}\right\} (\boldsymbol{z+\mu}) \mathrm{d} \boldsymbol{z} \end{aligned}\tag{2.43} E[x]=(2π)2D1Σ211exp{21(xμ)TΣ1(xμ)}xdx=(2π)2D1Σ211exp{21zTΣ1z}(z+μ)dz(2.43)
其中, z = x − μ \boldsymbol{z = x - \mu} z=xμ 。注意到指数位置是 z \boldsymbol{z} z 的偶函数,并且由于积分区间为 ( − ∞ , ∞ ) (−\infty, \infty) (,),因此在因⼦ ( z + μ ) (\boldsymbol{z + \mu}) (z+μ) 中的 z \boldsymbol{z} z 中的项会由于对称性变为零。因此 E [ x ] = μ \mathbb{E}[\boldsymbol{x}] = \boldsymbol{\mu} E[x]=μ 。称 μ \boldsymbol{\mu} μ 为⾼斯分布的均值

现在考虑⾼斯分布的⼆阶矩。对于多元⾼斯分布,有 D 2 D^2 D2 个由 E [ x i x j ] \mathbb{E}[x_i x_j] E[xixj] 给出的⼆阶矩,可以聚集在⼀起组成矩阵 E [ x x T ] \mathbb{E}[\boldsymbol{x}\boldsymbol{x}^T ] E[xxT]
E [ x x T ] = 1 ( 2 π ) D 2 1 ∣ Σ ∣ 1 2 ∫ exp ⁡ { − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) } x x T d x = 1 ( 2 π ) D 2 1 ∣ Σ ∣ 1 2 ∫ exp ⁡ { − 1 2 z T Σ − 1 z } ( z + μ ) ( z + μ ) T d z (2.44) \begin{aligned} \mathbb{E}[\boldsymbol{x}\boldsymbol{x}^{T}] &= \frac{1}{(2 \pi)^{\frac{D}{2}}} \frac{1}{|\boldsymbol{\Sigma}|^{\frac{1}{2}}} \int \exp \left\{-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^{T} \boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})\right\} \boldsymbol{x} \boldsymbol{x}^{T}\mathrm{d} \boldsymbol{x} \\ &= \frac{1}{(2 \pi)^{\frac{D}{2}}} \frac{1}{|\boldsymbol{\Sigma}|^{\frac{1}{2}}} \int \exp \left\{-\frac{1}{2}\boldsymbol{z}^{T} \boldsymbol{\Sigma}^{-1} \boldsymbol{z}\right\} (\boldsymbol{z+\mu})(\boldsymbol{z+\mu})^{T} \mathrm{d} \boldsymbol{z} \end{aligned}\tag{2.44} E[xxT]=(2π)2D1Σ211exp{21(xμ)TΣ1(xμ)}xxTdx=(2π)2D1Σ211exp{21zTΣ1z}(z+μ)(z+μ)Tdz(2.44)
其中, z = x − μ \boldsymbol{z = x - \mu} z=xμ z = ∑ j = 1 D y

这篇关于【机器学习基础】概率分布之高斯分布的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/877643

相关文章

MySQL中my.ini文件的基础配置和优化配置方式

《MySQL中my.ini文件的基础配置和优化配置方式》文章讨论了数据库异步同步的优化思路,包括三个主要方面:幂等性、时序和延迟,作者还分享了MySQL配置文件的优化经验,并鼓励读者提供支持... 目录mysql my.ini文件的配置和优化配置优化思路MySQL配置文件优化总结MySQL my.ini文件

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

【Linux 从基础到进阶】Ansible自动化运维工具使用

Ansible自动化运维工具使用 Ansible 是一款开源的自动化运维工具,采用无代理架构(agentless),基于 SSH 连接进行管理,具有简单易用、灵活强大、可扩展性高等特点。它广泛用于服务器管理、应用部署、配置管理等任务。本文将介绍 Ansible 的安装、基本使用方法及一些实际运维场景中的应用,旨在帮助运维人员快速上手并熟练运用 Ansible。 1. Ansible的核心概念