【机器学习基础】概率分布之高斯分布

2024-04-05 04:38

本文主要是介绍【机器学习基础】概率分布之高斯分布,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本系列为《模式识别与机器学习》的读书笔记。

一,多元高斯分布

考虑⾼斯分布的⼏何形式,⾼斯对于 x \boldsymbol{x} x 的依赖是通过下⾯形式的⼆次型:
Δ 2 = ( x − μ ) T Σ − 1 ( x − μ ) (2.30) \Delta^{2} = (\boldsymbol{x} - \boldsymbol{\mu})^{T} \boldsymbol{\Sigma}^{-1}(\boldsymbol{x} - \boldsymbol{\mu})\tag{2.30} Δ2=(xμ)TΣ1(xμ)(2.30)
其中, Δ \Delta Δ 被叫做 μ \boldsymbol{\mu} μ x \boldsymbol{x} x 之间的马⽒距离Mahalanobis distance)。 当 Σ \boldsymbol{\Sigma} Σ 是单位矩阵时,就变成了欧式距离。对于 x \boldsymbol{x} x 空间中这个⼆次型是常数的曲⾯,⾼斯分布也是常数。

现在考虑协⽅差矩阵特征向量⽅程
Σ μ i = λ i μ i (2.31) \boldsymbol{\Sigma} \boldsymbol{\mu}_i = \lambda_{i} \boldsymbol{\mu}_{i}\tag{2.31} Σμi=λiμi(2.31)
其中 i = 1 , … , D i = 1,\dots , D i=1,,D。由于 Σ \boldsymbol{\Sigma} Σ实对称矩阵,因此它的特征值也是实数,并且特征向量可以被选成单位正交的,即:
μ i T μ j = I i j (2.32) \boldsymbol{\mu}_{i}^{T} \boldsymbol{\mu}_{j} = I_{ij}\tag{2.32} μiTμj=Iij(2.32)

其中 I i j I_{ij} Iij 是单位矩阵的第 i , j i, j i,j 个元素,满⾜:
I i j = { 1 , 如 果 i = j 0 , 其 他 情 况 (2.33) I_{i j}=\left\{\begin{array}{l}{1,如果 i=j} \\ {0,其他情况}\end{array}\right. \tag{2.33} Iij={1i=j0(2.33)
协⽅差矩阵 Σ \boldsymbol{\Sigma} Σ 可以表⽰成特征向量的展开的形式:
Σ = ∑ i = 1 D λ i μ i μ i T (2.34) \boldsymbol{\Sigma} = \sum_{i=1}^{D} \lambda_i \boldsymbol{\mu}_{i}\boldsymbol{\mu}_{i}^{T}\tag{2.34} Σ=i=1DλiμiμiT(2.34)
协⽅差矩阵的逆矩阵 Σ − 1 \boldsymbol{\Sigma}^{-1} Σ1 可以表⽰成特征向量的展开的形式:
Σ − 1 = ∑ i = 1 D 1 λ i μ i μ i T (2.35) \boldsymbol{\Sigma}^{-1} = \sum_{i=1}^{D} \frac{1}{\lambda_i} \boldsymbol{\mu}_{i}\boldsymbol{\mu}_{i}^{T}\tag{2.35} Σ1=i=1Dλi1μiμiT(2.35)
⼆次型公式(2.30)即可表示为:
Δ 2 = ∑ i = 1 D y i 2 λ i (2.36) \Delta^{2} = \sum_{i=1}^{D} \frac{y_{i}^{2}}{\lambda_{i}}\tag{2.36} Δ2=i=1Dλiyi2(2.36)
其中, y i 2 = u i T ( x − μ ) y_{i}^{2} = \boldsymbol{u_i^T} (\boldsymbol{x} - \boldsymbol{\mu}) yi2=uiT(xμ)

{ y i } \{y_i\} {yi} 表⽰成单位正交向量 μ i \boldsymbol{\mu_i} μi 关于原始的 x i x_i xi 坐标经过平移和旋转后形成的新的坐标系。定义向量 y = ( y 1 , … , y D ) T \boldsymbol{y} = (y_1,\dots, y_D)^T y=(y1,,yD)T ,即有:
y = U ( x − μ ) (2.37) \boldsymbol {y} = \boldsymbol{U} (\boldsymbol{x} - \boldsymbol{\mu})\tag{2.37} y=U(xμ)(2.37)
其中 U \boldsymbol{U} U 是⼀个矩阵,它的⾏是向量 u i T \boldsymbol{u}_{i}^{T} uiT 。从公式(2.32)可以看出 U \boldsymbol{U} U 是⼀个正交矩阵, 即它满⾜性质 U U T = I \boldsymbol{U}\boldsymbol{U}^T = \boldsymbol{I} UUT=I ,因此也满⾜ U T U = I \boldsymbol{U}^T \boldsymbol{U} = \boldsymbol{I} UTU=I ,其中 I \boldsymbol{I} I 是单位矩阵。

⼀个特征值严格⼤于零的矩阵被称为正定(positive definite)矩阵。偶尔遇到⼀个或者多个特征值为零的⾼斯分布,那种情况下分布是奇异的,被限制在 了⼀个低维的⼦空间中。如果所有的特征值都是⾮负的,那么这个矩阵被称为半正定(positive semidefine)矩阵

如图2.12,红⾊曲线表⽰⼆维空间 x = ( x 1 , x 2 ) \boldsymbol{x} = (x_1 , x_2) x=(x1,x2) 的⾼斯分布的常数概率密度的椭圆⾯, 它表⽰的概率密度为 exp ⁡ ( − 1 2 ) \exp(−\frac{1}{2}) exp(21),值是在 x = μ \boldsymbol{x} = \boldsymbol{\mu} x=μ 处计算的。椭圆的轴由协⽅差矩阵的特征向量 μ i \mu_i μi 定义,对应的特征值为 λ i \lambda_i λi
椭圆面
现在考虑在由 y i y_i yi 定义的新坐标系下⾼斯分布的形式。 从 x \boldsymbol{x} x 坐标系到 y \boldsymbol{y} y 坐标系, 我们有⼀ 个 Jacobian矩阵 J \boldsymbol{J} J ,它的元素为:
J i j = ∂ x i ∂ j j = U i j (2.38) \boldsymbol{J}_{ij} = \frac{\partial {x_i}}{\partial {j_j}} = U_{ij}\tag{2.38} Jij=jjxi=Uij(2.38)

其中 U j i U_{ji} Uji 是矩阵 U T \boldsymbol{U}^T UT 的元素。使⽤矩阵 U \boldsymbol{U} U 的单位正交性质,我们看到 Jacobian矩阵 ⾏列式的平⽅为:
∣ J 2 ∣ = ∣ U T ∣ 2 = ∣ U T ∣ ∣ U ∣ = ∣ U T U ∣ = ∣ I ∣ = 1 (2.39) | \boldsymbol{J}^{2} | = |\boldsymbol{U}^{T}|^{2} = |\boldsymbol{U}^{T}||\boldsymbol{U}| = |\boldsymbol{U}^{T}\boldsymbol{U}| = |\boldsymbol{I}| = 1\tag{2.39} J2=UT2=UTU=UTU=I=1(2.39)
从而可知, ∣ J ∣ = 1 |\boldsymbol{J}|=1 J=1 ,并且,⾏列式 ∣ Σ ∣ |\boldsymbol{\Sigma}| Σ 的协⽅差矩阵可以写成特征值的乘积,因此:
∣ Σ ∣ 1 2 = ∏ j = 1 D λ j 1 2 (2.40) |\boldsymbol{\Sigma}|^{\frac{1}{2}} = \prod_{j=1}^{D} \lambda_{j}^{\frac{1}{2}}\tag{2.40} Σ21=j=1Dλj21(2.40)
因此在 y \boldsymbol{y} y 坐标系中,⾼斯分布的形式为:
p ( y ) = p ( x ) ∣ J ∣ = ∏ j = 1 D 1 ( 2 π λ j ) 1 2 exp ⁡ { − y i 2 2 λ j } (2.41) p(\boldsymbol{y}) = p(\boldsymbol{x})|\boldsymbol{J}| = \prod_{j=1}^{D} \frac{1}{(2 \pi \lambda_{j})^{\frac{1}{2}}} \exp \left \{- \frac{y_{i}^2}{2\lambda_j} \right \}\tag{2.41} p(y)=p(x)J=j=1D(2πλj)211exp{2λjyi2}(2.41)

这是 D D D 个独⽴⼀元⾼斯分布的乘积。

y \boldsymbol{y} y 坐标系中,概率分布的积分为:
∫ p ( y ) d y = ∏ j = 1 D ∫ − ∞ ∞ 1 ( 2 π λ j ) 1 2 exp ⁡ { − y i 2 2 λ j } d y j = 1 (2.42) \int p(\boldsymbol{y}) \mathrm{d} \boldsymbol{y} = \prod_{j=1}^{D} \int_{-\infty}^{\infty} \frac{1}{(2 \pi \lambda_{j})^{\frac{1}{2}}} \exp \left \{- \frac{y_{i}^2}{2\lambda_j} \right \} \mathrm{d} y_j = 1\tag{2.42} p(y)dy=j=1D(2πλj)211exp{2λjyi2}dyj=1(2.42)
⾼斯分布 x \boldsymbol{x} x 的期望为:
E [ x ] = 1 ( 2 π ) D 2 1 ∣ Σ ∣ 1 2 ∫ exp ⁡ { − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) } x d x = 1 ( 2 π ) D 2 1 ∣ Σ ∣ 1 2 ∫ exp ⁡ { − 1 2 z T Σ − 1 z } ( z + μ ) d z (2.43) \begin{aligned} \mathbb{E}[\boldsymbol{x}] &= \frac{1}{(2 \pi)^{\frac{D}{2}}} \frac{1}{|\boldsymbol{\Sigma}|^{\frac{1}{2}}} \int \exp \left\{-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^{T} \boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})\right\} \boldsymbol{x} \mathrm{d} \boldsymbol{x} \\ &= \frac{1}{(2 \pi)^{\frac{D}{2}}} \frac{1}{|\boldsymbol{\Sigma}|^{\frac{1}{2}}} \int \exp \left\{-\frac{1}{2}\boldsymbol{z}^{T} \boldsymbol{\Sigma}^{-1} \boldsymbol{z}\right\} (\boldsymbol{z+\mu}) \mathrm{d} \boldsymbol{z} \end{aligned}\tag{2.43} E[x]=(2π)2D1Σ211exp{21(xμ)TΣ1(xμ)}xdx=(2π)2D1Σ211exp{21zTΣ1z}(z+μ)dz(2.43)
其中, z = x − μ \boldsymbol{z = x - \mu} z=xμ 。注意到指数位置是 z \boldsymbol{z} z 的偶函数,并且由于积分区间为 ( − ∞ , ∞ ) (−\infty, \infty) (,),因此在因⼦ ( z + μ ) (\boldsymbol{z + \mu}) (z+μ) 中的 z \boldsymbol{z} z 中的项会由于对称性变为零。因此 E [ x ] = μ \mathbb{E}[\boldsymbol{x}] = \boldsymbol{\mu} E[x]=μ 。称 μ \boldsymbol{\mu} μ 为⾼斯分布的均值

现在考虑⾼斯分布的⼆阶矩。对于多元⾼斯分布,有 D 2 D^2 D2 个由 E [ x i x j ] \mathbb{E}[x_i x_j] E[xixj] 给出的⼆阶矩,可以聚集在⼀起组成矩阵 E [ x x T ] \mathbb{E}[\boldsymbol{x}\boldsymbol{x}^T ] E[xxT]
E [ x x T ] = 1 ( 2 π ) D 2 1 ∣ Σ ∣ 1 2 ∫ exp ⁡ { − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) } x x T d x = 1 ( 2 π ) D 2 1 ∣ Σ ∣ 1 2 ∫ exp ⁡ { − 1 2 z T Σ − 1 z } ( z + μ ) ( z + μ ) T d z (2.44) \begin{aligned} \mathbb{E}[\boldsymbol{x}\boldsymbol{x}^{T}] &= \frac{1}{(2 \pi)^{\frac{D}{2}}} \frac{1}{|\boldsymbol{\Sigma}|^{\frac{1}{2}}} \int \exp \left\{-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^{T} \boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})\right\} \boldsymbol{x} \boldsymbol{x}^{T}\mathrm{d} \boldsymbol{x} \\ &= \frac{1}{(2 \pi)^{\frac{D}{2}}} \frac{1}{|\boldsymbol{\Sigma}|^{\frac{1}{2}}} \int \exp \left\{-\frac{1}{2}\boldsymbol{z}^{T} \boldsymbol{\Sigma}^{-1} \boldsymbol{z}\right\} (\boldsymbol{z+\mu})(\boldsymbol{z+\mu})^{T} \mathrm{d} \boldsymbol{z} \end{aligned}\tag{2.44} E[xxT]=(2π)2D1Σ211exp{21(xμ)TΣ1(xμ)}xxTdx=(2π)2D1Σ211exp{21zTΣ1z}(z+μ)(z+μ)Tdz(2.44)
其中, z = x − μ \boldsymbol{z = x - \mu} z=xμ z = ∑ j = 1 D y

这篇关于【机器学习基础】概率分布之高斯分布的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/877643

相关文章

Java学习手册之Filter和Listener使用方法

《Java学习手册之Filter和Listener使用方法》:本文主要介绍Java学习手册之Filter和Listener使用方法的相关资料,Filter是一种拦截器,可以在请求到达Servl... 目录一、Filter(过滤器)1. Filter 的工作原理2. Filter 的配置与使用二、Listen

Android Mainline基础简介

《AndroidMainline基础简介》AndroidMainline是通过模块化更新Android核心组件的框架,可能提高安全性,本文给大家介绍AndroidMainline基础简介,感兴趣的朋... 目录关键要点什么是 android Mainline?Android Mainline 的工作原理关键

mysql的基础语句和外键查询及其语句详解(推荐)

《mysql的基础语句和外键查询及其语句详解(推荐)》:本文主要介绍mysql的基础语句和外键查询及其语句详解(推荐),本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋... 目录一、mysql 基础语句1. 数据库操作 创建数据库2. 表操作 创建表3. CRUD 操作二、外键

Python基础语法中defaultdict的使用小结

《Python基础语法中defaultdict的使用小结》Python的defaultdict是collections模块中提供的一种特殊的字典类型,它与普通的字典(dict)有着相似的功能,本文主要... 目录示例1示例2python的defaultdict是collections模块中提供的一种特殊的字

Python基础文件操作方法超详细讲解(详解版)

《Python基础文件操作方法超详细讲解(详解版)》文件就是操作系统为用户或应用程序提供的一个读写硬盘的虚拟单位,文件的核心操作就是读和写,:本文主要介绍Python基础文件操作方法超详细讲解的相... 目录一、文件操作1. 文件打开与关闭1.1 打开文件1.2 关闭文件2. 访问模式及说明二、文件读写1.

C#基础之委托详解(Delegate)

《C#基础之委托详解(Delegate)》:本文主要介绍C#基础之委托(Delegate),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1. 委托定义2. 委托实例化3. 多播委托(Multicast Delegates)4. 委托的用途事件处理回调函数LINQ

Java进阶学习之如何开启远程调式

《Java进阶学习之如何开启远程调式》Java开发中的远程调试是一项至关重要的技能,特别是在处理生产环境的问题或者协作开发时,:本文主要介绍Java进阶学习之如何开启远程调式的相关资料,需要的朋友... 目录概述Java远程调试的开启与底层原理开启Java远程调试底层原理JVM参数总结&nbsMbKKXJx

0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型的操作流程

《0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeekR1模型的操作流程》DeepSeekR1模型凭借其强大的自然语言处理能力,在未来具有广阔的应用前景,有望在多个领域发... 目录0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型,3步搞定一个应

Java深度学习库DJL实现Python的NumPy方式

《Java深度学习库DJL实现Python的NumPy方式》本文介绍了DJL库的背景和基本功能,包括NDArray的创建、数学运算、数据获取和设置等,同时,还展示了如何使用NDArray进行数据预处理... 目录1 NDArray 的背景介绍1.1 架构2 JavaDJL使用2.1 安装DJL2.2 基本操

MySQL中my.ini文件的基础配置和优化配置方式

《MySQL中my.ini文件的基础配置和优化配置方式》文章讨论了数据库异步同步的优化思路,包括三个主要方面:幂等性、时序和延迟,作者还分享了MySQL配置文件的优化经验,并鼓励读者提供支持... 目录mysql my.ini文件的配置和优化配置优化思路MySQL配置文件优化总结MySQL my.ini文件