【机器学习基础】概率分布之指数族分布

2024-04-05 04:38

本文主要是介绍【机器学习基础】概率分布之指数族分布,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本系列为《模式识别与机器学习》的读书笔记。

一,指数族分布

1,指数族分布基本概念

参数为 η \boldsymbol{\eta} η 的变量 x \boldsymbol{x} x 的指数族分布定义为具有下⾯形式的概率分布的集合:
p ( x ∣ η ) = h ( x ) g ( η ) exp ⁡ { η T μ ( x ) } (2.106) p(\boldsymbol{x|\eta}) = h(\boldsymbol{x})g(\boldsymbol{\eta})\exp \{\boldsymbol{\eta}^{T}\boldsymbol{\mu}(\boldsymbol{x})\}\tag{2.106} p(xη)=h(x)g(η)exp{ηTμ(x)}(2.106)
其中 x \boldsymbol{x} x 可能是标量或者向量, 可能是离散的或者是连续的。 这⾥ η \boldsymbol{\eta} η 被称为概率分布的 ⾃然参数natural parameters), μ ( x ) \boldsymbol{\mu}(\boldsymbol{x}) μ(x) x \boldsymbol{x} x 的某个函数。函数 g ( η ) g(\boldsymbol{\eta}) g(η) 可以被看成系数,它确保了概率分布是归⼀化的,因此满⾜:
g ( η ) ∫ h ( x ) exp ⁡ { η T μ ( x ) } d x = 1 (2.107) g(\boldsymbol{\eta})\int h(\boldsymbol{x})\exp \{\boldsymbol{\eta}^{T}\boldsymbol{\mu}(\boldsymbol{x})\}\mathrm{d}\boldsymbol{x}=1\tag{2.107} g(η)h(x)exp{ηTμ(x)}dx=1(2.107)
如果 x \boldsymbol{x} x 是离散变量,那么上式中的积分就要替换为求和。

考虑伯努利分布:
p ( x ∣ μ ) = Bern ( x ∣ μ ) = μ x ( 1 − μ ) 1 − x (2.108) p(x|\mu) = \text {Bern}(x|\mu) = \mu^{x}(1-\mu)^{1-x}\tag{2.108} p(xμ)=Bern(xμ)=μx(1μ)1x(2.108)

变形,有:

p ( x ∣ μ ) = exp ⁡ { x ln ⁡ μ + ( 1 − x ) ln ⁡ ( 1 − μ ) } = ( 1 − μ ) exp ⁡ { ln ⁡ ( μ 1 − μ ) x } (2.109) \begin{aligned} p(x|\mu) &= \exp \{x\ln \mu +(1-x) \ln (1-\mu)\} \\ &= (1-\mu)\exp \left\{\ln \left(\frac{\mu}{1-\mu}\right)x\right\}\end{aligned}\tag{2.109} p(xμ)=exp{xlnμ+(1x)ln(1μ)}=(1μ)exp{ln(1μμ)x}(2.109)

对比公式(2.106),可得:
η = ln ⁡ ( μ 1 − μ ) \eta = \ln \left(\frac{\mu}{1-\mu}\right) η=ln(1μμ)

从而,有:
μ = σ ( η ) = 1 1 + exp ⁡ ( − η ) (2.110) \begin{aligned}\mu &= \sigma(\eta) \\ &= \frac{1}{1+\exp(-\eta)}\end{aligned}\tag{2.110} μ=σ(η)=1+exp(η)1(2.110)

被称为 logistic sigmoid函数
因此,伯努利分布的指数族分布标准形式:
p ( x ∣ μ ) = σ ( − η ) exp ⁡ ( η x ) (2.111) p(x|\mu) = \sigma(-\eta)\exp(\eta x)\tag{2.111} p(xμ)=σ(η)exp(ηx)(2.111)
其中,
μ ( x ) = x h ( x ) = 1 g ( η ) = σ ( − η ) \mu(x) = x \\ h(x) = 1 \\ g(\eta)=\sigma(-\eta) μ(x)=xh(x)=1g(η)=σ(η)

考虑单⼀观测 x \boldsymbol{x} x 的多项式分布,形式为:
p ( x ∣ μ ) = ∏ k = 1 K μ k x k = exp ⁡ { ∑ k = 1 K x k ln ⁡ μ k } (2.112) p(\boldsymbol{x|\mu}) = \prod_{k=1}^{K}\mu_{k}^{x_{k}} = \exp\left\{\sum_{k=1}^K x_{k}\ln \mu_{k}\right\}\tag{2.112} p(xμ)=k=1Kμkxk=exp{k=1Kxklnμk}(2.112)

其中 x = ( x 1 , … , x M ) T \boldsymbol{x} = (\boldsymbol{x}_1,\dots ,\boldsymbol{x}_M)^T x=(x1,,xM)T 。把它写成公式(2.106)的标准形式,即:
p ( x ∣ μ ) = exp ⁡ ( η T x ) (2.113) p(\boldsymbol{x|\mu}) = \exp(\boldsymbol{\eta}^{T}\boldsymbol{x})\tag{2.113} p(xμ)=exp(ηTx)(2.113)

其中, η k = ln ⁡ μ k \eta_{k} = \ln \mu_{k} ηk=lnμk η = ( η 1 , … , η M ) T \boldsymbol{\eta}=(\eta_1,\dots,\eta_{M})^T η=(η1,,ηM)T,并且
μ ( x ) = x h ( x ) = 1 g ( η ) = 1 ∑ k = 1 K μ k = 1 \boldsymbol{\mu}(\boldsymbol{x}) = \boldsymbol{x} \\ h(\boldsymbol{x}) = 1 \\ g(\boldsymbol{\eta}) = 1 \\ \sum_{k=1}^{K} \mu_{k}=1 μ(x)=xh(x)=1g(η)=1k=1Kμk=1

考虑只⽤ M − 1 M−1 M1 个参数来表⽰这个分布,把 μ M \mu_M μM ⽤剩余的 { μ k } \{\mu_k\} {μk} 表⽰,其中 k = 1 , … , M − 1 k = 1, \dots , M−1 k=1,,M1,这样就只剩下了 M − 1 M−1 M1 个参数,公式(2.112)变为:
p ( x ∣ μ ) = exp ⁡ { ∑ k = 1 K x k ln ⁡ μ k } = exp ⁡ { ∑ k = 1 M − 1 x k ln ⁡ ( μ k 1 − ∑ j = 1 M − 1 μ j ) + ln ⁡ ( 1 − ∑ k = 1 M − 1 μ k ) } (2.114) \begin{aligned}p(\boldsymbol{x|\mu}) &= \exp\left\{\sum_{k=1}^K x_{k}\ln \mu_{k}\right\} \\ &= \exp \left\{\sum_{k=1}^{M-1}x_{k}\ln\left(\frac{\mu_{k}}{1-\sum_{j=1}^{M-1}\mu_{j}}\right) + \ln \left(1-\sum_{k=1}^{M-1}\mu_{k}\right)\right\} \end{aligned}\tag{2.114} p(xμ)=exp{k=1Kxklnμk}=exp{k=1M1xk<

这篇关于【机器学习基础】概率分布之指数族分布的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/877644

相关文章

MySQL中my.ini文件的基础配置和优化配置方式

《MySQL中my.ini文件的基础配置和优化配置方式》文章讨论了数据库异步同步的优化思路,包括三个主要方面:幂等性、时序和延迟,作者还分享了MySQL配置文件的优化经验,并鼓励读者提供支持... 目录mysql my.ini文件的配置和优化配置优化思路MySQL配置文件优化总结MySQL my.ini文件

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

【Linux 从基础到进阶】Ansible自动化运维工具使用

Ansible自动化运维工具使用 Ansible 是一款开源的自动化运维工具,采用无代理架构(agentless),基于 SSH 连接进行管理,具有简单易用、灵活强大、可扩展性高等特点。它广泛用于服务器管理、应用部署、配置管理等任务。本文将介绍 Ansible 的安装、基本使用方法及一些实际运维场景中的应用,旨在帮助运维人员快速上手并熟练运用 Ansible。 1. Ansible的核心概念