【机器学习基础】总论

2024-04-05 04:38
文章标签 基础 学习 机器 总论

本文主要是介绍【机器学习基础】总论,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本系列为《模式识别与机器学习》的读书笔记。

一, 概率论

1,离散型随机变量概率

假设随机变量 X X X 可以取任意 的 x i x_i xi ,其中 i = 1 , …   . , M i = 1, \dots. , M i=1,.,M ,并且随机变量 Y Y Y 可以取任意的 y j y_j yj ,其中 j = 1 , … , L j = 1,\dots , L j=1,,L。考虑 N N N 次试验,其中我们对 X X X Y Y Y 都进⾏取样, 把 X = x i X = x_i X=xi Y = y j Y = y_j Y=yj 的试验的数量记作 n i j n_{ij} nij ,并且,把 X X X 取值 x i x_i xi (与 Y Y Y 的取值⽆关)的试验的数量记作 c i c_i ci ,类似地,把 Y Y Y 取值 y j y_j yj 的试验的数量记作 r j r_j rj

X X X 取值 x i x_i xi Y Y Y 取值 y j y_j yj 的概率被记作 p ( X = x i , Y = y j ) p(X = x_i , Y = y_j ) p(X=xi,Y=yj), 被称为 X = x i X = x_i X=xi Y = y j Y = y_j Y=yj联合概率joint probability)。它的计算⽅法为落在单元格 i , j i, j i,j 的点的数量与点的总数的⽐值,即:
p ( X = x i , Y = y i ) = n i j N (1.5) p\left(X=x_{i}, Y=y_{i}\right)=\frac{n_{i j}}{N}\tag{1.5} p(X=xi,Y=yi)=Nnij(1.5)
如图1.15所示,联合概率的计算方法。
联合概率计算
类似地, X X X 取值 x i x_i xi (与 Y Y Y 取值无关)的概率被记作 p ( X = x i ) p(X = x_i ) p(X=xi) ,也称为边缘概率marginal probability),计算⽅法为落在列 i i i上的点的数量与点的总数的⽐值,即:
p ( X = x i ) = c j N (1.6) p\left(X=x_{i}\right)=\frac{c_{j}}{N}\tag{1.6} p(X=xi)=Ncj(1.6)
由于图1.15中列 i i i 上的实例总数就是这列的所有单元格中实例的数量之和,即 c i = ∑ j n i j c_{i}=\sum_{j} n_{i j} ci=jnij,因此根据公式(1.5)和公式(1.6),我们可以得到概率的加和规则sun rule),即:
p ( X = x j ) = ∑ j = 1 L p ( X = x i , Y = y j ) (1.7) p\left(X=x_{j}\right)=\sum_{j=1}^{L} p\left(X=x_{i}, Y=y_{j}\right)\tag{1.7} p(X=xj)=j=1Lp(X=xi,Y=yj)(1.7)
如果我们只考虑那些 X = x i X = x_i X=xi 的实例, 那么这些实例中 Y = y j Y = y_j Y=yj 的实例所占的⽐例被写成 p ( Y = y j ∣ X = x i ) p(Y = y_j | X = x_i) p(Y=yjX=xi),被称为给定 X = x i X = x_i X=xi Y = y j Y = y_j Y=yj条件概率conditional probability),其计算⽅式为:计算落在单元格 i , j i, j i,j 的点的数量列 i i i 的点的数量的⽐值,即:
p ( Y = y j ∣ X = x i ) = n i j c i (1.8) p\left(Y=y_{j} | X=x_{i}\right)=\frac{n_{i j}}{c_{i}}\tag{1.8} p(Y=yjX=xi)=cinij(1.8)
从公式(1.5)、公式(1.6)、公式(1.8)可以推导出概率的乘积规则product rule),即:
p ( X = x i , Y = y j ) = n i j N = n i j c i ⋅ c i N = p ( Y = y j ∣ X = x i ) p ( X = x i ) (1.9) p\left(X=x_{i}, Y=y_{j}\right)=\frac{n_{i j}}{N}=\frac{n_{i j}}{c_{i}} \cdot \frac{c_{i}}{N}=p\left(Y=y_{j} | X=x_{i}\right) p\left(X=x_{i}\right) \tag{1.9} p(X=xi,Y=yj)=Nnij=cinijNci=p(Y=yjX=xi)p(X=xi)(1.9)

根据乘积规则,以及对称性 p ( X , Y ) = p ( Y , X ) p(X, Y ) = p(Y, X) p(X,Y)=p(Y,X),我们⽴即得到了下⾯的两个条件概率之间的关系,称为贝叶斯定理Bayes' theorem)即:
p ( Y ∣ X ) = p ( X ∣ Y ) p ( Y ) p ( X ) (1.10) p(Y | X)=\frac{p(X | Y) p(Y)}{p(X)}\tag{1.10} p(YX)=p(X)p(XY)p(Y)(1.10)

贝叶斯定理Bayes' theorem),在模式识别和机器学习领域扮演者中⼼⾓⾊。使⽤加和规则,贝叶斯定理中的分母可以⽤出现在分⼦中的项表⽰,这样就可以把分母看作归一常数,即:
p ( X ) = ∑ Y p ( X ∣ Y ) p ( Y ) (1.11) p(X)=\sum_{Y} p(X|Y) p(Y)\tag{1.11} p(X)=Yp(XY)p(Y)(1.11)

如果两个变量的联合分布可以分解成两个边缘分布的乘积,即 p ( X , Y ) = p ( X ) p ( Y ) p(X, Y) = p(X)p(Y) p(X,Y)=p(X)p(Y), 那么我们说 X X X Y Y Y 相互独⽴independent)。

2,概率密度

如果⼀个实值变量x的概率 落在区间 ( x , x + δ x ) (x, x + \delta x) (x,x+δx) 的概率由 p ( x ) δ x p(x)\delta x p(x)δx 给出( δ x → 0 \delta x \to 0 δx0), 那么 p ( x ) p(x) p(x) 叫做 x x x概率密度probability density)。 x x x 位于区间 ( a , b ) (a, b) (a,b) 的概率:

p ( x ∈ ( a , b ) ) = ∫ a b p ( x ) d x (1.12) p(x \in(a, b))=\int_{a}^{b} p(x) \mathrm{d}x\tag{1.12} p(x(a,b))=abp(x)dx(1.12)
如图1.16,概率密度函数。
离散型变量的概率与概率密度函数
由于概率是⾮负的,并且 x x x 的值⼀定位于实数轴上得某个位置,因此概率密度⼀定满⾜下⾯两个条件

1) p ( x ) ≥ 0 p(x) \geq 0 p(x)0

  1. ∫ − ∞ ∞ p ( x ) d x = 1 \int_{-\infty}^{\infty} p(x) \mathrm{d} x=1 p(x)dx=1

在变量以⾮线性的形式变化的情况下,概率密度函数通过Jacobian因⼦变换为与简单的函数不同的形式。

例如,假设我们考虑⼀个变量的变化 x = g ( y ) x = g(y) x=g(y), 那么函数 f ( x ) f(x) f(x) 就变成 了 f ~ ( y ) = f ( g ( y ) ) \tilde{f}(y)=f(g(y)) f~(y)=f(g(y))。现在让我们考虑⼀个概率密度函数 p x ( x ) p_x (x) px(x),它对应于⼀个关于新变量 y y y 的密度函数 p y ( y ) p_y (y) py(y),对于很⼩的 δ x \delta x δx 的值,落在区间 ( x , x + δ x ) (x, x + \delta x) (x,x+δx) 内的观测会被变换到区间 ( y , y + δ y ) (y, y + \delta y) (y,y+δy) 中。其中 p x ( x ) δ x ≃ p y ( y ) δ y p_{x}(x) \delta x \simeq p_{y}(y) \delta y px(x)δxpy(y)δy ,因此有:
p y ( y ) = p x ( x ) ∣ d x d y ∣ = p x ( g ( y ) ) ∣ g ′ ( y ) ∣ (1.13) p_{y}(y)=p_{x}(x)\left|\frac{\mathrm{d} x}{\mathrm{d} y}\right|=p_{x}(g(y))\left|g^{\prime}(y)\right|\tag{1.13} py(y)=px(x)dydx=px(g(y))g(y)(1.13)
位于区间 ( − ∞ , z ) (−\infty, z) (,z) x x x 的概率由累积分布函数cumulative distribution function)给出。 定义为:
P ( z ) = ∫ − ∞ z p ( x ) d x (1.14) P(z)=\int_{-\infty}^{z} p(x) \mathrm{d} x\tag{1.14} P(z)=zp(x)dx(1.14)
如果我们有⼏个连续变量 x 1 , … , x D x_1 ,\dots , x_D x1,,xD , 整体记作向量 x \boldsymbol{x} x, 那么我们可以定义联合概率密度 p ( x ) = p ( x 1 , … , x D ) p(\boldsymbol{x}) = p(x_1 ,\dots , x_D ) p(x)=p(x1,,xD),使得 x \boldsymbol{x} x 落在包含点 x \boldsymbol{x} x 的⽆穷⼩体积 δ x \delta \boldsymbol{x} δx 的概率由 p ( x ) δ x p(\boldsymbol{x})\delta \boldsymbol{x} p(x)δx 给出。多变量概率密度必须满⾜以下条件

1) p ( x ) ≥ 0 p(\boldsymbol{x}) \geq 0 p(x)0

  1. ∫ p ( x ) d x = 1 \int p(\boldsymbol{x}) \mathrm{d} \boldsymbol{x}=1 p(x)dx=1

其中,积分必须在整个 x \boldsymbol{x} x 空间上进⾏。

3,期望和方差

在概率分布 p ( x ) p(x) p(x) 下,函数 f ( x ) f(x) f(x) 的平均值被称为 f ( x ) f(x) f(x)期望expectation),记作 E [ f ] \mathbb{E}[f] E[f]。对于⼀个离散变量,它的定义为:
E [ f ] = ∑ x p ( x ) f ( x ) (1.15) \mathbb{E}[f]=\sum_{x} p(x) f(x)\tag{1.15} E[f]=xp(x)f(x)(1.15)
在连续变量的情形下,期望以对应的概率密度的积分的形式表⽰为:
E [ f ] = ∫ p ( x ) f ( x ) d x

这篇关于【机器学习基础】总论的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/877647

相关文章

Python基础文件操作方法超详细讲解(详解版)

《Python基础文件操作方法超详细讲解(详解版)》文件就是操作系统为用户或应用程序提供的一个读写硬盘的虚拟单位,文件的核心操作就是读和写,:本文主要介绍Python基础文件操作方法超详细讲解的相... 目录一、文件操作1. 文件打开与关闭1.1 打开文件1.2 关闭文件2. 访问模式及说明二、文件读写1.

C#基础之委托详解(Delegate)

《C#基础之委托详解(Delegate)》:本文主要介绍C#基础之委托(Delegate),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1. 委托定义2. 委托实例化3. 多播委托(Multicast Delegates)4. 委托的用途事件处理回调函数LINQ

Java进阶学习之如何开启远程调式

《Java进阶学习之如何开启远程调式》Java开发中的远程调试是一项至关重要的技能,特别是在处理生产环境的问题或者协作开发时,:本文主要介绍Java进阶学习之如何开启远程调式的相关资料,需要的朋友... 目录概述Java远程调试的开启与底层原理开启Java远程调试底层原理JVM参数总结&nbsMbKKXJx

0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型的操作流程

《0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeekR1模型的操作流程》DeepSeekR1模型凭借其强大的自然语言处理能力,在未来具有广阔的应用前景,有望在多个领域发... 目录0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型,3步搞定一个应

Java深度学习库DJL实现Python的NumPy方式

《Java深度学习库DJL实现Python的NumPy方式》本文介绍了DJL库的背景和基本功能,包括NDArray的创建、数学运算、数据获取和设置等,同时,还展示了如何使用NDArray进行数据预处理... 目录1 NDArray 的背景介绍1.1 架构2 JavaDJL使用2.1 安装DJL2.2 基本操

MySQL中my.ini文件的基础配置和优化配置方式

《MySQL中my.ini文件的基础配置和优化配置方式》文章讨论了数据库异步同步的优化思路,包括三个主要方面:幂等性、时序和延迟,作者还分享了MySQL配置文件的优化经验,并鼓励读者提供支持... 目录mysql my.ini文件的配置和优化配置优化思路MySQL配置文件优化总结MySQL my.ini文件

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;