深度学习500问——Chapter01:数学基础

2024-02-25 17:20

本文主要是介绍深度学习500问——Chapter01:数学基础,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

前言

1.1 向量和矩阵

1.1.1 标量、向量、矩阵、张量之间的联系

1.1.2 张量与矩阵的区别

1.1.3 矩阵和向量相乘结果

1.1.4 向量和矩阵的范数归纳

1.1.5 如何判断一个矩阵为正定

1.2 导数和偏导数

1.2.1 导数偏导计算

1.2.2 导数和偏导数有什么区别

1.3 特征值和特征向量

1.3.1 特征值分解与特征向量

1.3.2 奇异值与特征值有什么关系

1.4 概率分布与随机变量

1.4.1 机器学习为什么要使用概率分布

1.4.2 变量与随机变量有什么区别

1.4.3 随机变量与概率分布的联系

1.4.4 离散型随机变量和概率质量函数

1.4.5 连续型随机变量和概率密度函数

1.4.6 举例理解条件概率

1.4.7 联合概率与边缘概率联系区别

1.4.8 条件概率的链式法则

1.4.9 独立性和条件独立性

1.5 常见概率分布

1.5.1 Bernoulli 分布

1.5.2 高斯分布

1.5.3 何时采用正态分布

1.5.4 指数分布

1.5.5 Laplace 分布(拉普拉斯分布)

1.5.6 Dirac 分布和经验分布

1.6 期望、方差、协方差、相关系数

1.6.1 期望

1.6.2 方差

1.6.3 协方差

1.6.4 相关系数

参考文献


前言

深度学习通常又需要哪些数学基础?深度学习里的数学到底难在哪里?通常初学者都会有这些问题,在网络推荐及书本的推荐里,经常看到会列出一系列数学科目,比如微积分、线性代数、概率论、复变函数、数值计算、优化理论、信息论等等。这些数学知识有相关性,但实际上按照这样的知识范围来学习,学习成本会很久,而且会很枯燥。本章我们通过选举一些数学基础里容易混肴的一些概念作以介绍,帮助大家更好的理清这些易混肴概念之间的关系。


1.1 向量和矩阵

1.1.1 标量、向量、矩阵、张量之间的联系

标量(scalar)

一个标量表示一个单独的数,它不同于线性代数中研究的其他大部分对象(通常是多个数的数组)。我们用斜体表示标量。标量通常被赋予小写的变量名称。

向量(vector)

一个向量表示一组有序排列的数。通过次序中的索引,我们可以确定每个单独的数。通常我们赋予向量粗体的小写变量名称,比如xx。向量中的元素可以通过带脚标的斜体表示。向量X是第一个元素是X_1,第二个元素是X_2,以此类推。我们也会注明存储在向量中的元素的类型(实数、虚数等)。

矩阵(matrix)

矩阵是具有相同特征和纬度的对象的集合,表现为一张二维数据表。其意义是一个对象表示为矩阵的一行,一个特征表示为矩阵的一列,每个特征都有数值型的取值。通常会赋予矩阵粗体的大写变量名称,比如$A$

张量(tensor)

在某些情况下,我们会讨论坐标超过两维的数组。一般地,一个数组中的元素分布在若干维坐标的规则网格中,我们将其称之为张量。使用$A$来表示“A”。张量$A$中坐标为$(i,j,k)$的元素记作$A_{(i,j,k)}$

四者之间关系:

标量是0阶张量,向量是1阶张量。举例:

标量就是知道棍子的长度,但是你不会知道棍子指向哪儿。

向量就是不但知道棍子的长度,还知道棍子指向前面还是后面。

张量就是不但知道棍子的长度,也知道棍子指向前面还是后面,还能知道这棍子又向上/下和左/右偏转了多少。

1.1.2 张量与矩阵的区别

  • 从代数角度讲,矩阵它是向量的推广。向量可以看成一维的“表格”(即分量按照顺序排成一排),矩阵是二维的“表格”(分量按照纵横位置排列),那么n阶张量就是所谓的n维“表格”。张量的严格定义是利用线性映射来描述。
  • 从几何角度讲,矩阵是一个真正的几何量,也就是说,它是一个不随参照系的坐标变换而变化的东西。向量也具有这种特性。
  • 张量可以用3\times 3矩阵形式来表达。
  • 表示标量的数和表示向量的三维数组也可分别看作1\times 11\times 3的矩阵。

1.1.3 矩阵和向量相乘结果

若使用爱因斯坦求和约定(Einstein summation convention),矩阵AB相乘得到矩阵C可以用下式表示:

a_{ik}*b_{kj}=c_{ij}                    

其中,a_{ik}b_{kj}c_{ij}分别表示矩阵$A, B, C$的元素,k出现两次,是一个哑变量(Dummy Variables),表示对该参数进行遍历求和。而矩阵和向量相乘可以看成是矩阵相乘的一个特殊情况,例如:矩阵B是一个$n \times 1$的矩阵。

1.1.4 向量和矩阵的范数归纳

向量的范数(norm)

定义一个向量为:$\vec{a}=[-5, 6, 8, -10]$。任意一组向量设为$\vec{x}=(x_1,x_2,...,x_N)$。其不同范数求解如下:

向量1的范数:向量的各个元素的绝对值之和,上述向量\vec{a}的1范数结果就是:29。

\| \mathbf{x} \|_1 = \sum_{i=1}^{N} |x_i|

向量2的范数:向量的每个元素的平方和再开平方根,上述\vec{a}的2范数结果就是:15。

\| \mathbf{x} \|_2 = \left( \sum_{i=1}^{N} |x_i|^2 \right)^{\frac{1}{2}}

向量的负无穷范数:向量的所有元素的绝对值中最小的:上述向量\vec{a}的负无穷范数结果就是:5。

\| \mathbf{x} \|_{\infty} = \max |x_i|

向量的正无穷范数:向量的所有元素的绝对值中最大的:上述向量\vec{a}的正无穷范数结果就是:10。

\| \mathbf{x} \|_{\infty} = \max |x_i|

向量的p范数:

L_p = \| \mathbf{x} \|_p = \left( \sum_{i=1}^{N} |x_i|^p \right)^{\frac{1}{p}}

矩阵的范数

定义一个矩阵:A=[-1, 2, -3; 4, -6, 6]。任意矩阵定义为:A_{m\times n},其元素为a_{ij}

矩阵的范数定义为:

\| A \|_p = \sup_{\mathbf{x} \neq 0} \frac{\| A \mathbf{x} \|_p}{\| \mathbf{x} \|_p}

当向量取不同范数时,相应得到了不同的矩阵范数。

矩阵的1范数(列范数):矩阵的每一列上的元素绝对值先求和,再从中取个最大的,(列和最大),上述矩阵A的1范数先得到[5,8,9],再取最大的最终结果就是:9。

\Vert A\Vert_1=\max_{1\le j\le n}\sum_{i=1}^m|{a_{ij}}|

矩阵的2范数:矩阵A^TA的最大特征值开平方根,上述矩阵A的2范数先得到最终结果是:10.0623。

\| A \|_2 = \sqrt{\lambda_{\max}(A^TA)}

其中,\lambda_{\max}(A^TA)A^TA的特征值绝对值的最大值。

矩阵的无穷范数(行范数):矩阵的每一行上的元素绝对值先求和,再从中取个最大的,(行和最大),上述矩阵A的行范数先得到\left [ {6;16} \right ],再取最大的最终结果是:16。

\Vert A\Vert_{\infty}=\max_{1\le i \le m}\sum_{j=1}^n |{a_{ij}}|

矩阵的核范数:矩阵的奇异值(将矩阵svd分解)之和,这个范数可以用来低秩表示(因为最小化核范数,相当于最小化矩阵的秩——低秩),上述矩阵A的最终结果就是:10.9287。

矩阵的L0范数:矩阵的非0元素的个数,通常用它来表示稀疏,L0范数越小0越苏越多,也就越稀疏,上述矩阵A的最终结果就是:6。

矩阵的L1范数:矩阵中的每个元素的绝对值之和,它是L0范数的最优凸近似,因此它也可以表示稀疏,上述矩阵A的最终结果就是:22。

矩阵的F范数:矩阵的各个元素平方之和再开平方根,它通常也叫做矩阵的L2范数,它的优点在于它是一个凸函数,可以求导求解,易于计算,上述矩阵A的最终结果就是:10.0995。

\|A\|_F = \sqrt{\sum_{i=1}^{m} \sum_{j=1}^{n} |a_{ij}|^2}

矩阵的L21范数:矩阵先以每一列为单位,求每一列的F范数(也可认为是向量的2范数),然后再将得到的结果求L1范数(也可认为是向量的1范数),很容易看出它是介于L1和L2之间的一种范数,上述矩阵A的最终结果就是:17.1559。

矩阵的p范数:

\|A\|_{p} = \left( \sum_{i=1}^{m} \sum_{j=1}^{n} |a_{ij}|^p \right)^{\frac{1}{p}}

1.1.5 如何判断一个矩阵为正定

  • 判断一个矩阵是否为正定,通常有以下几个方面:
  • 顺序主子式全大于0;
  • 存在可逆矩阵C使C^TC等于该矩阵;
  • 正惯性指数等于n
  • 合同于单位矩阵E(即:规范形为E);
  • 标准形中主对角元素全为正;
  • 特征值全为正;
  • 是某基的度量矩阵。

1.2 导数和偏导数

1.2.1 导数偏导计算

导数定义

导数(derivative)代表了在自变量变化趋于无穷小的时候,函数值的变化与自变量的变化的比值。几何意义是这个点的切线。物理意义是该时刻的(瞬时)变化率。

注意:在一元函数中,只有一个自变量变动,也就是说只存在一个方向的变化率,这也就是为什么一元函数没有偏导数的原因。在物理学中有平均速度和瞬时速度之说。平均速度有:

v = \frac{s}{t}

其中,v表示平均速度,s表示路程,t表示时间。这个公式可以改写为:

\bar{v} = \frac{\Delta s}{\Delta t} = \frac{s(t_0 + \Delta t) - s(t_0)}{\Delta t}

其中,\Delta s表示两点之间的距离,而\Delta t表示走过这段距离需要花费的时间。当\Delta t趋向于0(\Delta t \to 0)时,也就是时间变得很短时,平均速度也就变成了在t_0时刻的瞬时速度,表示成如下形式:

v(t_0) = \lim_{\Delta t \to 0} \bar{v} = \lim_{\Delta t \to 0} \frac{\Delta s}{\Delta t} = \lim_{\Delta t \to 0} \frac{s(t_0 + \Delta t) - s(t_0)}{\Delta t}

实际上,上式表示的是路程s关于时间t的函数在t=t_0处的导数。一般的,这样定义导数:如果平均变化率的极限存在,即有:

\lim_{\Delta x \to 0} \frac{\Delta y}{\Delta x} = \lim_{\Delta x \to 0} \frac{f(x_0 + \Delta x) - f(x_0)}{\Delta x}

则称此极限为函数y=f(x)在点x_0处的导数。记作f'(x_0)\frac{d}{dx} y \bigg|_{x=x_0}\frac{dy}{dx} \bigg|_{x=x_0}\frac{d}{dx} f(x) \bigg|_{x=x_0}

通俗地说,导数就是曲线在某一点切线的斜率。

偏导数

既然谈到偏导数(partial derivative),那就至少涉及到两个自变量。以两个自变量为例,z=f(x,y),从导数到偏导数,也就是曲线来到了曲面。曲线上的一点,其切线只有一条。但在曲面上的一点,切线有无数条。而偏导数就是指多元函数沿着坐标轴的变化率。

注意:直观地说,偏导数也就是函数在某一点上沿坐标轴正方向的变化率。

设函数z=f(x,y)在点\left ( x_0,y_0 \right )处关于自变量x的偏导数,记作f_x(x_0,y_0)\frac{\partial z}{\partial x}\vert_{y=y_0}^{x=x_0}\frac{\partial f}{\partial x}\vert_{y=y_0}^{x=x_0}z_x\vert_{y=y_0}^{x=x_0}

偏导数在求解时可以将另一个变量看作常数,利用普通的求导方式求解,比如z=3x^2+xy关于x的偏导数就为z_x=6x+y,这个时候y就相当于x的系数。

某点\left ( x_0,y_0 \right )处的偏导数的几何意义为曲面z=f(x,y)与面x=x_0或面y=y_0交线在y=y_0x=x_0处切线的斜率。

1.2.2 导数和偏导数有什么区别

导数和偏导数没有本质区别,如果极限存在,都是当自变量的变化量趋于0时,函数值的变化量与自变量变化量比值的极限。

  • 一元函数,一个y对应一个x,导数只有一个。
  • 二元函数,一个z对应一个x和一个y,有两个导数:一个是zx的导数,一个是zy的导数,称之为偏导。
  • 求偏导时要注意,对一个变量求导,则视另一个变量为常数,只对该变量求导,从而将偏导的求解转化成了一元函数的求导。

1.3 特征值和特征向量

1.3.1 特征值分解与特征向量

特征值分解可以得到特征值(eigenvalues)与特征向量(eigenvectors);

特征值表示的是这个特征到底有多重要,将一定可以表示成下面的形式:

Av=\lambda v

\lambda为特征向量$\vec{v}$对应的特征值。特征值分解是将一个矩阵分解为如下形式:

A = Q \Sigma Q^{-1}

其中,Q是这个矩阵A的特征向量组成的矩阵,sum是一个对角矩阵,每一个对角线元素就是一个特征值,里面的特征值是由大到小排列的,这些特征值所对应的特征向量就是描述这个矩阵变化方向(从主要的变化到次要的变化排列)。也就是说矩阵A的信息可以由其特征值和特征向量表示。

1.3.2 奇异值与特征值有什么关系

那么奇异值和特征值是怎么对应起来的呢?我们将一个矩阵A的转置乘以A,并对A^TA求特征值,则有下面的形式:

(A^TA)V = \lambda V

这里V就是上面的右奇异向量,另外还有:

\sigma_i = \sqrt{\lambda_i}, \quad u_i = \frac{1}{\sigma_i} AV

这里的\sigma就是奇异值,u就是上面所说的左奇异值。奇异值\sigma跟特征值剋四,在矩阵\sum中也是从大到小排列,而且\sigma的减少特别快,在很多情况下,前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上了。也就是说,我们也可以用前rr远小于m,n)个奇异值来近似描述矩阵,即部分奇异值分解:

A_{m\times n}\approx U_{m \times r}\sum_{r\times r}V_{r \times n}^T

右边的三个矩阵相乘的结果将会是一个接近于A的矩阵,在这儿,r越接近于n,则相乘的结果越接近于A

1.4 概率分布与随机变量

1.4.1 机器学习为什么要使用概率分布

事件的概率是衡量该事件发生的可能性的量度。虽然在一次随机试验中某个事件的发生是带有偶然性的,但那些可在相同条件下大量重复的随机试验却往往呈现出明显的数量规律。

机器学习除了处理不确定量,也需处理随机量。不确定性和随机性可能来自多个方面,使用概率论来量化不确定性。

概率论在机器学习中扮演着一个核心角色,因为i机器学习算法的设计通常依赖于对数据的概率假设。

例如在机器学习(Andrew Ng)的课中,会有一个朴素贝叶斯假设就是条件独立的一个例子。该学习算法对内容做出假设,用来分辨电子邮件是否为垃圾邮件。假设无论邮件是否为垃圾邮件,单词x出现在邮件中的概率条件独立于单词y。很明显这个假设不是不失一般性的,因为某些单词几乎总是同时出现。然而,最终结果是,这个简单的假设对结果的影响并不大,且无论如何都可以让我们快速判别垃圾邮件。

1.4.2 变量与随机变量有什么区别

随机变量(random variable)

表示随机现象(在一定条件下,并不总是出现相同结果的现象称为随机现象)中各种结果的实值函数(一切可能的样本点)。例如某一时间内公共汽车站等车乘客人数,电话交换台在一定时间内收到的呼叫次数等,都是随机变量的实例。

随机变量与模糊变量的不确定性的本质差别在于,后者的测定结果仍具有不确定性,即模糊性。

变量与随机变量的区别:

当变量的取值的概率不是1时,变量就成了随机变量;

当随机变量取值的概率为1时,随机变量就变成了变量。

比如:
​ 当变量x值为100的概率为1的话,那么x=100 就是确定了的,不会再有变化,除非有进一步运算.​ 当变量x的值为100的概率不为1,比如为50的概率是0.5,为100的概率是0.5,那么这个变量就是会随不同条件而变化的,是随机变量,取到50或者100的概率都是0.5,即50%。

1.4.3 随机变量与概率分布的联系

一个随机变量仅仅表示一个可能取得的状态,还必须给定与之相伴的概率分布来制定每个状态的可能性。用来描述随机变量或一簇随机变量的每一个可能是状态的可能性大小的方法,就是概率分布(probability distribution)

随机变量可以分为离散型随机变量和连续性随机变量。

相应的描述其概率分布的函数是:

概率质量函数(Probability Mass Function,PMF):描述离散型随机变量的概率分布,通常用大写字母P表示。

概率密度函数(Probability Density Function,PDF):描述连续型随机变量的概率分布,通常用小写字母p表示。

1.4.4 离散型随机变量和概率质量函数

PMF将随机变量能够取得的每个状态映射到随机变量取得该状态的概率。

  • 一般而言,P(x)表示X=x的概率;
  • 有时为了防止混肴,要明确写出随机变量的名称P($x$=x)
  • 有时需要先定义一个随机变量,然后制定它遵循的概率分布x服从P(x)

PMF可以同时作用于多个随机变量,即联合概率分布(joint probability distribution)P($x$=x, $y$=y)^*表示X=xY=y同时发生的概率,也可以简写成P(x,y)

如果一个函数P是随机变量X的PMF,那么它必须满足如下三个条件:

  • P的定义域必须是x的所有可能状态的集合;
  • \forall x\in x,0\leq P(x)\leq 1
  • \sum_{x \in X} P(x) = 1.我们把这一条性质称之为 归一化的(normalized)。

1.4.5 连续型随机变量和概率密度函数

如果一个函数p是随机变量x的PDF,那么它必须满足如下三个条件:

  • p的定义域必须是x的所有可能状态的集合;
  • \forall x\in X,p(x)\geq0.注意,我们并不要求p(x)\leq 1,因为此处p(x)不是表示的对应此状态具体的概率,而是概率的一个相对大小(密度)。具体的概率,需要积分去求。
  • \int p(x)dx=1,积分下来,总和还是1,概率之和还是1。

注:PDFp(x)并没有直接对特定的状态给出概率,给出的是密度,相对的,它给出了落在面积为\delta x的无线小的区域内的概率为p(x)\delta x。由此,我们无法求得具体某个状态的概率,我们可以球的的是某个状态x落在某个区间\left [ a,b \right ]内的概率为\int_{a}^{b}p(x)dx

1.4.6 举例理解条件概率

条件概率公式如下: P(A|B) = P(A\cap B) / P(B)说明:在同一个样本空间$\Omega$中的事件或者子集AB,如果随机从$\Omega$中选出的一个元素属于B,那么下一个随机选择的元素属于A 的概率就定义为在B的前提下A的条件概率。条件概率文氏图示意如图1.1所示。

图1.1 条件概率文氏图示意

根据文氏图,可以很清楚地看到在事件B发生的情况下,事件A发生的概率就是P(A\bigcap B)除以P(B)
​举例:一对夫妻有两个小孩,已知其中一个是女孩,则另一个是女孩子的概率是多少?(面试、笔试都碰到过)
穷举法:已知其中一个是女孩,那么样本空间为男女,女女,女男,则另外一个仍然是女生的概率就是1/3。
条件概率法:P(女|女)=P(女女)/P(女),夫妻有两个小孩,那么它的样本空间为女女,男女,女男,男男,则P(女女)为1/4,P(女)= 1-P(男男)=3/4,所以最后1/3。
这里大家可能会误解,男女和女男是同一种情况,但实际上类似姐弟和兄妹是不同情况。

1.4.7 联合概率与边缘概率联系区别

区别:
​联合概率:联合概率指类似于P(X=a,Y=b)这样,包含多个条件,且所有条件同时成立的概率。联合概率是指在多元的概率分布中多个随机变量分别满足各自条件的概率。
​边缘概率:边缘概率是某个事件发生的概率,而与其它事件无关。边缘概率指类似于P(X=a)P(Y=b)这样,仅与单个随机变量有关的概率。

联系:
​联合分布可求边缘分布,但若只知道边缘分布,无法求得联合分布。

1.4.8 条件概率的链式法则

由条件概率的定义,可直接得出下面的乘法公式:
​乘法公式 设A, B是两个事件,并且P(A) > 0, 则有 P(AB) = P(B|A)P(A),推广P(ABC)=P(C|AB)P(B|A)P(A)

一般地,用归纳法可证:若P(A_1A_2...A_n)>0,则有:

P(A_1A_2...A_n)\\=P(A_n|A_1A_2...A_{n-1})P(A_{n-1}|A_1A_2...A_{n-2})...P(A_2|A_1)P(A_1) \\=P(A_1)\prod_{i=2}^{n}P(A_i|A_1A_2...A_{i-1})

任何多维随机变量联合概率分布,都可以分解成只有一个变量的条件概率相乘形式。

1.4.9 独立性和条件独立性

独立性

​两个随机变量xy,概率分布表示成两个因子乘积形式,一个因子只包含x,另一个因子只包含y,两个随机变量相互独立(independent)。
​条件有时为不独立的事件之间带来独立,有时也会把本来独立的事件,因为此条件的存在,而失去独立性。
​举例:P(XY)=P(X)P(Y), 事件X和事件Y独立。此时给定ZP(X,Y|Z) \not = P(X|Z)P(Y|Z) 事件独立时,联合概率等于概率的乘积。这是一个非常好的数学性质,然而不幸的是,无条件的独立是十分稀少的,因为大部分情况下,事件之间都是互相影响的。

条件独立性

给定Z的情况下,$X$Y条件独立,当且仅当X\bot Y|Z \iff P(X,Y|Z) = P(X|Z)P(Y|Z)XY的关系依赖于Z,而不是直接产生。

举例定义如下事件:

X:明天下雨;

Y:今天的地面是湿的;

Z:今天是否下雨;

Z的事件成立,对XY均有影响。然而,在Z事件成立的前提下,今天的地面情况对明天是否下雨没有影响。

1.5 常见概率分布

1.5.1 Bernoulli 分布

Bernoulli分布(伯努利分布,0-1分布)是单个二值随机变量分布, 单参数$\phi$∈[0,1]控制,$\phi$给出随机变量等于1的概率. 主要性质有:P(x=1)=\phi ,P(x=0)=1-\phi

概率质量函数:P(x = x) = \phi^x (1 - \phi)^{1-x}

其期望和方差为:E_x\left [ x \right ]=\phi,Var_x(x)=\phi(1-\phi)

 适用范围伯努利分布适合对离散型随机变量建模。

Multinoulli分布也叫范畴分布, 是单个k值随机分布,经常用来表示对象分类的分布. 其中$k$是有限值.Multinoulli分布由向量\vec{p}\in[0,1]^{k-1}参数化,每个分量p_i表示第i个状态的概率, 且p_k=1-1^Tp.这里1^T表示元素全为1的列向量的转置,其实就是对于向量p中除了k的概率之和。可以重写为p_k=1-\sum_{0}^{k-1}p_i

补充二项分布、多项分布:

二项分布,通俗点硬币抛多次。二项分布(Binomial distribution)是n重伯努利试验成功次数的离散概率分布。

多项式分布(Multinomial Distribution)是二项式分布的推广。二项式做n次伯努利实验,规定了每次试验的结果只有两个,如果现在还是做n次试验,只不过每次试验的结果可以有多m个,且m个结果发生的概率互斥且和为1,则发生其中一个结果X次的概率就是多项式分布。

1.5.2 高斯分布

高斯也叫正态分布(Normal Distribution), 概率度函数如下:

N(x;\mu,\sigma^2) = \sqrt{\frac{1}{2\pi\sigma^2}}exp\left ( -\frac{1}{2\sigma^2}(x-\mu)^2 \right )

其中, \mu\sigma分别是均值和标准差, 中心峰值x坐标由\mu给出, 峰的宽度受\sigma控制, 最大点在x=\mu处取得, 拐点为x=\mu \pm\sigma

正态分布中,±1\sigma、±2\sigma、±3\sigma下的概率分别是68.3%、95.5%、99.73%,这3个数最好记住。

此外, 令\mu =0,\sigma =1,高斯分布即简化为标准正态分布:N(x;\mu,\sigma^2) = \sqrt{\frac{1}{2\pi}}exp\left ( -\frac{1}{2}x^2 \right ),对概率密度函数高效求值:N(x;\mu,\beta^{-1})=\sqrt{\frac{\beta}{2\pi}}exp\left(-\frac{1}{2}\beta(x-\mu)^2\right)

其中,\beta=\frac{1}{\sigma^2}通过参数\beta \in (0, \infty)来控制分布精度。

1.5.3 何时采用正态分布

问:何时采用正态分布?答:缺乏实数上分布的先验知识,不知选择何种形式时,默认选择正态分布总是不会错的,理由如下:

  1. 中心极限定理告诉我们,很多独立随机变量均近似服从正态分布,现实中很多复杂系统都可以被建模成正态分布的噪声,即使该系统可以被结构化分解。
  2. 正态分布是具有相同方差的所有概率分布中,不确定性最大的分布,换句话说,正态分布是对模型加入先验知识最少的分布。

正态分布的推广:正态分布可以推广到R^n空间,此时称为多位正态分布,其参数是一个正定对称矩阵\sigma

N(x;\vec\mu,\Sigma)=\sqrt{\frac{1}{(2\pi)^ndet(\Sigma)}}exp\left(-\frac{1}{2}(\vec{x}-\vec{\mu})^T\Sigma^{-1}(\vec{x}-\vec{\mu})\right)

对多位正态分布概率密度高效求值:

N(x;\vec{\mu},\vec\beta^{-1}) = \sqrt{det(\vec\beta)}{(2\pi)^n}exp\left(-\frac{1}{2}(\vec{x}-\vec\mu)^T\beta(\vec{x}-\vec\mu)\right)

此处,\vec\beta是一个精度矩阵。

1.5.4 指数分布

深度学习中,指数分布用来描述在x=0点处取得边界点的分布,指数分布定义如下:

p(x;\lambda)=\lambda I_{x\geq 0}exp(-\lambda{x})

指数分布用指示函数I_{x\geq0}来使x取负值时的概率为零。

1.5.5 Laplace 分布(拉普拉斯分布)

一个联系紧密的概率分布是 Laplace 分布(Laplace distribution),它允许我们在任意一点\mu处设置概率质量的峰值:

Laplace(x;\mu;\gamma)=\frac{1}{2\gamma}exp\left(-\frac{|x-\mu|}{\gamma}\right)

1.5.6 Dirac 分布和经验分布

Dirac分布可保证概率分布中所有质量都集中在一个点上. Diract分布的狄拉克\delta函数(也称为单位脉冲函数)定义如下:

p(x)=\delta(x-\mu), x\neq \mu

\int_{a}^{b} \delta(x - \mu) \, dx = 1, \quad a < \mu < b

Dirac分布经常作为经验分布(empirical distribution)的一个组成部分出现:

\hat{p}(\vec{x})=\frac{1}{m}\sum_{i=1}^{m}\delta(\vec{x}-{\vec{x}}^{(i)})

其中,m个点x^{1},...,x^{m}是给定的数据集,经验分布将概率分布密度\frac{1}{m}赋予给了这些点。

当我们在训练集上训练模型时,可以认为从这个训练集上得到的经验分布指明了采样来源

适用范围:狄拉克\delta函数适合对连续性随机变量的经验分布。

1.6 期望、方差、协方差、相关系数

1.6.1 期望

在概率论和统计学中,数学期望(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和。它反映随机变量平均取值的大小。

线性运算:E(aX + bY + c) = aE(X) + bE(Y) + c

推广形式:E\left(\sum_{i} a_iX_i + c\right) = \sum_{i} a_iE(X_i) + c

函数期望:设f(x)x的函数,则f(x)的期望为:

  • 离散函数:E(f(x)) = \sum_{k=1}^{n} f(x_k)P(x_k)
  • 连续函数:E(f(x)) = \int_{-\infty}^{+\infty} f(x)p(x)dx

注意:

  • 函数的期望大于等于期望的函数(Jensen(詹森)不等式,即E(f(x))\geqslant f(E(x)));
  • 一般情况下,乘积的期望不等于期望的乘积;
  • 如果XY相互独立,则E(xy)=E(x)E(y)

1.6.2 方差

概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。方差是一种特殊的期望。定义为:

\text{Var}(x) = E\left((x - E(x))^2\right)

方差性质:

(1)Var(x) = E(x^2) -E(x)^2

(2)常数的方差为0

(3)方差不满足线性性质

(4)如果XY相互独立,\text{Var}(aX + bY) = a^2\text{Var}(X) + b^2\text{Var}(Y)

1.6.3 协方差

协方差是衡量两个变量线性相关性强度及变量尺度。两个随机变量的协方差定义为:

Cov(x,y)=E((x-E(x))(y-E(y)))

方差是一种特殊的协方差,当X=Y时,Cov(x,y)=Var(x)=Var(y)

协方差性质:

(1)独立变量的协方差为0

(2)协方差计算公式:

\text{Cov}\left(\sum_{i=1}^{m} a_i X_i, \sum_{j=1}^{m} b_j Y_j\right) = \sum_{i=1}^{m} \sum_{j=1}^{m} a_i b_j \text{Cov}(X_i, Y_j)

(3)特殊情况:

\text{Cov}(a + bx, c + dy) = bd\text{Cov}(x, y)

1.6.4 相关系数

相关系数是研究变量之间线性相关程度的量。两个随机变量的相关系数定义为:

Corr(x,y) = \frac{Cov(x,y)}{\sqrt{Var(x)Var(y)}}

相关系数的性质:

(1)有界性。相关系数的取值范围是[-1,1],可以看成无量纲的协方差。

(2)值越接近1,说明两个变量正相关性(线性)越强。越接近-1,说明负相关性越强。当为0时,表示两个变量没有相关性。


参考文献

[1]Ian,Goodfellow,Yoshua,Bengio,Aaron...深度学习[M],人民邮电出版,2017

[2]周志华.机器学习[M].清华大学出版社,2016.

[3]同济大学数学系.高等数学(第七版)[M],高等教育出版社,2014.

[4]盛骤,试式千,潘承毅等编. 概率论与数理统计(第4版)[M],高等教育出版社,2008

这篇关于深度学习500问——Chapter01:数学基础的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/746162

相关文章

Node.js 中 http 模块的深度剖析与实战应用小结

《Node.js中http模块的深度剖析与实战应用小结》本文详细介绍了Node.js中的http模块,从创建HTTP服务器、处理请求与响应,到获取请求参数,每个环节都通过代码示例进行解析,旨在帮... 目录Node.js 中 http 模块的深度剖析与实战应用一、引言二、创建 HTTP 服务器:基石搭建(一

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

uva 10014 Simple calculations(数学推导)

直接按照题意来推导最后的结果就行了。 开始的时候只做到了第一个推导,第二次没有继续下去。 代码: #include<stdio.h>int main(){int T, n, i;double a, aa, sum, temp, ans;scanf("%d", &T);while(T--){scanf("%d", &n);scanf("%lf", &first);scanf

uva 10025 The ? 1 ? 2 ? ... ? n = k problem(数学)

题意是    ?  1  ?  2  ?  ...  ?  n = k 式子中给k,? 处可以填 + 也可以填 - ,问最小满足条件的n。 e.g k = 12  - 1 + 2 + 3 + 4 + 5 + 6 - 7 = 12 with n = 7。 先给证明,令 S(n) = 1 + 2 + 3 + 4 + 5 + .... + n 暴搜n,搜出当 S(n) >=

uva 11044 Searching for Nessy(小学数学)

题意是给出一个n*m的格子,求出里面有多少个不重合的九宫格。 (rows / 3) * (columns / 3) K.o 代码: #include <stdio.h>int main(){int ncase;scanf("%d", &ncase);while (ncase--){int rows, columns;scanf("%d%d", &rows, &col