数理统计之协方差矩阵

本文主要是介绍数理统计之协方差矩阵，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

文章目录

前言：
1.方差
2.协方差
3.协方差矩阵
4.相关系数矩阵
协方差矩阵与PCA的联系

前言：

本文介绍数理统计和机器学习中的一个非常重要的概念：协方差矩阵（即随机变量的数字特征）。理解好这个概念将有助于对机器学习的相关内容如：主成分分析（即PCA：Principal Component Analysis），线性判别分析（即LDA：Linear Discriminant Analysis）的学习。

1.方差

方差(variance)的数学定义为：
$D(X)={E[X-E(X)]^2}$
其中 $E (X)$ 是随机变量的均值也就是平均值，那么这个公式就是随机变量 ${[X-E(X)]^2}$ 的均值（平均值），如果读者有一定的概率论与数理统计的基础上面的概念应该是比较好理解的。
通俗的讲，方差就是随机变量的取值相对于均值的偏离程度，也就是说比如我们有一个数组 $X={[x_1,x_2,....x_n]}$ ,那么我们要研究这个数组的一些性质，如这个数组的里面的变量的离散程度，那么就可以用到方差这个数学概念。

关于方差的计算，可以调用numpy库中的cov方法
用法为：numpy.cov(m, y=None, rowvar=True, bias=False, ddof=None, fweights=None, aweights=None, *, dtype=None)
关于这个函数，当我们输入1维变量时，将得到这个变量的方差，当输入的是n维变量时，将得到这n维变量的协方差矩阵（协方差和协方差矩阵下面会介绍👇）

#换成另一个数组1,2,3,4,5得到这个五个数字的离散程度
import numpy as np
X1 = np.array([1,2,3,4,5])
X1.cov()
#输出结果为
array(2.5)

#这里这个数组的值相同都为1，所以离散程度为0，所以方差为0
import numpy as np
X1 = np.array([1,1,1,1,1])
X1.cov()
#输出结果为
array(0.)

2.协方差

方差的概念是基于一个随机变量，如果涉及到两个变量的话，就要引入协方差的概念。方差是描述随机变量的离散程度，而对于两个随机变量 $X ， Y$ ，如果我们研究它们各自的离散程度，那么便直接计算它们的方差即可。但是，我们如果想要知道这两个随机变量的之间的关系，就要用到协方差，协方差(covariance)的定义为：
$c o v (X, Y) = E [(X - E (X)) (Y - E (Y))]$
通俗的讲，协方差反映了两个随机变量之间的相关关系，也就是它们的关联程度。
不难发现，用协方差也可以表示方差，即将Y更换为X，由此可见协方差是方差的推广。
$D(X)={E[X-E(X)]^2}=cov(X,X) = E[(X-E(X))(X-E(X))]$

在实际应用中，我们更倾向于使用由方差和协方差导出的另一个数学量：相关系数
$\rho_{XY} ={cov(X,Y) \over \sqrt{D(X)D(Y)}}$
相关系数的定义在[-1,1]，如果是1的话，代表两个随机变量X,Y是正相关，反之为负相关。

3.协方差矩阵

方差描述了一个随机变量的离散程度，协方差描述了两个随机变量之间的关系，现实中我们往往收集到的不是一个或两个随机变量，而是很多个。
比如在机器学习中，我们想要研究关于房价的问题，我们会收集到上百个影响房价的因素，如空气质量，非零售营业占比等等。建立模型之前，我们就要分析这么多个变量之间的相互联系，这就需要协方差矩阵来描述这100多个变量个数字特征。协方差的矩阵的形式如下（以三维为例）：
$\varSigma=\begin{pmatrix} \sigma_{11} & \sigma_{12} & \sigma_{13}\\ \sigma_{21} & \sigma_{22} & \sigma_{23}\\ \sigma_{31} & \sigma_{32} & \sigma_{33} \end{pmatrix}$
可以看到，这个矩阵把我们想要的信息全部表达了出来，不仅给出了不同变量之间的协方差，而且还给出了变量自身的方差（对角线），所以说协方差矩阵是十分重要的（后面可以看到我们进行数据降维时的一些理论是和协方差矩阵紧密联系的）。

import numpy as np
X1 = np.array([[1,2,3,4,5],[1,1,1,1,1]])
np.cov(X1)
#这里得到协方差矩阵，可以看到对角线上的元素的值和我们上面计算方差的相同，分别是2.5和 0
#输出结果为
array([[2.5, 0. ],[0. , 0. ]])

4.相关系数矩阵

上面我们介绍了四个重要的概念，分别是方差，协方差，相关系数，和协方差矩阵。我们提到相关系数更容易的看到两个变量之间的相关性，鉴于相关系数的定义与两个随机变量的方差相关，而且我们又有协方差矩阵的形式，所以我们自然要想到用相关系数矩阵来表达变量之间的相关关系，如下图所示。

$R=\begin{pmatrix} \rho_{11} & \rho_{12} & \rho_{13}\\ \rho_{21} & \rho_{22} & \rho_{23}\\ \rho_{31} & \rho_{32} & \rho_{33} \end{pmatrix}$

关于相关系数矩阵的计算，可以调用numpy库中的corrcoef方法
用法为：numpy.corrcoef(x, y=None, rowvar=True, bias=, ddof=, *, dtype=None)
该函数返回一个相关系数矩阵，并且是对称矩阵，对角线上的元素为1（因为变量和变量自身的相关性为1，二者等价完全相同）

import numpy as np
X1 = np.array([[1,2,3,4,5],[1,2,3,4,5]])
np.corrcoef(X1)
#得到上面两个随机变量的相关系数矩阵
#因为两个随机变量完全相同，所以矩阵的所有元素都是1
#输出结果为
array([[1., 1.],[1., 1.]])

import numpy as np
X1 = np.array([[1,2,3,4,5],[1,4,2,6,3]])
np.corrcoef(X1)
#这是个一般性例子，可以看到对角线上的元素仍然为1
#输出结果为
array([[1.        , 0.49319696],[0.49319696, 1.        ]])

协方差矩阵与PCA的联系

上面我们介绍了四个统计数学量（准确说是五个，因为还有相关系数），这些量在机器学习的理论知识和应用中相当重要，尤其是协方差矩阵和相关系数矩阵。正如我们上面举的案例：影响房价的因素，往往我们有很多个影响房价的因素几十个甚至几百个，在我们正式建立模型之前我们就要进行因素的筛选（因为这么多个影响因子很大可能存在性质相同的如空气质量因素和污染物浓度二者其实对我们的房价的贡献相同，所以要筛选）。那么如何筛选？就要借助主成分分析的方法，而理解主成分分析的前提 是要对上面👆的这些数字特征要足够清楚。关于协方差矩阵与主成分分析的联系请看我的)另一篇博文主成分分析和协方差矩阵😄。

这篇关于数理统计之协方差矩阵的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！