协方差(covariance)和相关系数(correlation coefficient)

2024-04-18 01:32

本文主要是介绍协方差(covariance)和相关系数(correlation coefficient),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

相关系数和协方差实际上是相同的概念,都是用来描述两个随机变量之间的相似程度的。这篇文章将详细说明协方差和相关系数的相关知识。

首先声明,此篇的内容是来自"马同学高等数学"微信公众号的内容。

1、事物之间的关系

事物之间有两种关系,有关系和没关系。

1.1 、有关系

据专家表示,要买房的人越多(下图的城镇化率可以简单理解为进城买房的人数),房价就越高(数据来源):

                            

从上图可以看出,房价与进城买房的人数成正比,两者的关系是正相关

城镇化除了推升城市房价之外,还有另外一个作用,降低出生率。城镇化和出生率之间的关系就是负相关

                      

所以说,“城镇化是最好的避孕药”,不管在新加坡、日本、中国、美国都有这样的规律。城镇化一方面是推动买房人口的增加,一方面是出生人口的减少,那么未来房价会怎样?预测未来就是统计学家的重要工作。

1.2、没关系

比如说买彩票,跟是否求神拜佛,是否洗手这些事没有关系的。

                    

协方差、相关系数就是尝试找出两个随机变量之间具有什么样的关系。

2、距离与关系

在线性代数里面是用距离来描述关系的。比如,几米的漫画《向左走,向右走》,讲述了一对都市男女,比邻而居:

                                  

却总是擦肩而过:

                                        

用句文艺的话来说就是,“距离那么近,相隔那么远”。

这里面就包含了两个数学中的距离:

  • “距离那么近”:欧式距离,也就是两点之间的直线距离

  • “相隔那么远”:余弦距离,也就是本文想说的,表示关系用的距离

2.1 欧式距离

欧式距离是我们接触最多的距离,实际上他就是直线距离。比如,\vec{a}\vec{b}之间的欧式距离就是下图中的许下:

                                          

欧式距离可以通过勾股定理,或者点积来计算:

                                     

2.2 余弦距离

比如,向量\vec{a}\vec{b}的余弦距离就是下图中\theta角的余弦

                                                 

根据线性代数的知识,余弦也可以通过点积和模长来计算:

                                                                             

2.3 通过余弦距离来计算关系

举一个在实际应用中,通过余弦距离来计算关系的例子。下面是某书评网站,用户对一些书籍进行了相应的评分:

                                                                      

第一个用户的信息用向量\vec v =(4,3,0,0,5,0)来表示,第二个用户的信息用向量\vec v =(5,0,4,0,4,0)来表示,那么他们之间的相似性可以用余弦距离来表示:

                                                                            

带入数据,结果保留到小数点后两位:

                                                                         

余弦最大即为1,所以两者之间应该是挺有关系的,我们可以考虑把第一个用户喜欢的书推荐给第二个用户,或者反之。以此类推,我们就可以做出如下表格,表明各个用户的相关性:

                                                                     

但是这有一个问题,比如第一个用户喜好假如是:\vec{v} = (1,1,1,1,1,1),也就是说他对所有书籍的评分都是1.

第二个用户的喜好是:\vec{v} = (5,5,5,5,5,5),也就是说他对所有书籍的评分都是5。这两个人的喜好不是很相同,但是:

                                                                             

余弦距离表明两个人的喜好是完全相同的。

我们来改进一下:

  • 5分,表示很喜欢,实际值为2

  • 4分,表示喜欢,实际值为1

  • 3分,表示中性态度,实际值为0

  • 2分,表示讨厌,实际值为-1

  • 1分,表示很讨厌,实际值为-2

  • 不打分,默认实际值为0

因此,第一个用户喜好的实际值为:

同样的,第二个用户的喜好的实际值为:

余弦距离的结果为:                    

-1表示两人的喜好是相反的。-1,也就是相反的喜好不代表不相关,而是负相关。我们可以这么来看,比如我们知道第一个用户和第二个用户的余弦距离为-1,那么第一个用户喜欢的就不要推荐给第二个用户,第一个用户讨厌的可以推荐给第二个用户,所以实际两人是相关的,而且还非常相关。

3、协方差和相关系数

扯了这么多有的没的,我们该回到正题了。先假设有两个随机量 X,Y ,其均值分别为 \bar{X},\bar{Y} 。

由这两个随机量及其均值组成两个向量(可以这么认为,对于随机变量组成的向量,其均值才是原点):              好,准备好了,我们往下走。

3.1 、样本方差

 

对于 X ,其样本方差为:

                                                                      

通过向量表示为:                        方差看起来很像是欧式距离。

3.2 、样本协方差

对于X,Y,其样本协方差为:

                                                              

通过向量表示为:                           协方差看起来很像点积。

其实协方差已经可以表示两个向量之间的关系了,但是会受到向量长度的影响,比如:           

                                            

虽然两个向量的夹角相等,但是算出来的协方差,除了符号相同外,数值却相差较大,为了解决这个问题,我们把协方差归一化,也就是相关系数。

3.3、样本相关系数

对于 X,Y ,样本相关系数为:                       其中S_{X},S_{Y}  为标准差。  

通过向量表示为:

                                                             

相关系数其实就是之前说的余弦距离,表示事物之间的相关性。对比之前关于网站书评的例子,容易知道:

  •  ,则正相关

  •  ,则负相关

  •  ,则不相关 .要说明的一点是,  代表不相关,并不一定独立。这和线代的独立含义还是有所不同。

4、通过散点图来看待相关系数

之前是通过向量来解释了相关系数,不过随机变量 X,Y, 一般数值都很多,组成的向量都超过三维,这样就没有直观的几何意义了,所以我们一般用散点图来表示。比如说,我这里有一组身高、体重的数据:

                                                  

相关系数为:    和我们直觉相符,体重和身高确实是有强烈的正相关关系。把(身高,体重)作为一个点,画成散点图:

                                                  

从散点图也可以看出,这些点并非随机,其实是有规律的,可以认为它们贴合在下面红色直线的周围:

                                             

而下面这样的点才是散乱无章的,所以相关系数接近于零:

                                         

最后用维基百科给出的散点图来结束,该散点图给出了不同形态的点分布与相关系数之间的关系:

                                   

参考文献:

如何理解协方差、相关系数?         https://mp.weixin.qq.com/s/oejfQS-705PI5DhmC4AAug

这篇关于协方差(covariance)和相关系数(correlation coefficient)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/913415

相关文章

偏相关系数 - sas 实现

目的: 测试单变量与目标变量的线性关系, 在排除其他变量影响的条件下的 相关性。   求偏相关系数的sas 实现: ods graphics on;proc corr data=fish1 plots=scatter(alpha=0.2 0.3);var height weight;partial length weight;run;ods graphics off; 求

CV-CNN-2015:GoogleNet-V2【首次提出Batch Norm方法:每次先对input数据进行归一化,再送入下层神经网络输入层(解决了协方差偏移问题)】【小的卷积核代替掉大的卷积核】

GoogLeNet凭借其优秀的表现,得到了很多研究人员的学习和使用,因此GoogLeNet团队又对其进行了进一步地发掘改进,产生了升级版本的GoogLeNet。 GoogLeNet设计的初衷就是要又准又快,而如果只是单纯的堆叠网络虽然可以提高准确率,但是会导致计算效率有明显的下降,所以如何在不增加过多计算量的同时提高网络的表达能力就成为了一个问题。 Inception V2版本的解决方案就是修

数学建模--皮尔逊相关系数、斯皮尔曼相关系数

目录 1.总体的皮尔逊相关系数 2.样本的皮尔逊相关系数 3.对于皮尔逊相关系数的认识 4.描述性统计以及corr函数 ​编辑 5.数据导入实际操作 6.引入假设性检验 6.1简单认识 6.2具体步骤 7.p值判断法 8.检验正态分布 8.1jb检验 8.2威尔克检验:针对于p值进行检验 9.两个求解方法的总结 1.总体的皮尔逊相关系数 我们首先要知道这个

平方Pearson相关系数(SPCC)相关公式的推导

1、PCC及SPCC的定义 最近推导了维纳滤波的公式,其中最重要的是当然是最小平方误差准则(MSE)。但是在很多实际应用中,参考信号是不可知的,因此MSE准则不具有实际意义。为了解决这个问题,我们需要寻找另一个准则替代MSE成为新的代价函数。这就是皮尔逊相关系数(Pearson Correlation Coefficient, PCC)的来历。通过研究发现,相较于MSE,PCC具有许多吸引人的优

Region Covariance: A Fast Descriptor for Detection and Classification算法总结

传统的像素级特征比如颜色、梯度、滤波响应等等它们对光照变化和非刚性运动的描述不够鲁棒,而在像素级特征之上延伸出的直方图表述了一种无参的联合分布,然而随着特征数目的增加,联合分布的表达是呈指数增加的。另外,关键点的检测以及描述在匹配局部图像上非常有效,然而它们只包含了局部信息,没有利用全局的信息。 与直方图类似,协方差也能作为特征描述,并且协方差的特征维度要小很多。实验证明,协方差特征比其他特征性

平均值,标准差,方差,协方差,期望,均方误差

1. 写在前面 平均值,标准差,方差,协方差都属于统计数学;期望属于概率数学。 2. 统计数学 2.1 平均值,标准差,方差 统计学里最基本的概念就是样本的均值、方差、标准差。首先,我们给定一个含有n个样本的集合,下面给出这些概念的公式描述: 均值: 方差: 标准差: 均值描述的是样本集合的中间点,它告诉我们的信息是有限的。 方差(variance)是在概率论和统计方差衡量随机变

Python相关系数导图

🎯要点 量化变量和特征关联绘图对比皮尔逊相关系数、斯皮尔曼氏秩和肯德尔秩汽车性价比相关性矩阵热图大流行病与资产波动城镇化模型预测交通量宝可梦类别特征非线性依赖性捕捉向量加权皮尔逊相关系数量化图像相似性 Python皮尔逊-斯皮尔曼-肯德尔 皮尔逊相关系数 在统计学中,皮尔逊相关系数 是一种用于测量两组数据之间线性相关性的相关系数。它是两个变量的协方差与其标准差乘积的比率;因此,它本质上

变异性:Covariance与Contravariance在C#中的运用艺术

变异性:Covariance与Contravariance在C#中的运用艺术 摘要 在C#编程中,Covariance(协变)和Contravariance(逆变)是两种重要的类型系统特性,它们允许我们更灵活地使用泛型和委托。本文将深入探讨Covariance和Contravariance的概念、它们在C#中的实现以及如何利用这两种特性来提高代码的灵活性和可维护性。 1. 引言 Covar

【机器学习】4. 相似性比较(二值化数据)与相关度(correlation)

SMC Simple Matching Coefficient 评估两组二进制数组相似性的参数 SMC = (f11 + f00) / (f01+f10+f11+f00) 其中,f11表示两组都为1的组合个数,f10表示第一组为1,第二组为0的组合个数。 这样做会有一个缺点,假设是比较稀疏的数据,如今天去哪一个地区,地区有成千上万个,但是去的只有一个地区。那么就会导致f00非常的大,如此计算

Azure OpenAI citations with message correlation

题意:“Azure OpenAI 引用与消息关联” 问题背景: I am trying out Azure OpenAI with my own data. The data is uploaded to Azure Blob Storage and indexed for use with Azure AI search “我正在尝试使用自己的数据进行 Azure OpenAI。数