相关系数从PCC到MIC(1)

2023-10-22 04:50
文章标签 相关系数 pcc mic

本文主要是介绍相关系数从PCC到MIC(1),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一般来说,当谈到两个变量之间的相关性(correlation)时,在某种意义上是指他们的关系(relatedness)。
相关变量是包含彼此信息的变量,两个变量的相关性约强,其中一个变量可以透露给我们另一个变量的信息就越多。

相关性并不意味着因果关系

即使是两个变量之间有强相关性也不保证存在因果关系。观察到的相关性可能是由于隐藏的第三个变量的影响,或者完全是偶然的。也就是说,相关性确实允许基于另一个变量来预测一个变量。

从协方差到皮尔森PCC相关系数

皮尔逊相关系数(PCC, 或者 Pearson’s r)是一种广泛使用的线性相关性的度量,它通常是很多初级统计课程的第一课。从数学角度讲,它被定义为「两个向量之间的协方差,通过它们标准差的乘积归一化」。
两个成对的向量之间的协方差是它们在均值上下波动趋势的一种度量,即衡量一对向量是否倾向于各自平均值的同侧或相反。
在这里插入图片描述
协方差的计算方法是从每一对变量中减去各自的均值。然后,将这两个值相乘。

  • 如果都高于或低于均值,那么结果为正x正=正或负x负=正,均为正数。
  • 如果在均值的不同侧,则为正x负=负,均为负数。

一旦我们为每一对变量都计算出这些值,将它们加在一起,并除以 n-1,其中 n 是样本大小。这就是样本协方差。如果这些变量都倾向于分布在各自均值的同一侧,协方差将是一个正数;反之,协方差将是一个负数。这种倾向越强,协方差的绝对值就越大。
如果不存在整体模式,那么协方差将会接近于零。这是因为正值和负值会相互抵消。
最初,协方差似乎是两个变量之间「关系」的充分度量。但是,请看下面的图:
在这里插入图片描述
协方差 = 0.00003

看起来变量之间有很强的关系,对吧?那为什么协方差这么小呢(大约是 0.00003)?这里的关键是要认识到协方差是依赖于比例的。看一下 x 和 y 坐标轴——几乎所有的数据点都落在了 0.015 和 0.04 之间。协方差也将接近于零,因为它是通过从每个个体观察值中减去平均值来计算的。
为了获得更有意义的数字,归一化协方差是非常重要的。方法是将其除以两个向量标准差的乘积
即协方差与标准差的比值。
在这里插入图片描述
公式的分母是变量的标准差,这就意味着计算皮尔森相关性系数时,变量的标准差不能为0(分母不能为0),也就是说你的两个变量中任何一个的值不能都是相同的。如果没有变化,用皮尔森相关系数是没办法算出这个变量与另一个变量之间是不是有相关性的。
就好比我们想研究人跑步的速度与心脏跳动的相关性,如果你无论跑多快,心跳都不变(即心跳这个变量的标准差为0),或者你心跳忽快忽慢的,却一直保持一个速度在跑(即跑步速度这个变量的标准差为0),那我们都无法通过皮尔森相关性系数的计算来判断心跳与跑步速度到底相不相关。
因此它对数据要求比较高:

  1. 实验数据通常假设是成对的来自于正态分布的总体。因为我们在求皮尔森相关性系数以后,通常还会用t检验之类的方法来进行皮尔森相关性系数检验,而 t检验是基于数据呈正态分布的假设的。
  2. 实验数据之间的差距不能太大,或者说皮尔森相关性系数受异常值的影响比较大。比如刚才心跳与跑步的例子,如果这个人突发心脏病,这时候我们会测到一个偏离正常值的心跳(过快或者过慢,甚至为0),如果我们把这个值也放进去进行相关性分析,它的存在会大大干扰计算的结果的。

皮尔森相关系数是衡量线性关联性的程度,p的一个几何解释是其代表两个变量的取值根据均值集中后构成的向量之间夹角的余弦。当两个向量完全相关时,两个向量之间协方差的最大值等于他们的标准差的乘积。这将相关系数限制在-1到+1之间。(相关系数越靠近0,相关性越弱,越靠近1表示正相关)

向量解释的PCC

现在,我们可以利用向量可以看做指向特定方向的「箭头」的事实。

例如,在 2-D 空间中,向量 [1,3] 可以代表一个沿 x 轴 1 个单位,沿 y 轴 3 个单位的箭头。同样,向量 [2,1] 可以代表一个沿 x 轴 2 个单位,沿 y 轴 1 个单位的箭头。
在这里插入图片描述
类似地,我们可以将数据向量表示为 n 维空间中的箭头(尽管当 n > 3 时不能尝试可视化)。

这些箭头之间的角度 ϴ 可以使用两个向量的点积来计算。定义为:
在这里插入图片描述
点积也可以被定义为:
在这里插入图片描述
其中 || x || 是向量 x 的大小(或「长度」)(参考勾股定理),ϴ 是箭头向量之间的角度。我们通过将点积除以两个向量大小的乘积的方法得到 cos(ϴ)。
在这里插入图片描述
cos(ϴ) 的值将根据两个箭头向量之间的角度而发生变化。

  • 当角度为零时(即两个向量指向完全相同的方向),cos(ϴ) 等于 1。
  • 当角度为 -180°时(两个向量指向完全相反的方向),cos(ϴ) 等于 -1。
  • 当角度为 90°时(两个向量指向完全不相关的方向),cos(ϴ) 等于 0。

那么——这正是它的解释!通过将数据视为高维空间中的箭头向量,我们可以用它们之间的角度 ϴ 作为相似度的衡量。该角度 ϴ 的余弦在数学上与皮尔逊相关系数相等。当被视为高维箭头时,正相关向量将指向一个相似的方向。负相关向量将指向相反的方向。而不相关向量将指向直角。

统计显著性

PCC 估计的置信区间不是完全直接的。这是因为 Pearson’s r 被限制在 -1 和 +1 之间,因此不是正态分布的。而估计 PCC,例如 +0.95 之上只有很少的容错空间,但在其之下有大量的容错空间。
幸运的是,有一个解决方案——用一个被称为 Fisher 的 Z 变换的技巧:

  • 像平常一样计算 Pearson’s r 的估计值。
  • 用 Fisher 的 Z 变换将 r→z,用公式 z = arctanh® 完成。
  • 现在计算 z 的标准差。幸运的是,这很容易计算,由 SDz = 1/sqrt(n-3) 给出,其中 n 是样本大小。
  • 选择显著性阈值,alpha,并检查与此对应的平均值有多少标准差。如果取 alpha = 0.95,用 1.96。
  • 通过计算 z+(1.96 × SDz) 找到上限,通过计算 z - (1.96 × SDz) 找到下限。
  • 用 r = tanh(z) 将这些转换回 r。
  • 如果上限和下限都在零的同一侧,则有统计显著性!

当给定一个包含许多潜在相关变量的大数据集时,检查每对的相关性可能很吸引人。这通常被称为「数据疏浚」——在数据集中查找变量之间的任何明显关系。

如果确实采用这种多重比较方法,则应该用适当的更严格的显著性阈值来降低发现错误相关性的风险(即找到纯粹偶然相关的无关变量)。

一种方法是使用 Bonferroni correction。
下一节讲距离相关性
原文参考

这篇关于相关系数从PCC到MIC(1)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/259130

相关文章

麦克风MIC 工作原理以及灵敏度调整

https://blog.csdn.net/Charles0512/article/details/50472467?locationNum=6&fps=1 1、先看MIC电路连接 这是个差分输入的例子,MICP2和MICN2是一对差分信号,经过C156的滤波,输入到MIC两端 MIC两引脚分别是到地和供电,上图的R177参数就关系到MIC输入的灵敏度 2、电阻R177影响灵敏度分析 M

偏相关系数 - sas 实现

目的: 测试单变量与目标变量的线性关系, 在排除其他变量影响的条件下的 相关性。   求偏相关系数的sas 实现: ods graphics on;proc corr data=fish1 plots=scatter(alpha=0.2 0.3);var height weight;partial length weight;run;ods graphics off; 求

数学建模--皮尔逊相关系数、斯皮尔曼相关系数

目录 1.总体的皮尔逊相关系数 2.样本的皮尔逊相关系数 3.对于皮尔逊相关系数的认识 4.描述性统计以及corr函数 ​编辑 5.数据导入实际操作 6.引入假设性检验 6.1简单认识 6.2具体步骤 7.p值判断法 8.检验正态分布 8.1jb检验 8.2威尔克检验:针对于p值进行检验 9.两个求解方法的总结 1.总体的皮尔逊相关系数 我们首先要知道这个

平方Pearson相关系数(SPCC)相关公式的推导

1、PCC及SPCC的定义 最近推导了维纳滤波的公式,其中最重要的是当然是最小平方误差准则(MSE)。但是在很多实际应用中,参考信号是不可知的,因此MSE准则不具有实际意义。为了解决这个问题,我们需要寻找另一个准则替代MSE成为新的代价函数。这就是皮尔逊相关系数(Pearson Correlation Coefficient, PCC)的来历。通过研究发现,相较于MSE,PCC具有许多吸引人的优

Python相关系数导图

🎯要点 量化变量和特征关联绘图对比皮尔逊相关系数、斯皮尔曼氏秩和肯德尔秩汽车性价比相关性矩阵热图大流行病与资产波动城镇化模型预测交通量宝可梦类别特征非线性依赖性捕捉向量加权皮尔逊相关系数量化图像相似性 Python皮尔逊-斯皮尔曼-肯德尔 皮尔逊相关系数 在统计学中,皮尔逊相关系数 是一种用于测量两组数据之间线性相关性的相关系数。它是两个变量的协方差与其标准差乘积的比率;因此,它本质上

secp256k1.vcxproj(20,3): error MSB4019: 未找到导入的项目“C:\Mic rosoft.Cpp.Default.props”。请确认 Import 声明中的路

错误如下截图: 解决方法参考:  https://github.com/nodejs/node-gyp/issues/629#issuecomment-153196245  只需要把 npm install 命令 改成 npm install --msvs_version=2015  重新执行即可!

【JAVA实现】基于皮尔逊相关系数的相似度

以下解释摘自于网上, 简单易懂特地摘抄过来 原链接 皮尔逊相关系数理解有两个角度 1. 按照高中数学水平来理解, 它很简单, 可以看做将两组数据首先做Z分数处理之后, 然后两组数据的乘积和除以样本数Z分数一般代表正态分布中, 数据偏离中心点的距离.等于变量减掉平均数再除以标准差.(就是高考的标准分类似的处理)标准差则等于变量减掉平均数的平方和,再除以样本数,最后再开方. 所以, 根据这

【图像隐藏】基于奇异值分解SVD实现数字水印嵌入提取,相关系数NC附Matlab代码

以下是使用奇异值分解(SVD)实现数字水印嵌入和提取的相关系数(NC)的Matlab代码示例: matlab % 数字水印嵌入 function watermarked_image = embed_watermark(original_image, watermark, strength) % 将原始图像进行SVD分解 [U, S, V] = svd(double(original_image

【HPC】MIC和GPU在高性能计算中的使用

******************************************************************** ** 欢迎转发,注明原文:blog.csdn.net/clark_xu   徐长亮的专栏 ** 谢谢您的支持,欢迎关注微信公众号:clark_blog  *************************************************

Python量化交易学习——Part5:通过相关系数选择对收益率影响比重大的因子(1)

上一节中我们学习了如何通过单因子策略进行股票交易,在实际的股市中,因子(也就是指标)数量往往非常之多,比如市盈率/市净率/净资产收益率等,在使用这些因子的过程中,我们会发现有的因子与收益率为正相关,有的因子为负相关,而有些因子几乎完全无关。 所以我们可以通过计算不同因子与收益率的相关系数,得到可以指导我们进行操作的因子。相关系数最大值为1,当相关系数大于0.5时,就可以认为该指标是有效指标,当相关