统计学三大相关系数之斯皮尔曼(spearman)相关系数

2023-10-21 05:18

本文主要是介绍统计学三大相关系数之斯皮尔曼(spearman)相关系数,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

斯皮尔曼相关性系数,通常也叫斯皮尔曼秩相关系数。“秩”,可以理解成就是一种顺序或者排序,那么它就是根据原始数据的排序位置进行求解,这种表征形式就没有了求皮尔森相关性系数时那些限制。下面来看一下它的计算公式:

 

统计学之三大相关性系数(pearson、spearman、kendall)
计算过程就是:首先对两个变量(X, Y)的数据进行排序,然后记下排序以后的位置(X’, Y’),(X’, Y’)的值就称为秩次,秩次的差值就是上面公式中的di,n就是变量中数据的个数,最后带入公式就可求解结果。举个例子吧,假设我们实验的数据如下:

 

统计学之三大相关性系数(pearson、spearman、kendall)
带入公式,求得斯皮尔曼相关性系数:ρs= 1-6*(1+1+1+9)/6*35=0.657

而且,即便在变量值没有变化的情况下,也不会出现像皮尔森系数那样分母为0而无法计算的情况。另外,即使出现异常值,由于异常值的秩次通常不会有明显的变化(比如过大或者过小,那要么排第一,要么排最后),所以对斯皮尔曼相关性系数的影响也非常小!

python代码实现:

import pandas as pd
df = pd.DataFrame({'A':[5,91,3],'B':[90,15,66],'C':[93,27,3]})
print(df.corr())
print(df.corr('spearman'))
print(df.corr('kendall'))
df2 = pd.DataFrame({'A':[7,93,5],'B':[88,13,64],'C':[93,27,3]})
print(df2.corr())
print(df2.corr('spearman'))
print(df2.corr('kendall'))

spearman相关系数和pearson相关系数选择:

1.连续数据,正态分布,线性关系,用pearson相关系数是最恰当,当然用spearman相关系数也可以,
  就是效率没有pearson相关系数高。
2.上述任一条件不满足,就用spearman相关系数,不能用pearson相关系数。
3.两个定序测量数据之间也用spearman相关系数,不能用pearson相关系数。

参考:https://blog.csdn.net/qq_30138291/article/details/79801777

http://blog.sina.com.cn/s/blog_69e75efd0102wmd2.html

这篇关于统计学三大相关系数之斯皮尔曼(spearman)相关系数的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/252181

相关文章

JVM、JRE和 JDK:理解Java开发的三大核心组件

Java是一门跨平台的编程语言,它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中,JVM(Java虚拟机)、JRE(Java运行时环境)和JDK(Java开发工具包)是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别,帮助你更好地理解Java的运行机制。 1. JVM:Java虚拟机(Java Virtual Machine) 什么是JVM? JVM,即

接口自动化三大经典难题

目录 一、接口项目不生成token怎么解决关联问题 1. Session机制 2. 基于IP或设备ID的绑定 3. 使用OAuth或第三方认证 4. 利用隐式传递的参数 5. 基于时间戳的签名验证 二、接口测试中网络问题导致无法通过怎么办 1. 重试机制 2. 设置超时时间 3. 使用模拟数据 4. 网络问题的预检测 5. 日志记录与错误分析 6. 切换网络环境 7.

设计表时的三大范式(MySQL)

设计表时的三大范式 什么是范式第一范式第二范式不满足第二范式的缺点数据冗余插入异常更新异常删除异常 第三范式 什么是范式 在表的设计中,范式是一种设计规范,用于更好的组织和管理数据。 设计数据表时的范式有第一范式1NF、第二范式2NF、第三范式3NF等等,一般满足三大范式即可 第一范式 第一范式规定:数据表中的字段不可以再次拆分 只有满足了第一范式,才称得上是关系型数据

统计学(贾俊平)学习笔记--第三章、 数据预处理

数据预处理无论是从数据分类分析、数据信息抽取、数据挖掘、模型建立等方面都是需要的,也是数据工作者最开始招手做的,而统计学(贾俊平)中从理论的角度讲解了数据预处理的概念和方法吗,在此将主要要点列举如下,供有心人参考学些。       数据的预处理是在对数据分类或分组之前所做的必要处理,内容包括数据的审核、筛选、排序等。          审核就是检查数据中是否有错误。从完整性和准

龙蜥社区首推 AI 原生操作系统路线,三大重磅计划协同生态布局未来

近日,2024 龙蜥操作系统大会(OpenAnolis Conference)在北京圆满召开,此次大会由中国计算机学会开源发展委员会、中关村科学城委员会、海淀区委网信办、中国开源软件推进联盟指导,龙蜥社区主办,阿里云、浪潮信息、Intel、中兴通讯、Arm、中科方德等 24 家理事单位共同承办,主题为“进化·重构·赴未来”。北京市委网信办、海淀区委网信办等领导莅临指导,中国工程院院士、浙江大学信息

《C++中的面向对象编程三大特性:封装、继承与多态》

在 C++编程的广阔世界中,面向对象编程(Object-Oriented Programming,OOP)的三大特性——封装、继承和多态,犹如三把强大的利器,帮助程序员构建出高效、可维护和可扩展的软件系统。本文将深入探讨如何在 C++中实现这三大特性,并通过具体的代码示例展示它们的强大之处。 一、封装(Encapsulation) 封装是将数据和操作数据的方法封装在一个类中,以实现信息隐藏和数

GateWay三大案例组件

一、局部过滤器接口耗时(LogTime) 命名规则:以GatewayFilterFactory结尾编写接口耗时过滤器 @Slf4j@Componentpublic class LogTimeGatewayFilterFactory extends AbstractNameValueGatewayFilterFactory {private static long timeSpan = 0;

Android-Universal-Image-Loader三大组件DisplayImageOptions、ImageLoader、ImageLoaderConfiguration详解 一、介绍

一、介绍  Android-Universal-Image-Loader是一个开源的UI组件程序,该项目的目的是提供一个可重复使用的仪器为异步图像加载,缓存和显示。所以,如果你的程序里需要这个功能的话,那么不妨试试它。因为已经封装好了一些类和方法。我们 可以直接拿来用了。而不用重复去写了。其实,写一个这方面的程序还是比较麻烦的,要考虑多线程缓存,内存溢出等很多方面。 二、具体使用 一个好的类库的

Linux 虚拟网络三大基石:Namespace、Veth pair 与 Bridge

引言 在 Linux 的世界里,虚拟网络技术是系统管理、云计算和容器化不可或缺的一部分。今天,我们将深入探讨构建这些虚拟网络的三大基石:Namespace、Veth 对和 Bridge,揭示它们如何在背后默默支撑起你的网络环境。 Namespace:隔离与抽象的艺术 当我们谈起 Namespace,实际上是在讨论一种革命性的资源隔离机制。它让每个进程仿佛拥有一套独立的系统资源。通过将全局资

2024年高教社杯数学建模竞赛须知——三大注意事项

为了让大家在最后一天更好的备注国赛,我们今日将结合2024年国赛的新规给大家讲解国赛中三大主要的事项: 论文模版问题——国赛乃至大部分数模竞赛从来没有给出任何的论文模版,大部分的模版均为一次又一次学生、老师内部传播形成。资料使用问题——赛中会给大家提供一篇稳省一冲国奖的资料,资料的使用说明论文最终自建库检测、期刊库检测、AIGC检测——赛中大家一定就有所借鉴、有所参考、并一定程度的使用AI,我将