统计学 学习笔记 (三)—— 掌握数据的整体状态 数据的变异性

2023-10-13 22:40

本文主要是介绍统计学 学习笔记 (三)—— 掌握数据的整体状态 数据的变异性,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

数据的变异性

    从上节的分析可看到,均值、中值、众数等可以反映数据组的集中趋势。但为了了解数据的变异性,光有这些集中趋势量度是不够的。比如下面的例子:
7, 6, 3, 3, 1
3, 4, 4, 5, 4
4, 4, 4, 4, 4
    从集中趋势来看,这三组的均值都是4。但明显它们之间的数值不一样。
    数据的变异性(散布,离散度)可看作是对不同数值间的差异性的度量。直观来说,上面第一组数据组数值之间相差比较大,而第三组数据组中任意数值之间相等无差异。而当我们在比较“数值之间的差异”时,其实是在把组内的每个数值与一个“特定的数值”进行比较。这个“特定的数值”,通常情况下其实就是均值。从下面反映数据变异性的指标,也能印证这个观点。
    反映数据变异性的常用指标有极差、标准差和方差。当想比较两组数据的变异性时,若两组数据的单位不同,还可以通过变异系数来反映其差别。
    极差 (全距,range):数据组中的最大值减去最小值。是对变异性最笼统的测量。通过极差可以了解数值之间彼此差异的程度,掌握数据组中从最小值到最大值之间的距离。
    标准差 (standard deviation,s):数据组中所有数值与均值的平均距离。表示数据组中变异性的平均数量。公式为[Wikipedia, standard deviation]:


    关于为什么要选择这样一个公式计算标准差,《爱上统计学》和《医用统计方法》中给出了若干观点,个人认为非常清楚明了:
•    如果直观地根据标准差的定义,将每个数值与均值的差值累加起来,通常情况下这个差值都等于0。
•    为了消除差值相加时的负号,先对每个差值进行平方,然后再相加。
•    为了求得差值的平均值,需要对上述得到的结果除以差值的个数。这儿采用n-1而不是n,一方面是为了做更保守的估计(这样计算的标  准差会比实际大一点,不容易因低估差异而出错);另一方面,一般都是在样本而不是总体上来计算标准差,梳理统计理论证明,这样求得的标准差是总体标准差的无偏估计。
•    最后,为了让标准差回到开始时的计算单位,对上面的结果进行开方。
    由于标准差是根据均值来计算的,因此标准差对极值也比较敏感。
    变异系数 (coefficient of variation,CV):标准差对均值的百分比。由于标准差的单位和数据值的单位相同,若想比较两组不同单位的数据的变异性大小,就无法直接比较其标准差了。但若使用变异系数,得到的是无单位的百分比,就可以让不同的数据组相互比较。

 


    方差 (variance):标准差的平方。

这篇关于统计学 学习笔记 (三)—— 掌握数据的整体状态 数据的变异性的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/206336

相关文章

MySQL InnoDB引擎ibdata文件损坏/删除后使用frm和ibd文件恢复数据

《MySQLInnoDB引擎ibdata文件损坏/删除后使用frm和ibd文件恢复数据》mysql的ibdata文件被误删、被恶意修改,没有从库和备份数据的情况下的数据恢复,不能保证数据库所有表数据... 参考:mysql Innodb表空间卸载、迁移、装载的使用方法注意!此方法只适用于innodb_fi

mysql通过frm和ibd文件恢复表_mysql5.7根据.frm和.ibd文件恢复表结构和数据

《mysql通过frm和ibd文件恢复表_mysql5.7根据.frm和.ibd文件恢复表结构和数据》文章主要介绍了如何从.frm和.ibd文件恢复MySQLInnoDB表结构和数据,需要的朋友可以参... 目录一、恢复表结构二、恢复表数据补充方法一、恢复表结构(从 .frm 文件)方法 1:使用 mysq

mysql8.0无备份通过idb文件恢复数据的方法、idb文件修复和tablespace id不一致处理

《mysql8.0无备份通过idb文件恢复数据的方法、idb文件修复和tablespaceid不一致处理》文章描述了公司服务器断电后数据库故障的过程,作者通过查看错误日志、重新初始化数据目录、恢复备... 周末突然接到一位一年多没联系的妹妹打来电话,“刘哥,快来救救我”,我脑海瞬间冒出妙瓦底,电信火苲马扁.

golang获取prometheus数据(prometheus/client_golang包)

《golang获取prometheus数据(prometheus/client_golang包)》本文主要介绍了使用Go语言的prometheus/client_golang包来获取Prometheu... 目录1. 创建链接1.1 语法1.2 完整示例2. 简单查询2.1 语法2.2 完整示例3. 范围值

javaScript在表单提交时获取表单数据的示例代码

《javaScript在表单提交时获取表单数据的示例代码》本文介绍了五种在JavaScript中获取表单数据的方法:使用FormData对象、手动提取表单数据、使用querySelector获取单个字... 方法 1:使用 FormData 对象FormData 是一个方便的内置对象,用于获取表单中的键值

Rust中的BoxT之堆上的数据与递归类型详解

《Rust中的BoxT之堆上的数据与递归类型详解》本文介绍了Rust中的BoxT类型,包括其在堆与栈之间的内存分配,性能优势,以及如何利用BoxT来实现递归类型和处理大小未知类型,通过BoxT,Rus... 目录1. Box<T> 的基础知识1.1 堆与栈的分工1.2 性能优势2.1 递归类型的问题2.2

MySQL 中的服务器配置和状态详解(MySQL Server Configuration and Status)

《MySQL中的服务器配置和状态详解(MySQLServerConfigurationandStatus)》MySQL服务器配置和状态设置包括服务器选项、系统变量和状态变量三个方面,可以通过... 目录mysql 之服务器配置和状态1 MySQL 架构和性能优化1.1 服务器配置和状态1.1.1 服务器选项

Python使用Pandas对比两列数据取最大值的五种方法

《Python使用Pandas对比两列数据取最大值的五种方法》本文主要介绍使用Pandas对比两列数据取最大值的五种方法,包括使用max方法、apply方法结合lambda函数、函数、clip方法、w... 目录引言一、使用max方法二、使用apply方法结合lambda函数三、使用np.maximum函数

Java深度学习库DJL实现Python的NumPy方式

《Java深度学习库DJL实现Python的NumPy方式》本文介绍了DJL库的背景和基本功能,包括NDArray的创建、数学运算、数据获取和设置等,同时,还展示了如何使用NDArray进行数据预处理... 目录1 NDArray 的背景介绍1.1 架构2 JavaDJL使用2.1 安装DJL2.2 基本操

linux进程D状态的解决思路分享

《linux进程D状态的解决思路分享》在Linux系统中,进程在内核模式下等待I/O完成时会进入不间断睡眠状态(D状态),这种状态下,进程无法通过普通方式被杀死,本文通过实验模拟了这种状态,并分析了如... 目录1. 问题描述2. 问题分析3. 实验模拟3.1 使用losetup创建一个卷作为pv的磁盘3.