整理总结:深入浅出统计学——分散性和变异性的量度

2023-10-13 22:40

本文主要是介绍整理总结:深入浅出统计学——分散性和变异性的量度,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

参考资料:电子工业出版社的《深入浅出统计学》

前言

平均数能让我们知道数据集典型值——数据中心所在处,但若要给数据下具体的结论,则还是缺少足够的信息。通过分析各种距和差,来判断数据集离平均值的波动程度。

本篇目录

  • 参考资料:电子工业出版社的《深入浅出统计学》
    • 前言
    • 具体内容
      • 一、全距
      • 二、迷你距
        • 1、四分位距
        • 2、百分位距
      • 三、箱线图
      • 四、方差和标准差
      • 五、标准分
      • 六、图形的鉴别

具体内容

一、全距

1、通过计算全距,我们可以轻易获知数据分散情况。全距可以指出数据的扩展范围,类似于测量数据的宽度。
2、计算方法是通过用数据集中的最大数减去数据集中的最小数。其中最小值称为下界,最小值称为上界。
3、优点是计算十分简单。
4、缺点是仅仅描述了数据的宽度,没有描述数据在上下界之间的分布形态,难以得出数据的真实分布形态。当存在异常值时,可能导致全距过大,即易受异常值的影响。
在这里插入图片描述

二、迷你距

不再度量整个数据集的全距,而是度量中央部分数据集的全距,通过迷你距可以有效忽略异常值的存在。而通过一个统一的方法来对数据集进行划分,将有助于我们确保多批数据集处理时所有都是以相同的方式忽略了异常值。
在这里插入图片描述

1、四分位距

1、计算步骤是通过将数据进行升序排列,选取其中三个特定位置的数据点来四等份数量划分数据集,并从左到右的称三个点叫作下四分位数、中位数和上四分位数,而四分位距的值便是上四分位数减去下四分位数的差。
2、优点是由于剔除掉头尾各1/4的数据——较小和较大的那一批数据,因此自然而然得把作为极大值或极小值的异常值也一同排除在外了。
3、意义是可以对几个数据集进行比较且比较结果不会被异常值扭曲。
在这里插入图片描述
4、下、上四分位数的位置的快速计算方法如下
在这里插入图片描述在这里插入图片描述

2、百分位距

1、如果我们将一批数据分成一百份的话,那么起分割作用数值就被称作百分位数,通常,第K百分位数就是位于数据范围K%处的数值,常用Pk表示。
2、百分位距不太常用,但对于划分名次、排行却很用有,比如一场考试中第90百分位数是50分,那么可以推测出50分高于等于其他90%的人的分数。
在这里插入图片描述
3、计算步骤如下
在这里插入图片描述

三、箱线图

1、箱线图是一种专门显示各种各样的距的图形,它可以用直观的方法比较多批数据的全局、四分位距和中位数。
2、计算步骤如下
在这里插入图片描述在这里插入图片描述

四、方差和标准差

1、方差是量度数据分散性的一种方法,是数值与均值的距离的平方数的平均值。 δ 2 = ∑ ( x − u ) 2 n {\delta}^2=\frac{\sum {(x-u)}^2}{n} δ2=n(xu)2
2、标准差通过与均值的距离来指出分散性,比方差更加直观。 δ = ∑ ( x − u ) 2 n \delta =\sqrt{\frac{\sum {(x-u)}^2}{n}} δ=n(xu)2
3、标准差的计量单位与相应数据的单位一致,即若以“厘米”进行计量,当标准差为1时,表示在典型情况下,数值与均值相距1厘米。
4、当数据均相等时,标准差为0。

五、标准分

1、通过标准分使多批数据集转化成一种统一通用的分布,进而可以对不同数据集的数据进行比较,而这些不同数据集特性可以互不相同,比如各均值和标准差各不相同。 z = x − u δ z=\frac{x-u}{\delta} z=δxu
2、通过标准分来判断球员在自身历史数据中发挥的如何,是超长发挥还是发挥失利,同时可以判断两个球员的发挥进行比较。在这里插入图片描述

六、图形的鉴别

左图相较于右图而言更加宽阔,这表明其数据大多与均值相距甚远,左图对应的球员1发挥的稳定性不如球员2,具备更多的不可确定性,难以预测他在将来某一场球赛的发挥。
在这里插入图片描述

这篇关于整理总结:深入浅出统计学——分散性和变异性的量度的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/206337

相关文章

java常见报错及解决方案总结

《java常见报错及解决方案总结》:本文主要介绍Java编程中常见错误类型及示例,包括语法错误、空指针异常、数组下标越界、类型转换异常、文件未找到异常、除以零异常、非法线程操作异常、方法未定义异常... 目录1. 语法错误 (Syntax Errors)示例 1:解决方案:2. 空指针异常 (NullPoi

Mysql中深分页的五种常用方法整理

《Mysql中深分页的五种常用方法整理》在数据量非常大的情况下,深分页查询则变得很常见,这篇文章为大家整理了5个常用的方法,文中的示例代码讲解详细,大家可以根据自己的需求进行选择... 目录方案一:延迟关联 (Deferred Join)方案二:有序唯一键分页 (Cursor-based Paginatio

Java反转字符串的五种方法总结

《Java反转字符串的五种方法总结》:本文主要介绍五种在Java中反转字符串的方法,包括使用StringBuilder的reverse()方法、字符数组、自定义StringBuilder方法、直接... 目录前言方法一:使用StringBuilder的reverse()方法方法二:使用字符数组方法三:使用自

Python依赖库的几种离线安装方法总结

《Python依赖库的几种离线安装方法总结》:本文主要介绍如何在Python中使用pip工具进行依赖库的安装和管理,包括如何导出和导入依赖包列表、如何下载和安装单个或多个库包及其依赖,以及如何指定... 目录前言一、如何copy一个python环境二、如何下载一个包及其依赖并安装三、如何导出requirem

Mysql中InnoDB与MyISAM索引差异详解(最新整理)

《Mysql中InnoDB与MyISAM索引差异详解(最新整理)》InnoDB和MyISAM在索引实现和特性上有差异,包括聚集索引、非聚集索引、事务支持、并发控制、覆盖索引、主键约束、外键支持和物理存... 目录1. 索引类型与数据存储方式InnoDBMyISAM2. 事务与并发控制InnoDBMyISAM

StarRocks索引详解(最新整理)

《StarRocks索引详解(最新整理)》StarRocks支持多种索引类型,包括主键索引、前缀索引、Bitmap索引和Bloomfilter索引,这些索引类型适用于不同场景,如唯一性约束、减少索引空... 目录1. 主键索引(Primary Key Index)2. 前缀索引(Prefix Index /

Rust格式化输出方式总结

《Rust格式化输出方式总结》Rust提供了强大的格式化输出功能,通过std::fmt模块和相关的宏来实现,主要的输出宏包括println!和format!,它们支持多种格式化占位符,如{}、{:?}... 目录Rust格式化输出方式基本的格式化输出格式化占位符Format 特性总结Rust格式化输出方式

Python中连接不同数据库的方法总结

《Python中连接不同数据库的方法总结》在数据驱动的现代应用开发中,Python凭借其丰富的库和强大的生态系统,成为连接各种数据库的理想编程语言,下面我们就来看看如何使用Python实现连接常用的几... 目录一、连接mysql数据库二、连接PostgreSQL数据库三、连接SQLite数据库四、连接Mo

Git提交代码详细流程及问题总结

《Git提交代码详细流程及问题总结》:本文主要介绍Git的三大分区,分别是工作区、暂存区和版本库,并详细描述了提交、推送、拉取代码和合并分支的流程,文中通过代码介绍的非常详解,需要的朋友可以参考下... 目录1.git 三大分区2.Git提交、推送、拉取代码、合并分支详细流程3.问题总结4.git push

Kubernetes常用命令大全近期总结

《Kubernetes常用命令大全近期总结》Kubernetes是用于大规模部署和管理这些容器的开源软件-在希腊语中,这个词还有“舵手”或“飞行员”的意思,使用Kubernetes(有时被称为“... 目录前言Kubernetes 的工作原理为什么要使用 Kubernetes?Kubernetes常用命令总