整理总结:深入浅出统计学——分散性和变异性的量度

2023-10-13 22:40

本文主要是介绍整理总结:深入浅出统计学——分散性和变异性的量度,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

参考资料:电子工业出版社的《深入浅出统计学》

前言

平均数能让我们知道数据集典型值——数据中心所在处,但若要给数据下具体的结论,则还是缺少足够的信息。通过分析各种距和差,来判断数据集离平均值的波动程度。

本篇目录

  • 参考资料:电子工业出版社的《深入浅出统计学》
    • 前言
    • 具体内容
      • 一、全距
      • 二、迷你距
        • 1、四分位距
        • 2、百分位距
      • 三、箱线图
      • 四、方差和标准差
      • 五、标准分
      • 六、图形的鉴别

具体内容

一、全距

1、通过计算全距,我们可以轻易获知数据分散情况。全距可以指出数据的扩展范围,类似于测量数据的宽度。
2、计算方法是通过用数据集中的最大数减去数据集中的最小数。其中最小值称为下界,最小值称为上界。
3、优点是计算十分简单。
4、缺点是仅仅描述了数据的宽度,没有描述数据在上下界之间的分布形态,难以得出数据的真实分布形态。当存在异常值时,可能导致全距过大,即易受异常值的影响。
在这里插入图片描述

二、迷你距

不再度量整个数据集的全距,而是度量中央部分数据集的全距,通过迷你距可以有效忽略异常值的存在。而通过一个统一的方法来对数据集进行划分,将有助于我们确保多批数据集处理时所有都是以相同的方式忽略了异常值。
在这里插入图片描述

1、四分位距

1、计算步骤是通过将数据进行升序排列,选取其中三个特定位置的数据点来四等份数量划分数据集,并从左到右的称三个点叫作下四分位数、中位数和上四分位数,而四分位距的值便是上四分位数减去下四分位数的差。
2、优点是由于剔除掉头尾各1/4的数据——较小和较大的那一批数据,因此自然而然得把作为极大值或极小值的异常值也一同排除在外了。
3、意义是可以对几个数据集进行比较且比较结果不会被异常值扭曲。
在这里插入图片描述
4、下、上四分位数的位置的快速计算方法如下
在这里插入图片描述在这里插入图片描述

2、百分位距

1、如果我们将一批数据分成一百份的话,那么起分割作用数值就被称作百分位数,通常,第K百分位数就是位于数据范围K%处的数值,常用Pk表示。
2、百分位距不太常用,但对于划分名次、排行却很用有,比如一场考试中第90百分位数是50分,那么可以推测出50分高于等于其他90%的人的分数。
在这里插入图片描述
3、计算步骤如下
在这里插入图片描述

三、箱线图

1、箱线图是一种专门显示各种各样的距的图形,它可以用直观的方法比较多批数据的全局、四分位距和中位数。
2、计算步骤如下
在这里插入图片描述在这里插入图片描述

四、方差和标准差

1、方差是量度数据分散性的一种方法,是数值与均值的距离的平方数的平均值。 δ 2 = ∑ ( x − u ) 2 n {\delta}^2=\frac{\sum {(x-u)}^2}{n} δ2=n(xu)2
2、标准差通过与均值的距离来指出分散性,比方差更加直观。 δ = ∑ ( x − u ) 2 n \delta =\sqrt{\frac{\sum {(x-u)}^2}{n}} δ=n(xu)2
3、标准差的计量单位与相应数据的单位一致,即若以“厘米”进行计量,当标准差为1时,表示在典型情况下,数值与均值相距1厘米。
4、当数据均相等时,标准差为0。

五、标准分

1、通过标准分使多批数据集转化成一种统一通用的分布,进而可以对不同数据集的数据进行比较,而这些不同数据集特性可以互不相同,比如各均值和标准差各不相同。 z = x − u δ z=\frac{x-u}{\delta} z=δxu
2、通过标准分来判断球员在自身历史数据中发挥的如何,是超长发挥还是发挥失利,同时可以判断两个球员的发挥进行比较。在这里插入图片描述

六、图形的鉴别

左图相较于右图而言更加宽阔,这表明其数据大多与均值相距甚远,左图对应的球员1发挥的稳定性不如球员2,具备更多的不可确定性,难以预测他在将来某一场球赛的发挥。
在这里插入图片描述

这篇关于整理总结:深入浅出统计学——分散性和变异性的量度的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/206337

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

数论入门整理(updating)

一、gcd lcm 基础中的基础,一般用来处理计算第一步什么的,分数化简之类。 LL gcd(LL a, LL b) { return b ? gcd(b, a % b) : a; } <pre name="code" class="cpp">LL lcm(LL a, LL b){LL c = gcd(a, b);return a / c * b;} 例题:

git使用的说明总结

Git使用说明 下载安装(下载地址) macOS: Git - Downloading macOS Windows: Git - Downloading Windows Linux/Unix: Git (git-scm.com) 创建新仓库 本地创建新仓库:创建新文件夹,进入文件夹目录,执行指令 git init ,用以创建新的git 克隆仓库 执行指令用以创建一个本地仓库的

二分最大匹配总结

HDU 2444  黑白染色 ,二分图判定 const int maxn = 208 ;vector<int> g[maxn] ;int n ;bool vis[maxn] ;int match[maxn] ;;int color[maxn] ;int setcolor(int u , int c){color[u] = c ;for(vector<int>::iter

整数Hash散列总结

方法:    step1  :线性探测  step2 散列   当 h(k)位置已经存储有元素的时候,依次探查(h(k)+i) mod S, i=1,2,3…,直到找到空的存储单元为止。其中,S为 数组长度。 HDU 1496   a*x1^2+b*x2^2+c*x3^2+d*x4^2=0 。 x在 [-100,100] 解的个数  const int MaxN = 3000

状态dp总结

zoj 3631  N 个数中选若干数和(只能选一次)<=M 的最大值 const int Max_N = 38 ;int a[1<<16] , b[1<<16] , x[Max_N] , e[Max_N] ;void GetNum(int g[] , int n , int s[] , int &m){ int i , j , t ;m = 0 ;for(i = 0 ;

go基础知识归纳总结

无缓冲的 channel 和有缓冲的 channel 的区别? 在 Go 语言中,channel 是用来在 goroutines 之间传递数据的主要机制。它们有两种类型:无缓冲的 channel 和有缓冲的 channel。 无缓冲的 channel 行为:无缓冲的 channel 是一种同步的通信方式,发送和接收必须同时发生。如果一个 goroutine 试图通过无缓冲 channel

9.8javaweb项目总结

1.主界面用户信息显示 登录成功后,将用户信息存储在记录在 localStorage中,然后进入界面之前通过js来渲染主界面 存储用户信息 将用户信息渲染在主界面上,并且头像设置跳转,到个人资料界面 这里数据库中还没有设置相关信息 2.模糊查找 检测输入框是否有变更,有的话调用方法,进行查找 发送检测请求,然后接收的时候设置最多显示四个类似的搜索结果

java面试常见问题之Hibernate总结

1  Hibernate的检索方式 Ø  导航对象图检索(根据已经加载的对象,导航到其他对象。) Ø  OID检索(按照对象的OID来检索对象。) Ø  HQL检索(使用面向对象的HQL查询语言。) Ø  QBC检索(使用QBC(Qurey By Criteria)API来检索对象。 QBC/QBE离线/在线) Ø  本地SQL检索(使用本地数据库的SQL查询语句。) 包括Hibern