通透!一万字的统计学知识大梳理~

2024-03-26 18:40

本文主要是介绍通透!一万字的统计学知识大梳理~,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

来源:PMCAFF,作者:大山里人


大家好,我是小z

今天给大家分享一篇独具韵味的统计学知识梳理

道德经云:”道生一,一生二,二生三,三生万物“。学习知识亦是如此,一个概念衍生出两个概念,两个概念演化出更小的子概念,接着衍生出整个知识体系。

笔者结合自己对统计学和概率论知识的理解写了这篇文章,有以下几个目标。

  • 目标一:构建出可以让人理解的知识架构,让读者对这个知识体系一览无余

  • 目标二:尽l量阐述每个知识在数据分析工作中的使用场景及边界条件

  • 目标三:为读者搭建从“理论”到“实践"的桥梁

概述


你的“对象” 是谁?

此对象非彼“对象”,我们学习“概率和统计学”目的在于应用到对于“对象”的研究中,笔者将我们要研究的“对象”按照维度分为了两大类。

一维:就是当前摆在我们面前的“一组”,“一批”,哪怕是“一坨”数据。这里我们会用到统计学的知识去研究这类对象。

二维:就是研究某个“事件”,笔者认为事件是依托于“时间轴”存在的,过去是否发生,现在是可能会出现几种情况,每种情况未来发生的可能性有多大?这类问题是属于概率论的范畴。

因此,我们在做数据分析的研究前,先弄清我们研究的对象属于哪类范畴,然后在按着这个分支检索自己该用到的知识或方法来解决问题。

分析就像在给 “爱人” 画肖像

从外观的角度描述一个姑娘,一般是面容怎么样?身段怎么样?两个维度去描述。就像画一幅肖像画,我们的研究“对象”在描述性分析中也是通过两个维度去来描述即,“集中趋势---代表值”,“分散和程度”。

看到这几个概念是不是就很熟悉了?笔者认为一个描述性的分析就是从这两个维度来说清楚你要研究的对象是什么样子?至于从哪些特征开始说呢?就是常用的概念“均值”,“方差”之类的。下面我们进入正题,笔者将详细阐述整个知识架构。

一. 对“数据”的描述性分析

数据分析中最常规的情况,比如你手上有一组,一批或者一坨数据,数据分析的过程就是通过“描述”从这些数据中获取的信息,通常可以从两个维度去描述:

1. 集中趋势量度:为这批数据找到它们的“代表”

均值(μ)

均值的局限性

均值是最常用的平均数之一,但是它的局限性在于“若用均值描述的数据中存在异常值的情况,会产生偏差” ;例如下面一组数据就不太适合用均值来代表

这5个人的年龄均值是:31.2岁

很显然,在这组数据中,大部分人的年龄是10几岁的青少年,但是E的年龄是100岁为异常值,用均值来描述他们的年龄是31.2岁,很显然用均值作为描述这组数据是不合适的,那么我们该如何准确的表征这组数据呢???

中位数

中位数,又称中点数,中值。是按顺序排列的一组数据中居于中间位置的数。

中位数的局限

回到上一个例子,若用中位数来表征这组数据的平均年龄,就变得更加合理,中位数15。

那么我们在看一下下面一组数据,中位数的表现又如何?

中位数:45

这组数据的中位数为:45,但是中位数45并不能代表这组数据。

因为这组数据分为两批,两批的差异很大。那么如何处理这类数据呢?接下来介绍第三位平均数。

众数

众数是样本观测值在频数分布表中频数最多的那一组的组中值。

平均数可以表征一批数据的典型值,但是仅凭平均数还不能给我们提供足够的信息,平均数无法表征一组数据的分散程度。

2. 分散性与变异性的量度

(全距,迷你距,四分位数,标准差,标准分)

全距=max-min

全距也叫“极差”极差。它是一组数据中最大值与最小值之差。可以用于度量数据的分散程度。

全距的局限性

全距虽然求解方便快捷,但是它的局限性在于“若数据中存在异常值的情况,会产生偏差。为了摆脱异常值带来的干扰,比如我们看一下下面的两组数据。只是增加了一个异常值,两组数据的全距产生了巨大的差异。

四分位数

所有观测值从小到大排序后四等分,处于三个分割点位置的数值就是四分位数:Q1,Q2和Q3。

  • Q1:第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。

  • Q2:第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。

  • Q3:第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。

迷你距 也叫“四分位距”

迷你距。它是一组数据中较小四分位数与较大四分位数之差。

即:迷你距= 上四分位数 - 下四分位数

迷你距可以反映中间50%的数据,如果出现了极大或极小的异常值,将会被排除在中心数据50%以外。因此使用迷你距可以剔除数据中异常值。

全距,四分位距,箱形图可以表征一组数据极大和极小值之间的差值跨度,一定程度上反应了数据的分散程度,但是却无法精准的告诉我们,这些数值具体出现的频率,那么我们该如何表征呢?

我们度量每批数据中数值的“变异”程度时,可以通过观察每个数据与均值的距离来确定,各个数值与均值距离越小,变异性越小数据越集中,距离越大数据约分散,变异性越大。方差和标准差就是这么一对儿用于表征数据变异程度的概念。

方差

方差是度量数据分散性的一种方法,是数值与均值的距离的平方数的平均值。

标准差

标准差为方差的开方。

通过方差和标准差我们现在可以表征一组数据的数值的变异程度。那么对于拥有不同均值和不同标准差的多个数据集我们如何比较呢?

标准分——表征了距离均值的标准差的个数

标准分为我们提供了解决方法,当比较均值和标准差各不相同的数据集时,我们可以把这些数值视为来自同一个标准的数据集,然后进行比较。标准分将把每一个数据集转化为通用的分布形态,进行比较。

标准分还有个重要的作用,它可以把正态分布变为标准正态分布,后文会有介绍。

第一部分小结

1. 描述一批数据,通过集中趋势分析,找出其“代表值” ;通过分散和变异性的描述,查看这批数据的分散程度。

2. 集中趋势参数:均值,中位数,众数

3. 分散性和变异性参数 :  全距,四分位距,方差,标准差,标准分

二、关于“事件”的研究分析概率论

1. 一个事件的情况

为了让读者更好理解,笔者概率论中最核心的概念以及概念之间彼此的关系绘制成了下图,那么接下来笔者开始“讲故事”了。

  • 事件:有概率可言的一件事情,一个事情可能会发生很多结果,结果和结果之间要完全穷尽,相互独立。

  • 概率:每一种结果发生的可能性。所有结果的可能性相加等于1,也就是必然!!!

  • 概率分布:我们把事件和事件所对应的概率组织起来,就是这个事件的概率分布。

概率分布可以是图象,也可以是表格。如下图1和表2都可以算是概率分布

期望:表征了综合考虑事情的各种结果和结果对应的概率后这个事情的综合影响值。(一个事件的期望,就是代表这个事件的“代表值”,类似于统计里面的均值)

方差:表征了事件不同结果之间的差异或分散程度。

2. 细说分布

理想很丰满,现实很骨感。真实的生活中别说去算一个事件的期望,即使把这个事件的概率分布能够表述完整,每个事件对应的概率值得出来就已经是一件了不起的事情了。

因此,为了能更快更准确的求解出事件的概率分布,当某些事件,满足某些特定的条件,那么我们可以直接根据这些条件,来套用一些固定的公式,来求解这些事件的分布,期望以及方差。

“离散型”数据和“连续性”数据差异

在我们展开分布的知识之前,先补充一个预备知识,什么是离散数据,什么是连续数据,它们二者之间有什么差异?

  • 离散数据: 一个粒儿,一个粒儿的数据就是离散型数据。

  • 连续数据: 一个串儿,一个串儿的数据就是连续型数据。

好啦,开个玩笑!!!别打我,下面分享干货!!!

其实上述描述并没有错误,离散型和连续型数据是一对相对概念,同样的数据既可能是离散型数据,又可能是连续型数据。判别一个数据是连续还是离散最本质的因素在于,一个数据组中数据总体的量级和数据粒度之间的差异。差异越大越趋近于连续型数据,差异越小越趋近于离散型数据。

举个例子:

人这个单位,对于一个家庭来说,就离散型数据,一个家庭可能有 3个人,4个人,5个人....等等。

对于一个国家来说,就是连续型数据,我们的国家有14亿人口,那么以个人为单位在这个量级的数据群体里就是连续型数据。

清楚了离散型和连续型数据的差异,我们接下来一块科普这几种常用的特殊分布。

离散型分布

离散数据的概率分布,就是离散分布。这三类离散型的分布,在“0-1事件”中可以采用,就是一个事只有成功和失败两种状态。

连续型分布

连续型分布本质上就是求连续的一个数据段概率分布。

正态分布

  • f(x)----是该关于事件X的概率密度函数

  • μ --- 均值

  • σ^2 ---方差

  • σ ---标准差

绿色区域的面积 ---该区间段的概率

正态分布概率的求法

  • step1 --- 确定分布和范围 ,求出均值和方差

  • step2 --- 利用标准分将正态分布转化为标准正态分布 (还记得 第一部分的标准分吗?)

  • step3 ---查表找概率

离散型分布  →  正态分布 (离散分布转化为正态分布)

精彩的地方在这里,笔者已经阐述了连续型数据和离散型数据是一对相对的概念,那么这就意味着在某种“边界”条件下,离散型分布和连续型分布之间是可以相互转化的。进而简化概率分布的计算。这里笔者不在偷懒直接上皂片了(编公式快吐了!!!!)

3. 多个事件的情况:“概率树”和“贝叶斯定理”

多个事件就要探讨事件和事件之间的关系

  • 对立事件:如果一个事件,A’包含所有A不包含的可能性,那么我们称A’和A是互为对立事件

  • 穷尽事件:如何A和B为穷尽事件,那么A和B的并集为1

  • 互斥事件:如何A和B为互斥事件,那么A和B没有任何交集

  • 独立事件:如果A件事的结果不会影响B事件结果的概率分布那么A和B互为独立事件。

例子:10个球,我随机抽一个,放回去还是10个球,第二次随机抽,还是10选1,那么第一次和第二次抽球的事件就是独立的。

相关事件:如果A件事的结果会影响B事件结果的概率分布那么A和B互为独立事件。

例子:10个球,我随机抽一个,不放回去还是10个球,第二次随机抽是9选1,那么第一次和第二次抽球的事件就是相关的。

条件概率(条件概率,概率树,贝叶斯公式)

条件概率代表:已知B事件发生的条件下,A事件发生的概率

概率树 --- 一种描述条件概率的图形工具。

假设有个甜品店,顾客买甜甜圈的概率是3/4 ;不买甜甜圈直接买咖啡的概率是1/3 ;同时买咖啡和甜甜圈概率是9/20。

从图中我们可以发现以下两个信息:

1. 顾客买不买甜甜圈可以影响喝不喝咖啡的概率,所以事件甜甜圈与事件咖啡是一组相关事件

2. 概率树每个层级分支的概率和都是1

贝叶斯公式 ----提供了一种计算逆条件概率的方法

贝叶斯公式用于以下场景,当我们知道A发生的前提下B发生的概率,我们可以用贝叶斯公式来推算出B发生条件下A发生的概率。

第二部分小结

1.  事件,概率,概率分布之间的关系

2.  期望,方差的意义

3. 连续型数据和离散型数据之间的区别和联系

4. 几何分布,二项分布,泊松分布,正态分布,标准正态分布

5. 离散分布和正态分布可以转化

6. 多个事件之间的关系,相关事件和独立事件,条件概率和贝叶斯公式

三、关于“小样本”预测“大总体”

现实生活中,总体的数量如果过于庞大我们无法获取总体中每个数据的数值,进行对总体的特征提取进而完成分析工作。那么接下来就用到了本章节的知识。

1. 抽取样本

  • 总体:你研究的所有事件的集合

  • 样本:总体中选取相对较小的集合,用于做出关于总体本身的结论

  • 偏倚:样本不能代表目标总体,说明该样本存在偏倚

  • 简单随机抽样: 随机抽取单位形成样本。

  • 分成抽样: 总体分成几组或者几层,对每一层执行简单随机抽样

  • 系统抽样:选取一个参数K,每到第K个抽样单位,抽样一次。

2. 预测总体(点估计预测,区间估计预测)

点估计量--- 一个总参数的点估计量就是可用于估计总体参数数值的某个函数或算式。

场景1: 样本无偏的情况下,已知样本,预测总体的均值,方差。

(1) 样本的均值 = 总体的估算均值(总体均值的点估计量)  ≈ 总体实际均值(误差是否可接受)

(2)总体方差     估计总体方差 

场景2:已知总体,研究抽取样本的概率分布

比例抽样分布:考虑从同一个总体中取得所有大小为n的可能样本,由这些样本的比例形成一个分布,这就是“比例抽样分布”。样本的比例就是随机变量。

举个栗子:已知所有的糖球(总体)中红色糖球比例为0.25。从总体中随机抽n个糖球,我们可以求用比例抽样分布求出这n个糖球中对应红球各种可能比例的概率。

样本均值分布:考虑同一个总体中所有大小为n的可能样本,然后用这个样本的均值形成分布,该分布就是“样本均值分布” ,样本的均值就是随机变量。

中心极限定理:如果从一个非正态总体X中抽出一个样本,且样本极大(至少大于30),则图片.png的分布近似正态分布。

区间估计量--- 点估计量是利用一个样本对总体进行估计,区间估计是利用样本组成的一段区间对样本进行估计。

举个栗子:今天下午3点下雨;今天下午3点到4点下雨。如果我们的目的是为了尽可能预测正确,你会使用那句话术?

如何求置信区间?(这里笔者讲一下思路,不画图码公式了,读者有兴趣可以查阅一下教材)

求置信区间简便公式(直接上皂片)

关于C值参数:置信水平 90% C=1.64 , 95% C=1.96 , 99% C=2.58

待补充知识一(t分布)

我们之前的区间预测有个前提,就是利用了中心极限定理,当样本量足够大的时候(通常大于30),均值抽样分布近似于正态分布。若样本量不够大呢?这是同样的思路,只是样本均值分布将近似于另一种分布处理更加准确,那就是t分布。这里笔者直接放张图,不做拓展了。

待补充知识二(卡方分布)----注意待补充不代表不重要,是笔者水平有限,目前还不能用简单的语言概述其中的精髓。

卡方分布的定义

若n个相互独立的随机变量ξ、ξ、……、ξn ,均服从标准正态分布,则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布。

卡方分布的应用场景

  • 用途1:用于检验拟合优度。也就是检验一组给定的数据与指定分布的吻合程度;

  • 用途2:检验两个变量的独立性。通过卡方分布可以检查变量之间是否存在某种关联:

3. 验证结果(假设检验)

假设检验是一种方法用于验证结果是否真实可靠。具体操作分为六个步骤。

两类错误---即使我们进行了“假设检验”依然无法保证决策是百分百正确的,会出现两类错误

  • 第一类错误: 拒绝了一个正确的假设,错杀了一个好人

  • 第二类错误:接收了一个错误的假设,放过了一个坏人

第三部分小结:

1.  无偏抽样

2.  点估计量预测(已知样本预测总体,已知总体预测样本)

3. 区间估计量预测(求置信区间)

4. 假设检验

四、相关与回归(y=ax+b)

这里介绍的相关和回归是关于二维双变量的最简单最实用的线性回归,非线性回归这里不暂不做拓展。

散点图:显示出二变量数据的模式

相关性:变量之间的数学关系。

线性相关性:两个变量之间呈现的直线相关关系。

最佳拟合直线:与数据点拟合程度最高的线。(即每个因变量的值与实际值的误差平方和最小)

误差平方和SSE:

线性回归法:求最佳拟合直线的方法(y=ax+b),就是求参数a和b

斜率a公式:

b公式:

相关系数r:表征描述的数据与最佳拟合线偏离的距离。(r=-1完全负相关,r=1完全正相关,r=0不相关)

r公式:

结束语

笔者这里梳理了统计与概率学最基础的概念知识,尽量阐述清楚这些概念知识之间关联的关系,以及应用的场景。底层概念是上层应用的基础,当今浮躁的“机器学习”,“神经网络”,“AI自适应”这些高大上的关键字满天飞。笔者认为踏踏实实的把“基础”打扎实,才是向上发展的唯一途径。

●一文带你回顾10大数据泄露事件!

●12000+字超详细 SQL 语法速成!

后台回复“入群”即可加入小z干货交流群

这篇关于通透!一万字的统计学知识大梳理~的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/849494

相关文章

Java架构师知识体认识

源码分析 常用设计模式 Proxy代理模式Factory工厂模式Singleton单例模式Delegate委派模式Strategy策略模式Prototype原型模式Template模板模式 Spring5 beans 接口实例化代理Bean操作 Context Ioc容器设计原理及高级特性Aop设计原理Factorybean与Beanfactory Transaction 声明式事物

sqlite3 相关知识

WAL 模式 VS 回滚模式 特性WAL 模式回滚模式(Rollback Journal)定义使用写前日志来记录变更。使用回滚日志来记录事务的所有修改。特点更高的并发性和性能;支持多读者和单写者。支持安全的事务回滚,但并发性较低。性能写入性能更好,尤其是读多写少的场景。写操作会造成较大的性能开销,尤其是在事务开始时。写入流程数据首先写入 WAL 文件,然后才从 WAL 刷新到主数据库。数据在开始

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

梳理2024年,螺丝钉们爱用的3款剪辑软件

这年头,视频到处都是,就跟天上的星星一样数不清。不管你是公司里的新面孔,还是职场上的老狐狸,学会怎么剪视频,就好比找到了赢的秘诀。不管是给上司汇报工作,展示你的产品,还是自己搞点小视频记录生活,只要是剪辑得漂亮,肯定能一下子吸引大家的目光,让人记得你。咱们今天就来侃侃现在超火的三款视频剪辑工具,尤其是PR剪辑,你肯定听说过,这货在剪辑界可是大名鼎鼎,用它剪视频,既专业又麻利。 NO1. 福昕轻松

【Python知识宝库】上下文管理器与with语句:资源管理的优雅方式

🎬 鸽芷咕:个人主页  🔥 个人专栏: 《C++干货基地》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! 文章目录 前言一、什么是上下文管理器?二、上下文管理器的实现三、使用内置上下文管理器四、使用`contextlib`模块五、总结 前言 在Python编程中,资源管理是一个重要的主题,尤其是在处理文件、网络连接和数据库

dr 航迹推算 知识介绍

DR(Dead Reckoning)航迹推算是一种在航海、航空、车辆导航等领域中广泛使用的技术,用于估算物体的位置。DR航迹推算主要通过已知的初始位置和运动参数(如速度、方向)来预测物体的当前位置。以下是 DR 航迹推算的详细知识介绍: 1. 基本概念 Dead Reckoning(DR): 定义:通过利用已知的当前位置、速度、方向和时间间隔,计算物体在下一时刻的位置。应用:用于导航和定位,

【H2O2|全栈】Markdown | Md 笔记到底如何使用?【前端 · HTML前置知识】

Markdown的一些杂谈 目录 Markdown的一些杂谈 前言 准备工作 认识.Md文件 为什么使用Md? 怎么使用Md? ​编辑 怎么看别人给我的Md文件? Md文件命令 切换模式 粗体、倾斜、下划线、删除线和荧光标记 分级标题 水平线 引用 无序和有序列表 ​编辑 任务清单 插入链接和图片 内嵌代码和代码块 表格 公式 其他 源代码 预

图神经网络(2)预备知识

1. 图的基本概念         对于接触过数据结构和算法的读者来说,图并不是一个陌生的概念。一个图由一些顶点也称为节点和连接这些顶点的边组成。给定一个图G=(V,E),  其 中V={V1,V2,…,Vn}  是一个具有 n 个顶点的集合。 1.1邻接矩阵         我们用邻接矩阵A∈Rn×n表示顶点之间的连接关系。 如果顶点 vi和vj之间有连接,就表示(vi,vj)  组成了

JAVA初级掌握的J2SE知识(二)和Java核心的API

/** 这篇文章送给所有学习java的同学,请大家检验一下自己,不要自满,你们正在学习java的路上,你们要加油,蜕变是个痛苦的过程,忍受过后,才会蜕变! */ Java的核心API是非常庞大的,这给开发者来说带来了很大的方便,经常人有评论,java让程序员变傻。 但是一些内容我认为是必须掌握的,否则不可以熟练运用java,也不会使用就很难办了。 1、java.lang包下的80%以上的类

JAVA初级掌握的J2SE知识(一)

时常看到一些人说掌握了Java,但是让他们用Java做一个实际的项目可能又困难重重,在这里,笔者根据自己的一点理解斗胆提出自己的一些对掌握Java这个说法的标准,当然对于新手,也可以提供一个需要学习哪些内容的参考。另外这个标准仅限于J2SE部分,J2EE部分的内容有时间再另说。 1、语法:必须比较熟悉,在写代码的时候IDE的编辑器对某一行报错应该能够根据报错信息知道是什么样的语法错误并且知道