统计学常犯的18个错误,请务必跳过这些坑!

2024-04-13 22:48

本文主要是介绍统计学常犯的18个错误,请务必跳过这些坑!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

来源:知乎

本文约为2400字,建议阅读6分钟

本文总结统计学中经常犯的错误,知道这些常识,可以在与别人”嘴炮“时更具专业性。

1. 变量之间关系可以分为两类:

函数关系:反映了事务之间某种确定性关系。

相关关系:两个变量之间存在某种依存关系,但二者并不是一一对应的;反映了事务间不完全确定关系;

2. 为什么要对相关系数进行显著性检验?

  • 实际上完全没有关系的变量,在利用样本数据进行计算时也可能得到一个较大的相关系数值(尤其是时间序列数值)。

  • 当样本数较少,相关系数就很大。当样本量从100减少到40后,相关系数大概率会上升,但上升到多少,这个就不能保证了;取决于你的剔除数据原则,还有这组数据真的可能不存在相关性;

改变两列数据的顺序,不会对相关系数,和散点图(拟合的函数曲线)造成影响;对两列数据进行归一化处理,标准化处理,不会影响相关系数;我们计算的相关系数是线性相关系数,只能反映两者是否具备线性关系。相关系数高是线性模型拟合程度高的前提;此外相关系数反映两个变量之间的相关性,多个变量之间的相关性可以通过复相关系数来衡量;

3. 增加变量个数,R2会增大;P值,F值只要满足条件即可,不必追求其值过小;

4. 多重共线性与统计假设检验傻傻分不清?

多重共线性与统计假设没有直接关联,但是对于解释多元回归的结果非常重要。相关系数反应两个变量之间的相关性;回归系数是假设其他变量不变,自变量变化一个单位,对因变量的影响,而存在多重共线性(变量之间相关系数很大),就会导致解释困难;比如y~x1+x2;x·1与x2存在多重共线性,当x1变化一个单位,x2不变,对y的影响;而x1与x2高度相关,就会解释没有意义。

一元回归不存在多重共线性的问题;而多元线性回归要摒弃多重共线性的影响;所以要先对所有的变量进行相关系数分析,初步判定是否满足前提---多重共线性。

5. 时间序列数据会自发呈现完全共线性问题,所以我们用自回归分析方法;

6. 什么样的模型才是一个好模型?

在测试集表现与预测集相当,说明模型没有过度拟合:在训练集上表现完美,在测试集上一塌糊涂;原因:模型过于刚性:“极尽历史规律,考虑随机误差”;拟合精度不能作为衡量模型方法的标准;

一个好的模型:只描述规律性的东西(抓住事务的主要特征),存在随机误差是好事,在预测时,就有了“容错空间”,预测误差可能减小!

7. 假设检验显著性水平的两种理解:

  • 显著性水平:

    通过小概率准则来理解,在假设检验时先确定一个小概率标准----显著性水平;用  表示;凡出现概率小于显著性水平的事件称小概率事件;

  • 通过两类错误理解:  为拒绝域面积

8. 中心极限定律与大数定理:

大数定理---正态分布的“左磅”,随着样本数的增加,样本的平均值可以估计总体平均值;

中心极限定理---正态分布的“右臂”具有稳定性,大数定理说明大量重复实验的平均结果具有稳定解决了变量均值的收敛性问题中心极限定理说明随机变量之和逐渐服从某一分布,解决了分布收敛性问题。

9. 方差

方差能最大程度的反映原始数据信息;

反映了一组数据相对于平均数的波动程度,相比于  ,其平方项更放大了波动,且差的平方在数学公式推导上有大用。

10. 使用最小二乘法条件:

  • 自变量之间不能存在完全共线性;

  • 总体方程误差项服从均值为0的正态分布(大数定理);

  • 误差项的方差不受自变量影响且为固定值;(同方差性)

11. 最大似然估计与最小二乘法区别

  • 最小二乘法是基于几何意义上距离最小;

  • 最大似然估计是基于概率意义上出现的概率最大;

  • 最小二乘法:对数据分布无要求;

  • 最大似然估计:需要知道概率密度函数。

12. 关于H0与H1

H0:原假设,零假设----零是相关系数为0,说明两个变量无关系。

H1:备用假设。

如何设置原假设:


1.H0与H1是完备事件组,相互对立,有且只有一个成立。
2.在确立假设时,先确定备设H1,然后再确定H0,且保证“=”总在H0上。
3.原H0一般是需要反驳的,而H1是需要支持的。
4.假设检验只提供原假设不利证据。

即使“假设”设置严密,检验方法“精确”;假设检验始终是建立在一定概率基础上的,所以我们常会犯两类错误;

第一类:原H0是真,却拒绝原假设;犯  类错误。

第二类:原H0是假,却不拒绝原假设;犯  类错误。

通常只能犯两种错误中的一种,且  增加,  减少。

通常,  类错误是可控的,先设法降低第一类错误概率 

13. 什么是双尾检验,单尾检验?

1. 当H0采用等号,而H1采用不等号,双尾检验。

2.当H0是有方向性的,单尾检验。

14. P值

  • 当原假设为真时,比所得到的样本观察,结果更极端的结果会出现的概率。

  • 如果P值很小,我们拒绝原假设的理由越充分。

  • P的意义不表示两组差别大小,p反映两组差别有无统计学意义。

  • 显著性检验只是统计结论,判断差别还需要专业知识;

15. T检验与U检验

  • 当样本容量n够大,样本观察值符合正态分布,可采用U检验;

  • 当样本容量n较小,若观测值符合正态分布,可采用T型检验。

16. 方差分析

主要用于两样本及以上样本间的比较,又被称为F检验,变异数分析;

基本思想:通过分析研究不同来源的变异对总体变异的贡献大小,从而确定可控因素对研究结果影响力的大小;

总变异可以被分解为组间变异与组内变异。

  • 组间变异:由于不同实验处理而造成的各组之间的变异。

  • 组内变异:组内各被适变量的差异范围所呈现的变异。

17. 直方图:对数据进行整体描述,突出细节

箱线图:对数据进行概要描述,或对不同样本进行比较。箱线图可以让我们迅速了解数据的汇集情况(这个样本,紧密的集合在一起;哇,这个样本不那么密集;这个样本,大部分向左偏,哇,这个样本大部分向右偏。)

但是请注意:一个直方图比1000个p值更重要,拿到数据先绘制散点图、直方图、箱线图看看,再决定用什么描述!

18. 霜线图

对于分位数的理解:霜线图看数据分布特征统计学中,把所有数值由小到大排列并分成四等份,处于三个分割点位置的得分就是四分位数。所以,四分位数有三个!四指四等份!

  • 第一四分位数:下四分位数;等于该样本中所有数值由小到大排列后第25%的数字(所以下四分位数可以不是样本中的数值,它是一个统计指标(就像平均数一样,不一定是原数据中的一点)。

  • 第二四分位数:中位数;

  • 第三四分位数:上四分位数。

其中,下四分位数与上四分位数的距离叫四分位距!(IQR)

一元回归不存在多重共线性的问题;而多元线性回归要摒弃多重共线性的影响;所以要先对所有的变量进行相关系数分析,初步判定是否满足前提---多重共线性。

编辑:于腾凯

校对:林亦霖

这篇关于统计学常犯的18个错误,请务必跳过这些坑!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/901435

相关文章

【经验交流】修复系统事件查看器启动不能时出现的4201错误

方法1,取得『%SystemRoot%\LogFiles』文件夹和『%SystemRoot%\System32\wbem』文件夹的权限(包括这两个文件夹的所有子文件夹的权限),简单点说,就是使你当前的帐户拥有这两个文件夹以及它们的子文件夹的绝对控制权限。这是最简单的方法,不少老外说,这样一弄,倒是解决了问题。不过对我的系统,没用; 方法2,以不带网络的安全模式启动,运行命令行,输入“ne

Temu官方宣导务必将所有的点位材料进行检测-RSL资质检测

关于饰品类产品合规问题宣导: 产品法规RSL要求 RSL测试是根据REACH法规及附录17的要求进行测试。REACH法规是欧洲一项重要的法规,其中包含许多对化学物质进行限制的规定和高度关注物质。 为了确保珠宝首饰的安全性,欧盟REACH法规规定,珠宝首饰上架各大电商平台前必须进行RSLReport(欧盟禁限用化学物质检测报告)资质认证,以确保产品不含对人体有害的化学物质。 RSL-铅,

SQL2005 性能监视器计数器错误解决方法

【系统环境】 windows 2003 +sql2005 【问题状况】 用户在不正当删除SQL2005后会造成SQL2005 性能监视器计数器错误,如下图 【解决办法】 1、在 “开始” --> “运行”中输入 regedit,开启注册表编辑器,定位到 [HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows NT\CurrentVer

react笔记 8-18 事件 方法 定义方法 获取/改变数据 传值

1、定义方法并绑定 class News extends React.Component {constructor(props) {super(props)this.state = {msg:'home组件'}}run(){alert("我是一个run") //方法写在类中}render() {return (<div><h2>{this.state.msg}</h2><button onCli

ssm 之事务管理出现错误

JDBC Connection will not be managed by Spring 项目采用的是分布式架构,分别有controller,service,solr三个服务器,之间通过dubbo进行调用,经过测试发现事务配置完以后不能通过spring进行管理,其中两条insert和一条update语句都执行完毕,异常并没有使得事务进行回滚,通过调取debug日志发现“JDBC Conn

Unstructured cannot write mode RGBA as JPEG 错误解决

Unstructured cannot write mode RGBA as JPEG 错误解决 0. 错误详细1. 解决方法 0. 错误详细 Image Extraction Error: Skipping the failed imageTraceback (most recent call last):File "/root/miniconda3/envs/learn-y

收藏:解决 pip install 出现 error: subprocess-exited-with-error 错误的方法

在使用 pip 安装 Python 包时,有时候会遇到 error: subprocess-exited-with-error 错误。这种错误通常是由于 setuptools 版本问题引起的。本文将介绍如何解决这一问题 当你使用 pip install 安装某个 Python 包时,如果 setuptools 版本过高或过低,可能会导致安装过程出错,并出现类似以下错误信息:error: subpr

插件:清理maven错误缓存.bat

插件:https://pan.baidu.com/s/1nHIxHoo1C4MvFlW7QbZe5Q?pwd=7zenhttps://pan.baidu.com/s/1nHIxHoo1C4MvFlW7QbZe5Q?pwd=7zen没错误缓存时: 有错误缓存时:

在幼儿园管理系统中,会议管理申请会议模块:添加会议记录(提交表单)的时候报:404错误!

在幼儿园管理系统(spring MVC)中,会议管理>申请会议模块:添加会议记录的时候报:404错误!不知道为啥找不到,一开始感觉一头雾水,怎么会出现404页面找不到错误那,又检查action,controller等这也没错啊!怎么出现404错误那。经过询问和查找,终于找到原因了。 原因是:添加的有时间字段。 代码: @InitBinder public void in

关于ddddocr运行错误的解决

关于ddddocr运行错误的解决 前因 今天看了一个开源项目,自己拉下来重建虚拟venv后,运行报错。 看了半天,除了requirements.txt 写的不详细缺少引用外,最大的问题是报找不到指定的模块 分析错误信息 ddddocr import onnxruntime 时候报错 具体错误为 from .onnxruntime_pybind11_state import * # noqa