统计学第4天

2024-09-02 19:36
文章标签 统计学

本文主要是介绍统计学第4天,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

学前知识点

方差s^2 =\frac{ \sum_1^n(x-\bar{x})^2 }{n}:反映一组数据离散程度,除n是为了缩小数据量对结果的影响。

标准差:s =\sqrt\frac{ \sum_1^n(x-\bar{x})^2 }{n}

多个统计量推断

        使用z统计量和t统计量可对两个总体参数进行推断,如果需要对更多的参数进行推断需要研究多个变量之间的关系,需要用到方差分析的思想和内容。

统计数据的分类有分类数据、顺序数据和数值型数据,在实际运用中主要研究分类数据和数值型数据。数据类型的改变会导致研究方法的改变,本节介绍总体参数的推断方法,分别是研究分类自变量对数值型变量影响的方差分析,和研究分类型自变量对分类型因变量影响的卡方检验。

自变量对因变量的效益称为自变量效益,影响效益的大小体现为因变量的误差,这个误差里面多少是由于因变量造成的?方差分析是通过取误差的分析来检验这种效益是否显著。(方差分析是用来分析数据的误差)

什么是方差分析

1、检验多个总体均值是否相等,通过分析数据的误差判断各总体均值是否相等。

2、研究分类型自变量对数值型因变量的影响。

3、单因素方差分析:涉及一个分类的自变量。

例1、某咨询公司为了研究不同类目的电商公司的服务质量,在服装类目抽取了7家公司,电子产品类目抽取了6家公司,医药类目抽取了5家公司,彩妆类目抽取了5家公司作为样本进行研究。假定他们在服务对象、服务内容、企业规模等方面基本是相同的。然后统计出近一年中消费者对这23家公司的投诉次数,结果如下:

(一般而言,受到的投诉次数越多,说明服务的质量越差。消费者协会想知道这几个行业之间的服务质量是否有显著差异。)

解:分析思路:

分析四个类目之间的服务质量是否有显著差异,也就是要判断类目对投诉次数是否有显著影响;

做出这种判断最终被归结为检验这四个类目被投诉的次数的均值是否相等;

若他们的均值相等,就意味着类目对投诉次数是没有影响的,他们之间的服务质量没有显著性差异;若均值不全相等,则意味着类目对投诉次数是有影响的,他们之间的服务质量有显著性差异;

若它们之间的均值不全相等,则意味着行业对投诉次数是由影响的,它们之间的服务质量有显著性差异。

H_0:\mu_1=\mu_2=\mu_3=\mu_4

H _1:\mu_1,\mu_2,\mu_3,\mu_4不全相等

方差分析中的相关术语

1、因素或因子:所要检验的对象(分析类目对投诉次数的影响,类目是要检验的因素或因子);

2、水平或处理:因子的不同表现(服装、电子产品、彩妆、医药就是因子的水平);

3、观察值:每个因素下得到的样本数据(每个行业被投诉的次数就是观察值);

4、实验:这里只涉及一个因素,因此称为单因素四水平的实验;

5、总体:因素的每一个水平可以看作是一个总体(比如服装、电子、医药、彩妆可以看作四个总体);

6、样本数据:被投诉次数可以看作是从这个总体中抽取的样本数据。

图像描述

 1、以上述案例为例,从散点图上可以看出

  •        不同类目被投诉的次数有明显差异的;
  •         用一个类目,不同公司被投诉的次数也明显不同;
  •         彩妆类目被投诉的次数较高,医药类目被投诉的次数较低;

2、类目与被投诉次数是有一定的关系

  •         如果类目与被投诉之间没有关系,那么它们被投诉的次数应该差不多,在散点图上所呈现的模式也就应该很接近。

3、仅从散点图还不能提供确信的证据证明不同行业被投诉的次数之间有显著差异;

  •         这种差异也有可能是由于抽样的随机性造成的;

4、需要有更准确的方法来检验这种差异是否显著,这是就需要对数据进行方差分析

  •         之所以叫方差分析,是因为虽然我们感兴趣的是均值,但是在判断均值之间是否有差异时则需要借助方差

方差分析的思想和原理

误差分解

1、随机误差和系统误差

(1)随机误差:因素同一水平下,样本各观察值之间的差异。

        比如同一类目下不同公司被投诉的次数是不同的(这种差异可以看作随机因素的影响)

(2)系统误差:因素的不同水平下,各观察值之间的差异。不同类目之间的被投诉次数之间的差异。这种差异可能是由于抽样的随机性造成的,也可能是由于行业本身所造成的,后者所形成的误差是由系统因素造成的称为系统误差。

2、组内方差和组间方差

(1)组内方差:因素的同一水平下样本数据的方差(组内方差只包含随机误差)

(2)组间方差:因素的不同水平下样本数据的方差(组间方差既包含随机误差,也包含系统误差)

 误差分析

1、若不同类目对投诉次数没有影响,则组间误差只包含随机误差,没有系统误差。这时,组间误差与组内误差经过平均后的数值就会很接近,它们(组间/组内)比值就会接近1。

2、若不同类目对投诉次数有影响,则组间误差中除了包含随机误差外,还会包含系统误差,这时组间误差平均后的数字就会大于组内误差平均后的数值,它们(组间/组内)的比值就会大大于1。

3、当这个比值大到某种程度时,就可以说不同水平之间存在着显著差异,也就是自变量对因变量有影响。

方差分析中的基本假定

1、每个总体都应该服从正态分布;

  • 对于因素的每一个水平,其观察值都是来自服从正态分布总体的简单随机样本,比如,每个类目被投诉的次数必须服从正态分布。

2、各个总体的方差必须相同;

  • 各组观察使从具有相同方差的总体中抽取的,比如,四个类目被投诉次数的方差都相等。

3、观察值使独立的。

  • 比如,每个类目被投诉的次数与其他行业被投诉的次数独立。

在上述假定条件下,判断类目对投诉次数是否有显著影响,实际上就是检验具有同方差的四个正态总体的均值是否相等;

如果四个总体的均值相等,可以期望四个样本的均值也会很接近。

四个样本的均值越接近,判断四个总体均值相等的理由越充分,样本均值越不同,判断总体均值不同的证据越充分。

 在上述案例中:

如果原假设成立,即H_0:\mu_1=\mu_2=\mu_3=\mu_4

四个类目被投诉的次数的均值都相等,意味着每个样本都来自均值\mu方差\sigma^2的统一正态总体

如果备择假设成立H _1:\mu_1,\mu_2,\mu_3,\mu_4不全相等

至少有一个总体的均值是不同的,四个样本分别来自均值不同的四个正态总体。

问题的一般提法

1、设因素有k个水平,每个水平的均值分别用\mu_1,\mu_2,\mu_3...\mu_k表示

2、要检k个水平(总体)的均值是否相等,需要提出如下假设:

  • H_0:\mu_1=\mu_2=\mu_3=...=\mu_k
  • H_1:\mu_1,\mu_2,\mu_3...\mu_k不全相等

3、设\mu_1为服装被投诉次数的均值,\mu_2为电子产品被投诉次数的均值,\mu_3为医药被投诉次数的均值,\mu_4为被彩妆被投诉次数的均值,需要提出如下假设:

  • H_0:\mu_1=\mu_2=\mu_3=...=\mu_k
  • H_1:\mu_1,\mu_2,\mu_3...\mu_k 不全相等

数据结构

进行单因素方差分析时,需要得到下面数据结构:

分析步骤

        1、提出假设

         2、构造检验统计量

         3、统计决策

         4、方差分析表

构造检验统计量

d、计算统计量

a)计算均方MS

  • 各误差平方和的大小与观察值的多少有关,为了消除观察值多少对误差平方和大小的影响,需要将其平均,这就是均方,也称为方差;
  • 计算方法时用误差平方和除以相应的自由度;
  • 三个平方和的自由度分别为:
  1.         SST的自由度为n-1,其中n为全部观察值的个数;
  2.         SSA的自由度为k-1,其中k为因素水平(总体)的个数;
  3.         SSE的自由度为n-k。

SST总离差平方和:所有水平的平均值和所有元素的平均值的差平方和;

SSA组间离差平方和:n倍每组均值和总体均值的离差平方和;

SSE组内离差平方和:每组组内方差之和。

组间方差MSA:SSA的均方,记作MSA,计算公式为:MSA = \frac{SSA}{k-1}

前例的计算结果MSA = \frac{SSA}{k-1}=\frac{1456.608696}{4-1}=485.536232

组内方差MSE:SSE的均方,记作MSE,计算公式为MSE=\frac{SSE}{n-k}

前例的计算结果为MSE=\frac{SSE}{n-k}=\frac{2708}{23-4}=142.526316

b)计算检验统计量F

        将MSA和MSE进行对比,即得到所需要的检验统计量F

        当H_0为真时,二者的比值服从分子自由度为k-1、分母自由度为n-k的F分布,即

        F=\frac{MSA}{MSE} \sim F(k-1,n-k)

         前例的计算结果为:F=\frac{MSA}{MSE} = \frac{485.536232}{142.526316}=3.406643

e、构造检验统计量

统计决策

将统计量的值F与给定的显著性水平\alpha的临界值F_{\alpha}进行比较。做出接收或拒绝原假设H_0的决策。

根据给定的显著性水平\alpha,在F分布中查找与分子df_1=k-1、分母自由度df_2=n-k的相应临界值F_{\alpha}

F>F_{\alpha},则拒绝原假设H_0,表名均值之间的差异是显著的,所检验的因素(A)对观察值有显著影响;

F\leq F_{\alpha},则不能拒绝原假设H_0,表名所检验的因素(A)对观察值没有显著影响

单因素方差分析表

1、拒绝原假设表明因素(自变量)与观察值之间有关系

组间平方和SSA度量了自变量(类目)对因变量(投诉次数)的影响效应

  • 只要组间平方和SSA,就表名两个变量之间有关系(只是是否显著的问题)
  • 当组间平方和比组内平方和SSE大,且大到一定程度时,就意味着两个变量之间的关系越显著,大的越多,表名它们之间的关系就越强。反之,就意味着两个变量之间的关系不显著,小的越多就表明它们之间的关系就越弱。

2、变量的关系强弱用组间平方和(SSA)占总平方和(SST)的比例大小来反映,将这一比例记为R^2R^2=\frac{SSA}{SST},其中平方根R就可以用来测量两个变量之间的关系强弱。

上述案例中:R^2=\frac{SSA}{SST}=\frac{1456.608696}{4146.609696}=0.349759=34.9757\%,R=0.591494

结论:

  • 类目(自变量)对投诉次数(因变量)的影响效应占总效应的34.9759%,而残差效应则占65.0241%。即行业对投诉次数差异解释的比例达到35%,而其他因素(残差变量)所揭示的比例近为65%以上;
  • R=0.591494,表明类目与投诉次数之间有中等以上的关系。

方差中的多重比较

作用
  • 多重比较时通过对总体均值之间的匹配比较来进一步检查到底哪些均值之间存在差异;
  • 多重比较方法有很多种,这里费尔希提出的最小显著差异方法,简写LSD。该方法用于判读到底哪些均值之间有差异。
步骤

1、提出假设

H_0:\mu_i=\mu_j(第i个总体的均值等于第j个总体的均值)

H_1:\mu_i\neq \mu_j(第i个总体的均值不等于第j个总体的均值)

2、计算检验统计量:\bar{x_1}-\bar{x_j}

4、计算LSD,其公式为:LSD = t_{\alpha/2}\sqrt{MSE(\frac{1}{n_i}+\frac{1}{n_j})}

4、根据显著性水平做出决策,如果|\bar{x_i}-\bar{x_j}|\geq LSD,拒绝H_0,若|\bar{x_i}-\bar{x_j}|< LSD不能拒绝H_0
5、对前例四个类目的均值做多重比较(\alpha=0.05

第一步提出假设。

检验1:H0:μ1=μ2,H1:μ1≠μ2

检验2:H0:μ1=μ3,H1:μ1≠μ3

检验3:H0:μ1=μ4,H1:μ1≠μ4

检验4:H0:μ2=μ3,H1:μ2≠μ3

检验5:H0:μ2=μ4,H1:μ2≠μ4

检验6:H0:μ3=μ4,H1:μ3≠μ4

第二步:计算检验统计量

第三步:计算LSD。由之前计算结果可知,MSE=142.526316.由于四个类目的样本量不同,需要分别计算LSD。根据自由度=n-k=23-4=19,查t分布表得t_{\alpha/2}=t_{0.0025}=2.093。各检验得LSD如下:

检验1:LSD_1 = 2.093\times\sqrt{142.526316\times(1/7+1/6)}=13.90

检验2:LSD_2 = 2.093\times\sqrt{142.526316\times(1/7+1/5)}=14.63

检验3:LSD_3 =2.093\times\sqrt{142.526316\times(1/7+1/5)}=14.63

检验4:LSD_4 = 2.093\times\sqrt{142.526316\times(1/6+1/5)}=15.13

检验5:LSD_5 = 2.093\times\sqrt{142.526316\times(1/6+1/5)}=15.13

检验6:LSD_6 = 2.093\times\sqrt{142.526316\times(1/5+1/5)}=15.80

第四步:做出决策。

F分布

这篇关于统计学第4天的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1130874

相关文章

统计学(贾俊平)学习笔记--第三章、 数据预处理

数据预处理无论是从数据分类分析、数据信息抽取、数据挖掘、模型建立等方面都是需要的,也是数据工作者最开始招手做的,而统计学(贾俊平)中从理论的角度讲解了数据预处理的概念和方法吗,在此将主要要点列举如下,供有心人参考学些。       数据的预处理是在对数据分类或分组之前所做的必要处理,内容包括数据的审核、筛选、排序等。          审核就是检查数据中是否有错误。从完整性和准

统计学第5天

要观察性别和在线上买不买生鲜食品有没有关系,在现实生活中,女性通常去菜市场买菜的比较多,那么在线下是不是也是这样呢? 卡方统计量 如果研究的是两个类别变量,每个变量有多个类别,通常将两个变量多个类别的频数用交叉表的形式表示出来。其中一个变量放在行(row)的位置,称为行变量,其类别数(行数)用R表示,另一个变量放在列(column)的位置,称为列变量,其类别数(列数)用C表示。 这种由两

IA的统计学基础:深入解析与实践应用

IA的统计学基础:深入解析与实践应用 在数据泛滥的信息化时代,统计学作为解读数据语言的关键工具,对于任何希望从数据中提取价值的专业人士来说都是必修课。本文将从统计学的基本概念入手,深入探讨其技术细节,并展示如何将这些技术应用于实际问题解决中。 统计学的定义与重要性 统计学是数据分析的科学,它提供了一套量化数据特征、建模数据关系和做出推断决策的方法。统计学的应用遍及科学研究、工业生产、经济管理

统计学到底给我什么

2018/11/04 长久以来,总是自己相信也好,别人告诉也好,就说统计学非常有用。 可是自己也是看了统计学的书,当然,有很大原因是自己看书不够专注,导致最后的结果就是看了这么久,一直看不出什么效果。就是那种,感觉他很有用,但是又用不出来的感觉。 但是最近又有这种感觉,可能他就是这个原因呢,就是不能给我多好的实践出来的感觉。(说这句话,让我感觉,就是还是因为没有实践的机会) 举一个比较恰当的例子

数据分析------统计学知识点(五)

回归算法 想象一下,你和朋友在讨论:大学生活中,每天学习的时间是否真的能影响期末成绩?这个问题看似简单,实则包含了一个潜在的关系:学习时间与成绩之间的联系。我们想要知道,增加学习时间是否会提高成绩,以及这种提高有多显著。回归分析正是用来揭示变量之间关系的工具。简单来说,它可以帮助我们理解一个变量(称为因变量,如期末成绩)如何随着其他一个或多个变量(称为自变量,如学习时间)的变化而变化。 回归算

线性回归模型:统计学中的预测利器

线性回归模型:统计学中的预测利器 线性回归模型是统计学中一种重要的预测模型,广泛应用于各个领域,如经济学、社会科学、生物学和工程学等。它基于最小二乘法原理,通过拟合线性关系来解释变量之间的关系,并预测因变量的值。本文将详细介绍线性回归模型的基本概念、建立方法、评估指标以及实际应用案例,帮助读者更好地理解和运用这一强大的统计工具。 一、线性回归模型的基本概念 线性回归模型描述了一个或多个自变量

(十三)统计学基础练习题七(选择题T301-350)

本文整理了统计学基础知识相关的练习题,共50道,适用于想巩固统计学基础或备考的同学。来源:如荷学数据科学题库(技术专项-统计学二)。序号之前的题请看往期文章。 301) 302) 303) 304) 305) 306) 307) 308) 309) 310) 311) 312) 313) 314) 315)

从零开始统计学 01 | 假设检验

文章目录 一、提出假设二、选择检验方法2.1 正态分布2.2 t分布(*t-distribution*)与T检验2.3 F分布(*F-distribution*)与方差分析2.4 卡方分布 (*chi-square distribution*)与卡方检验2.4.1 检验数据是否服从某种分布2.4.1.1 使用绘图2.4.1.2 使用卡方检验2.4.1.3 使用Kolmogorov-Smirn

带你系统学习平滑样条、局部回归、广义可加性模型-豆瓣9.6分统计学神作ISL之第七章读书笔记(下)

目录 1.原文内容概要2.算法知识总结2.1 平滑样条(Smoothing Splines)2.1.1 平滑样条简介(An Overview of Smoothing Splines )2.1.2 选择调优参数λ(Choosing the Smoothing Parameter λ) 2.2 局部回归(Local Regression)2.3 广义可加性模型(Generalized Addi

豆瓣9.6分统计学神作ISL之第七章读书笔记(上),带你系统学习多项式回归、阶梯函数、基函数和回归样条

目录 1.原文内容概要2.算法知识总结2.1 多项式回归(Polynomial Regression)2.2 阶梯函数(Step Functions)2.3 基函数(Basis Functions)2.4 回归样条(Regression Splines)2.4.1 分段多项式回归(Piecewise Polynomials)2.4.2 约束条件与样条函数(Constraints and Sp