统计学第5天

2024-09-02 21:52
文章标签 统计学

本文主要是介绍统计学第5天,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

要观察性别和在线上买不买生鲜食品有没有关系,在现实生活中,女性通常去菜市场买菜的比较多,那么在线下是不是也是这样呢?

\chi^2卡方统计量

如果研究的是两个类别变量,每个变量有多个类别,通常将两个变量多个类别的频数用交叉表的形式表示出来。其中一个变量放在行(row)的位置,称为行变量,其类别数(行数)用R表示,另一个变量放在列(column)的位置,称为列变量,其类别数(列数)用C表示。

这种由两个或着两个以上类别变量交叉分类的频数分布表称为列联表。一个由R行和C列组成的列联表称为R*C列联表。

对列联表中的两个类别变量进行分析,通常判断两个变量是否独立。该检验的假设是:

两个变量独立(无关),如果原假设被拒绝,则表明两个变量不独立,或者说两个变量不相关。

定义

1、用于检验列联表中变量之间拟合优度和独立性

2、检验统计量为:x^2= \sum \frac{(f_o-f_e)^2}{f_e} \sim x^2(C-1)【fo实际频数,fe期望频数】

或者x^2= \sum_{i=1}^{r}\sum_{j=1}^{c}\frac{(f_{ij}-e_{ij})^2}{e_{ij}} \sim x^2((R-1)(C-1)) ,f_{ij}表示列联表中第i行第j列类别中的实际频数,e_{ij}表示列联表中第i行第j列类别中的期望频数。

3、x^2统计量可以看作是检验统计量与真实值与期望值的近似程度。两者越接近,即f_o-f_e的绝对值越小,计算出的x^2值就越小;反之,f_o-f_e的绝对值越大,计算出的x^2值就越大。

性质

1、x^2\geq 0,因为它是对平方结果的汇总;

2、分布与自由度的关系

 由上图可以看出,自由度越小,分布就越往左边倾斜,随着自由度的增加,x^2分布的偏斜程度趋于缓解,逐渐显露出对称性。随着自由度的继续增大,x^2分布将趋近于对称的正态分布。

拟合优度检验

1、x^2检验是利用x^2分布对与分类数据的频数进行分析的统计学方法;

2、通过对x^2的计算结果与x^2分布中的临界值进行比较,做出是否拒绝原假设的统计决策;

3、x^2检验的应用主要表现在两个方面:拟合优度检验和独立性检验。

        (1)拟合优度检验是用x^2统计量进行统计显著性检验的重要内容;

        (2)检验的步骤

                a依据总体分布状况,计算出分类变量各类别的期望频数;

                b与分布的观察频数进行对比;

                c判断期望频数与观察频数是否有显著差异,得出结论。

例1:1912年4月15,豪华巨轮泰坦尼克号与冰川相撞沉没。当时船上共有2208人,其中男性1738人,女性470人,海难发生后,幸存者共718人,其中男性374人,女性344人,以\alpha =0.05的显著性水平检验存活情况与性别是否有关。

解答:在本例中需要判断观察频数与期望频数是否一致。

H_0:观察频数与期望频数一致;

H_1:观察频数与期望频数不一致。

计算过程如下表:(718/2208*1738)

自由度的计算公式为df=R-1,R为分类变量类型的个数。

在本例中,分类变量是性别,有男、女两个类别,故R=2,自由度df=2-1=1。

经查\chi^2分布表,\chi^2_{0.05}(1)= 3.841,括号中的数字表示自由度。

因为\chi^2远大于\chi^2_{0.1},故拒绝H0,接收H1,说明存活状况与性别显著相关

独立性检验

拟合优度检验是对一个分类变量的检验,有时我们会遇到两个分类变量的问题,看这两个分类变量之间是否存在联系。例如原料有不同的等级,原料又产自不同的地区。原料等级和原料生产地就是两个分类变量。我们关心这两者是否有关联,是不是某些地区生产的原料有更好的质量。对这两个分类变量的分析,称为独立性检验。

例2:一份原料来自三个不同的地区,原料质量被分为三个不同的等级。从这批原料中随机抽取500件进行检验,结果如表表示,要求检验各个地区和原料等级之间是否存在依赖关系(\alpha=0.05)

 解答:

H0:地区和原料等级之间是独立的(不存在依赖关系)

H1:地区和原料等级之间不独立(存在依赖关系)

分析的关键是获取期望值

在第一行,甲地区的合计为140,用140/500作为甲地区原料比例的估计值。在第一列,一级原料的合计为162,用160/500作为一级原料比例的估计值。如果地区和原料等级之间是独立的,则可以用下面的公式估计第一个单元(甲地区,一级)中的期望比例。

令: A=样本单位来自甲地区的事件

        B=样本单位属于一级原料的事件

根据独立性的概率乘法公式,有

P(第一个单元)=P(A)P(B)=(140/500)(162/500)=0.09072
0.09072是第一个单元中的期望比例,相应的频数期望为:0.09072 X 500 = 45.36

一般地,可以采用下式计算任意一个单元中频数的期望值:

f_e=\frac{RT}{n}\times \frac{CT}{n} \times n = \frac{RT\times CT}{n}

式中,fe为给定单元格的频数期望值;RT为给定单元格所在行的合计;CT为给定单元格所在列的合计;n为观察值的总个数(样本量)。

根据上式可以得到如下表所示的计算结果。

 x^2的自由度为(R-1)(C-1)= 4

\alpha = 0.05,查表可知x^2_{0.05}(4)=9.488

由于,x^2>x^2_{0.05}(4)故拒绝H0,接收H1,即地区和原料等级之间存在依赖关系,原料的质量受地区的影响。

例3:荔枝数码公司针对即将推出的手机制定一项推广方案,从所属的四个平台旗舰店中共随机抽取420名职工,了解他们对推广方案的态度(见下表),以\alpha=0.1的显著性水平检验员工态度是否受所在平台的影响。

 解答:若员工对推广方案的态度不受所在子公司的影响,四个平台对赞成推广方案的比例是一致的。设\pi_i为第i个分公司赞成推广方案的百分比,可设定原假设和备择假设分别为:

H_0:\pi_1=\pi_2=\pi_3=\pi_4

H_1:\pi_1,\pi_2,\pi_3,\pi_4不全相等

统计量x^2 = \sum_{j=1}^{c}\frac{(f_o-f_e)^2}{f_e}=1.10163

x^2的自由度=(R-1)(C-1)=3

\alpha=0.1,查表知道=:x^2_{0.1}(3)=6.25

由于x^2>x^2_{0.1}(3),故做出决策:在α=0.1的水平上不能拒绝H0.

结论:分公司不同与改革方案赞成比例之间不存在依赖关系,即可以认为四个分公司岁改革方案的赞成比例是一致的。

x^2x方分布表

这篇关于统计学第5天的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1131169

相关文章

统计学(贾俊平)学习笔记--第三章、 数据预处理

数据预处理无论是从数据分类分析、数据信息抽取、数据挖掘、模型建立等方面都是需要的,也是数据工作者最开始招手做的,而统计学(贾俊平)中从理论的角度讲解了数据预处理的概念和方法吗,在此将主要要点列举如下,供有心人参考学些。       数据的预处理是在对数据分类或分组之前所做的必要处理,内容包括数据的审核、筛选、排序等。          审核就是检查数据中是否有错误。从完整性和准

统计学第4天

学前知识点 方差:反映一组数据离散程度,除n是为了缩小数据量对结果的影响。 标准差: 多个统计量推断         使用z统计量和t统计量可对两个总体参数进行推断,如果需要对更多的参数进行推断需要研究多个变量之间的关系,需要用到方差分析的思想和内容。 统计数据的分类有分类数据、顺序数据和数值型数据,在实际运用中主要研究分类数据和数值型数据。数据类型的改变会导致研究方法的改变,本节介绍总

IA的统计学基础:深入解析与实践应用

IA的统计学基础:深入解析与实践应用 在数据泛滥的信息化时代,统计学作为解读数据语言的关键工具,对于任何希望从数据中提取价值的专业人士来说都是必修课。本文将从统计学的基本概念入手,深入探讨其技术细节,并展示如何将这些技术应用于实际问题解决中。 统计学的定义与重要性 统计学是数据分析的科学,它提供了一套量化数据特征、建模数据关系和做出推断决策的方法。统计学的应用遍及科学研究、工业生产、经济管理

统计学到底给我什么

2018/11/04 长久以来,总是自己相信也好,别人告诉也好,就说统计学非常有用。 可是自己也是看了统计学的书,当然,有很大原因是自己看书不够专注,导致最后的结果就是看了这么久,一直看不出什么效果。就是那种,感觉他很有用,但是又用不出来的感觉。 但是最近又有这种感觉,可能他就是这个原因呢,就是不能给我多好的实践出来的感觉。(说这句话,让我感觉,就是还是因为没有实践的机会) 举一个比较恰当的例子

数据分析------统计学知识点(五)

回归算法 想象一下,你和朋友在讨论:大学生活中,每天学习的时间是否真的能影响期末成绩?这个问题看似简单,实则包含了一个潜在的关系:学习时间与成绩之间的联系。我们想要知道,增加学习时间是否会提高成绩,以及这种提高有多显著。回归分析正是用来揭示变量之间关系的工具。简单来说,它可以帮助我们理解一个变量(称为因变量,如期末成绩)如何随着其他一个或多个变量(称为自变量,如学习时间)的变化而变化。 回归算

线性回归模型:统计学中的预测利器

线性回归模型:统计学中的预测利器 线性回归模型是统计学中一种重要的预测模型,广泛应用于各个领域,如经济学、社会科学、生物学和工程学等。它基于最小二乘法原理,通过拟合线性关系来解释变量之间的关系,并预测因变量的值。本文将详细介绍线性回归模型的基本概念、建立方法、评估指标以及实际应用案例,帮助读者更好地理解和运用这一强大的统计工具。 一、线性回归模型的基本概念 线性回归模型描述了一个或多个自变量

(十三)统计学基础练习题七(选择题T301-350)

本文整理了统计学基础知识相关的练习题,共50道,适用于想巩固统计学基础或备考的同学。来源:如荷学数据科学题库(技术专项-统计学二)。序号之前的题请看往期文章。 301) 302) 303) 304) 305) 306) 307) 308) 309) 310) 311) 312) 313) 314) 315)

从零开始统计学 01 | 假设检验

文章目录 一、提出假设二、选择检验方法2.1 正态分布2.2 t分布(*t-distribution*)与T检验2.3 F分布(*F-distribution*)与方差分析2.4 卡方分布 (*chi-square distribution*)与卡方检验2.4.1 检验数据是否服从某种分布2.4.1.1 使用绘图2.4.1.2 使用卡方检验2.4.1.3 使用Kolmogorov-Smirn

带你系统学习平滑样条、局部回归、广义可加性模型-豆瓣9.6分统计学神作ISL之第七章读书笔记(下)

目录 1.原文内容概要2.算法知识总结2.1 平滑样条(Smoothing Splines)2.1.1 平滑样条简介(An Overview of Smoothing Splines )2.1.2 选择调优参数λ(Choosing the Smoothing Parameter λ) 2.2 局部回归(Local Regression)2.3 广义可加性模型(Generalized Addi

豆瓣9.6分统计学神作ISL之第七章读书笔记(上),带你系统学习多项式回归、阶梯函数、基函数和回归样条

目录 1.原文内容概要2.算法知识总结2.1 多项式回归(Polynomial Regression)2.2 阶梯函数(Step Functions)2.3 基函数(Basis Functions)2.4 回归样条(Regression Splines)2.4.1 分段多项式回归(Piecewise Polynomials)2.4.2 约束条件与样条函数(Constraints and Sp