【统计学概念】初学者指南:了解置信区间

2023-10-15 13:20

本文主要是介绍【统计学概念】初学者指南:了解置信区间,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、说明

什么是置信区间?如何将概率转化成信心度?信心度如何去工作?这些初步的统计概念需要明晰,然后才能应用统计模型,然后是贝叶斯推理,我们将逐步深入这些概念。

二、总体与样本个体统计 

        总体是研究人员想要研究或得出结论的整个群体或一组个人、物体或事件。它可以是人,动物,植物,甚至是无生命的物体,具体取决于研究的背景。总体通常表示完整的可能数据点或观测值集。样本:

        样本是选择进行研究的总体子集。这是一个较小的群体,旨在代表较大的人口。研究人员从样本中收集数据,并用它来推断整个人口。由于从人口的每个成员收集数据通常是不切实际或不可能的,因此样本被用作收集信息的有效且具有成本效益的方法。

2.1 参数与估计

        参数:参数是描述总体特征的数值。参数通常使用希腊字母表示,例如μ (mu) 表示总体均值,σ (sigma) 表示总体标准差。由于通常很难或不可能从整个总体中获取数据,因此参数通常是未知的,必须根据可用的样本数据进行估计。

        统计量:统计量是描述样本特征的数值,样本是总体的子集。通过使用从代表性样本计算的统计数据,研究人员可以推断出未知的总体相应参数。常见的统计量包括样本均值(用 表示为 ,发音为“x-bar”)、样本中位数和样本标准差(用 s 表示)。

2.2 推论统计

        推论统计是统计学的一个分支,专注于根据从该总体中获取的数据样本对更大的人口进行预测、估计或概括。它涉及使用概率论通过分析较小的子集或样本来推断并得出有关总体特征的结论。推论统计背后的关键思想是,从人口的每个成员收集数据通常是不切实际或不可能的,因此我们使用具有代表性的样本来推断整个群体。推论统计技术包括假设检验、置信区间和回归分析等。这些方法可帮助研究人员回答以下问题:

        a。两组之间有显著差异吗?

        b.我们可以根据其他变量的值预测变量的结果吗?

        c. 两个或多个变量之间的关系是什么?

        推论统计广泛应用于经济学、社会科学、医学和自然科学等各个领域,以根据有限的数据做出明智的决策和指导政策。

2.3 点估计

点估计值是用于根据样本数据估计总体的未知参数的单个值。例如,如果要估计特定学校中所有学生的平均身高,则可以随机抽取 100 名学生并计算该样本的平均身高。计算出的样本平均身高是学校所有学生平均身高的点估计值。

假设样本中 100 名学生的平均身高为 5 英尺 7 英寸。这是对学校所有学生平均身高的点估计。但是,请务必注意,此估计值会受到采样误差的影响,这意味着它可能与真实总体参数不完全相同。

要提高估计值的准确性,您可以增加样本数量或使用更具代表性的样本。您还可以计算一个值范围(称为置信区间),其中包括具有特定置信度的真实总体参数。

三、置信区间

置信区间是根据样本数据计算的值范围,可能包含具有一定置信度的真实总体参数。这是一种估计点估计精度并量化估计周围不确定性的方法。

例如,假设您要估计某个国家/地区所有男性成年人的平均体重。您随机抽取 100 名男性成年人,并计算出他们的平均体重为 180 磅。但是,由于随机抽样变化,真实总体参数可能略高于或低于此估计值。

要计算总体平均权重的 95% 置信区间,应使用考虑样本数量、样本均值和样本标准差的公式。生成的区间将是真实总体参数可能位于 95% 置信度范围内的估计值。

95%置信区间意味着,如果我们用不同的样本多次重复这项研究,95%的结果区间将包含真实的总体参数。

例如,总体平均权重的 95% 置信区间可以计算为 175 到 185 磅,这意味着我们对真实总体平均权重介于这两个值之间的置信度为 95%。

置信区间在统计学中广泛用于估计点估计的精度并推断总体参数

四、置信水平

置信水平是计算的置信区间包含真实总体参数的确定性或概率。它通常表示为百分比或十进制值。

例如,95% 的置信水平意味着如果我们多次重复采样和估计过程,则生成的置信区间的 95% 将包含真实的总体参数。

换句话说,较高的置信水平意味着计算的置信区间包含真实总体参数的确定性更高。但是,增加置信水平也会增加区间的宽度,从而降低估计值的精度。

通常,统计推断中最常用的置信水平是 90%、95% 和 99%。置信水平的选择取决于人们愿意接受的错误推断的风险水平。置信水平越高,确定性越高,但需要更大的样本量,并导致更宽的置信区间

五、置信区间=点估计裕度

5.1 置信区间(已知西格玛)也称为 Z 过程。

当总体标准差 (sigma) 已知时,可以使用以下公式计算总体均值的置信区间:

CI=样本平均误差幅度

CI = x̄ ± Zα/2 * σ/√n

哪里:

  • CI 是总体均值的置信区间
  • x̄ 是样本均值。
  • Zα/2 是对应于所需置信水平的标准正态分布的临界值(例如,1% 置信水平为 96.95)
  • 总体标准差σ
  • n 是样本数量

5.2 例如

假设您要估计已知标准差为 10,000 美元的人口的平均收入。您随机抽取 50 人,并计算出他们的平均收入为 60,000 美元。使用 95% 置信水平时,临界值 Zα/2 为 1.96。代入这些值,总体平均收入的置信区间为:

CI = 60,000 ± 1.96 * 10,000/√50 = 60,000 ± 1,385.6 = (58,614.4, 61,385.6)

因此,根据此样本,我们 95% 的置信度,真实人口平均收入在 58,614.4 美元到 61,385.6 美元之间。

请注意,此公式假定样本是从正态分布或足够大的样本数量 (n≥30) 中随机选择的,没有强烈的偏度或异常值。

六、假设

随机抽样:必须使用随机抽样方法收集数据,以确保样本具有总体代表性。这有助于最大限度地减少偏差,并确保结果可以推广到整个人群。

已知总体标准差: 必须知道或准确估计总体标准差 (σ)。在实践中,总体标准差通常是未知的,样本标准差用作估计值。但是,如果样本数量足够大,则样本标准差可以提供相当准确的近似值。

正态分布或大样本量: Z 过程假定基础总体呈正态分布。但是,如果总体分布不正态,则可以在样本量较大时应用中心极限定理(通常,样本量 n ≥ 30 被认为足够大)。根据中心极限定理,样本均值的抽样分布将接近正态分布,如

七、影响误差幅度的因素

        边际误差是统计估计中由于随机抽样变化而预期的误差量。误差幅度受多种因素影响,包括:

样本数量:样本量越大,误差幅度越大,因为它减少了抽样变异。

信水平:较高的置信水平会增加边际误差,因为它会扩大置信区间。

总体大小:较小的总体大小会增加边际误差,因为它会减少有效样本数量。

总体变异性:总体变异性越大,误差幅度越大,因为它增加了抽样变异

抽样方法:与简单的随机抽样相比,某些抽样方法(如分层抽样或整群抽样)可能会降低误差幅度。

样本中的偏差:如果样本有偏差,则误差幅度可能会增加,因为样本不能准确代表总体。

应答率:较高的无应答率可能会增加误差幅度,因为它会减少有效样本量并可能引入偏倚。

在设计研究或解释统计估计结果时,考虑这些因素非常重要。通过了解影响误差幅度的因素,我们可以更好地解释统计估计的精度和准确性,并做出更明智的决策。

八、T 过程

t 检验是一种统计过程,用于检验样本的均值是否与已知或假设的总体均值显著不同。当总体标准差未知且样本数量较小(小于 30)时使用。

8.1 下面介绍了如何分五个步骤进行 t 检验:

  1. 陈述零假设和备选项假设。原假设 (H0) 是样本均值与总体均值之间没有显著差异的陈述。备择假设 (Ha) 是样本均值与总体均值之间存在显著差异的陈述。
  2. 确定显著性水平 (alpha) 和自由度。Alpha 是犯类型 I 错误的概率,即在原假设为真时拒绝原假设。自由度 (df) 取决于样本数量,等于 n-1。
  3. 计算检验统计量 (t)。检验统计量使用公式 t = (x̄ — μ) / (s / √n) 计算,其中 x̄ 是样本均值,μ是总体均值(假设或已知),s 是样本标准差,n 是样本数量。
  4. 确定 t 的临界值。该值是从具有 n-1 个自由度和所需显著性水平 (alpha) 的 t 分布表中获得的。
  5. 做出决定并解释结果。如果 t 的绝对值大于 t 的临界值,则否定原假设并得出样本均值与总体均值之间存在显著差异的结论。如果 t 的绝对值小于 t 的临界值,则无法否定原假设并得出样本均值与总体均值之间没有显著差异的结论。

例如,假设研究人员想要测试新的饮食计划是否有效减轻体重。随机选择15个人的样本,并记录他们在饮食计划之前和之后的体重。已知饮食计划前的人口平均体重为 175 磅,标准差为 12 磅。研究人员想要检验新的饮食计划导致体重在 0.05 显著水平上显着下降的假设。

  1. 原假设和备择假设为:

H0:μ=175(饮食计划前的平均体重与总体平均体重之间没有显著差异) Ha:μ <175(饮食计划后体重明显下降)

  1. Alpha 为 0.05,自由度为 15–1 = 14。
  2. 计算检验统计量:

        t = (x̄ — μ) / (s / √n) = (170–175) / (12 / √15) = -2.31

        其中 x̄ = 170,s = 12,n = 15。

        确定 t 的临界值:

        从具有 14 个自由度和 0.05 显著性水平的 t 分布表中,t 的临界值为 -1.76。

        由于t的绝对值(-2.31)大于t的临界值(-1.76),因此我们拒绝原假设,并得出结论,饮食计划后体重显着下降。我们可以将结果解释如下:在0.05的显著性水平上,证据表明新的饮食计划导致体重显着下降。阿贾梅塔

这篇关于【统计学概念】初学者指南:了解置信区间的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/218004

相关文章

Spring Boot结成MyBatis-Plus最全配置指南

《SpringBoot结成MyBatis-Plus最全配置指南》本文主要介绍了SpringBoot结成MyBatis-Plus最全配置指南,包括依赖引入、配置数据源、Mapper扫描、基本CRUD操... 目录前言详细操作一.创建项目并引入相关依赖二.配置数据源信息三.编写相关代码查zsRArly询数据库数

SpringBoot启动报错的11个高频问题排查与解决终极指南

《SpringBoot启动报错的11个高频问题排查与解决终极指南》这篇文章主要为大家详细介绍了SpringBoot启动报错的11个高频问题的排查与解决,文中的示例代码讲解详细,感兴趣的小伙伴可以了解一... 目录1. 依赖冲突:NoSuchMethodError 的终极解法2. Bean注入失败:No qu

JavaScript错误处理避坑指南

《JavaScript错误处理避坑指南》JavaScript错误处理是编程过程中不可避免的部分,它涉及到识别、捕获和响应代码运行时可能出现的问题,本文将详细给大家介绍一下JavaScript错误处理的... 目录一、错误类型:三大“杀手”与应对策略1. 语法错误(SyntaxError)2. 运行时错误(R

Python使用date模块进行日期处理的终极指南

《Python使用date模块进行日期处理的终极指南》在处理与时间相关的数据时,Python的date模块是开发者最趁手的工具之一,本文将用通俗的语言,结合真实案例,带您掌握date模块的六大核心功能... 目录引言一、date模块的核心功能1.1 日期表示1.2 日期计算1.3 日期比较二、六大常用方法详

一文带你了解SpringBoot中启动参数的各种用法

《一文带你了解SpringBoot中启动参数的各种用法》在使用SpringBoot开发应用时,我们通常需要根据不同的环境或特定需求调整启动参数,那么,SpringBoot提供了哪些方式来配置这些启动参... 目录一、启动参数的常见传递方式二、通过命令行参数传递启动参数三、使用 application.pro

MySQL中慢SQL优化方法的完整指南

《MySQL中慢SQL优化方法的完整指南》当数据库响应时间超过500ms时,系统将面临三大灾难链式反应,所以本文将为大家介绍一下MySQL中慢SQL优化的常用方法,有需要的小伙伴可以了解下... 目录一、慢SQL的致命影响二、精准定位问题SQL1. 启用慢查询日志2. 诊断黄金三件套三、六大核心优化方案方案

使用Python高效获取网络数据的操作指南

《使用Python高效获取网络数据的操作指南》网络爬虫是一种自动化程序,用于访问和提取网站上的数据,Python是进行网络爬虫开发的理想语言,拥有丰富的库和工具,使得编写和维护爬虫变得简单高效,本文将... 目录网络爬虫的基本概念常用库介绍安装库Requests和BeautifulSoup爬虫开发发送请求解

SpringBoot整合MybatisPlus的基本应用指南

《SpringBoot整合MybatisPlus的基本应用指南》MyBatis-Plus,简称MP,是一个MyBatis的增强工具,在MyBatis的基础上只做增强不做改变,下面小编就来和大家介绍一下... 目录一、MyBATisPlus简介二、SpringBoot整合MybatisPlus1、创建数据库和

Python中DataFrame转列表的最全指南

《Python中DataFrame转列表的最全指南》在Python数据分析中,Pandas的DataFrame是最常用的数据结构之一,本文将为你详解5种主流DataFrame转换为列表的方法,大家可以... 目录引言一、基础转换方法解析1. tolist()直接转换法2. values.tolist()矩阵

JDK多版本共存并自由切换的操作指南(本文为JDK8和JDK17)

《JDK多版本共存并自由切换的操作指南(本文为JDK8和JDK17)》本文介绍了如何在Windows系统上配置多版本JDK(以JDK8和JDK17为例),并通过图文结合的方式给大家讲解了详细步骤,具有... 目录第一步 下载安装JDK第二步 配置环境变量第三步 切换JDK版本并验证可能遇到的问题前提:公司常