【统计学概念】初学者指南:了解置信区间

2023-10-15 13:20

本文主要是介绍【统计学概念】初学者指南:了解置信区间,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、说明

什么是置信区间?如何将概率转化成信心度?信心度如何去工作?这些初步的统计概念需要明晰,然后才能应用统计模型,然后是贝叶斯推理,我们将逐步深入这些概念。

二、总体与样本个体统计 

        总体是研究人员想要研究或得出结论的整个群体或一组个人、物体或事件。它可以是人,动物,植物,甚至是无生命的物体,具体取决于研究的背景。总体通常表示完整的可能数据点或观测值集。样本:

        样本是选择进行研究的总体子集。这是一个较小的群体,旨在代表较大的人口。研究人员从样本中收集数据,并用它来推断整个人口。由于从人口的每个成员收集数据通常是不切实际或不可能的,因此样本被用作收集信息的有效且具有成本效益的方法。

2.1 参数与估计

        参数:参数是描述总体特征的数值。参数通常使用希腊字母表示,例如μ (mu) 表示总体均值,σ (sigma) 表示总体标准差。由于通常很难或不可能从整个总体中获取数据,因此参数通常是未知的,必须根据可用的样本数据进行估计。

        统计量:统计量是描述样本特征的数值,样本是总体的子集。通过使用从代表性样本计算的统计数据,研究人员可以推断出未知的总体相应参数。常见的统计量包括样本均值(用 表示为 ,发音为“x-bar”)、样本中位数和样本标准差(用 s 表示)。

2.2 推论统计

        推论统计是统计学的一个分支,专注于根据从该总体中获取的数据样本对更大的人口进行预测、估计或概括。它涉及使用概率论通过分析较小的子集或样本来推断并得出有关总体特征的结论。推论统计背后的关键思想是,从人口的每个成员收集数据通常是不切实际或不可能的,因此我们使用具有代表性的样本来推断整个群体。推论统计技术包括假设检验、置信区间和回归分析等。这些方法可帮助研究人员回答以下问题:

        a。两组之间有显著差异吗?

        b.我们可以根据其他变量的值预测变量的结果吗?

        c. 两个或多个变量之间的关系是什么?

        推论统计广泛应用于经济学、社会科学、医学和自然科学等各个领域,以根据有限的数据做出明智的决策和指导政策。

2.3 点估计

点估计值是用于根据样本数据估计总体的未知参数的单个值。例如,如果要估计特定学校中所有学生的平均身高,则可以随机抽取 100 名学生并计算该样本的平均身高。计算出的样本平均身高是学校所有学生平均身高的点估计值。

假设样本中 100 名学生的平均身高为 5 英尺 7 英寸。这是对学校所有学生平均身高的点估计。但是,请务必注意,此估计值会受到采样误差的影响,这意味着它可能与真实总体参数不完全相同。

要提高估计值的准确性,您可以增加样本数量或使用更具代表性的样本。您还可以计算一个值范围(称为置信区间),其中包括具有特定置信度的真实总体参数。

三、置信区间

置信区间是根据样本数据计算的值范围,可能包含具有一定置信度的真实总体参数。这是一种估计点估计精度并量化估计周围不确定性的方法。

例如,假设您要估计某个国家/地区所有男性成年人的平均体重。您随机抽取 100 名男性成年人,并计算出他们的平均体重为 180 磅。但是,由于随机抽样变化,真实总体参数可能略高于或低于此估计值。

要计算总体平均权重的 95% 置信区间,应使用考虑样本数量、样本均值和样本标准差的公式。生成的区间将是真实总体参数可能位于 95% 置信度范围内的估计值。

95%置信区间意味着,如果我们用不同的样本多次重复这项研究,95%的结果区间将包含真实的总体参数。

例如,总体平均权重的 95% 置信区间可以计算为 175 到 185 磅,这意味着我们对真实总体平均权重介于这两个值之间的置信度为 95%。

置信区间在统计学中广泛用于估计点估计的精度并推断总体参数

四、置信水平

置信水平是计算的置信区间包含真实总体参数的确定性或概率。它通常表示为百分比或十进制值。

例如,95% 的置信水平意味着如果我们多次重复采样和估计过程,则生成的置信区间的 95% 将包含真实的总体参数。

换句话说,较高的置信水平意味着计算的置信区间包含真实总体参数的确定性更高。但是,增加置信水平也会增加区间的宽度,从而降低估计值的精度。

通常,统计推断中最常用的置信水平是 90%、95% 和 99%。置信水平的选择取决于人们愿意接受的错误推断的风险水平。置信水平越高,确定性越高,但需要更大的样本量,并导致更宽的置信区间

五、置信区间=点估计裕度

5.1 置信区间(已知西格玛)也称为 Z 过程。

当总体标准差 (sigma) 已知时,可以使用以下公式计算总体均值的置信区间:

CI=样本平均误差幅度

CI = x̄ ± Zα/2 * σ/√n

哪里:

  • CI 是总体均值的置信区间
  • x̄ 是样本均值。
  • Zα/2 是对应于所需置信水平的标准正态分布的临界值(例如,1% 置信水平为 96.95)
  • 总体标准差σ
  • n 是样本数量

5.2 例如

假设您要估计已知标准差为 10,000 美元的人口的平均收入。您随机抽取 50 人,并计算出他们的平均收入为 60,000 美元。使用 95% 置信水平时,临界值 Zα/2 为 1.96。代入这些值,总体平均收入的置信区间为:

CI = 60,000 ± 1.96 * 10,000/√50 = 60,000 ± 1,385.6 = (58,614.4, 61,385.6)

因此,根据此样本,我们 95% 的置信度,真实人口平均收入在 58,614.4 美元到 61,385.6 美元之间。

请注意,此公式假定样本是从正态分布或足够大的样本数量 (n≥30) 中随机选择的,没有强烈的偏度或异常值。

六、假设

随机抽样:必须使用随机抽样方法收集数据,以确保样本具有总体代表性。这有助于最大限度地减少偏差,并确保结果可以推广到整个人群。

已知总体标准差: 必须知道或准确估计总体标准差 (σ)。在实践中,总体标准差通常是未知的,样本标准差用作估计值。但是,如果样本数量足够大,则样本标准差可以提供相当准确的近似值。

正态分布或大样本量: Z 过程假定基础总体呈正态分布。但是,如果总体分布不正态,则可以在样本量较大时应用中心极限定理(通常,样本量 n ≥ 30 被认为足够大)。根据中心极限定理,样本均值的抽样分布将接近正态分布,如

七、影响误差幅度的因素

        边际误差是统计估计中由于随机抽样变化而预期的误差量。误差幅度受多种因素影响,包括:

样本数量:样本量越大,误差幅度越大,因为它减少了抽样变异。

信水平:较高的置信水平会增加边际误差,因为它会扩大置信区间。

总体大小:较小的总体大小会增加边际误差,因为它会减少有效样本数量。

总体变异性:总体变异性越大,误差幅度越大,因为它增加了抽样变异

抽样方法:与简单的随机抽样相比,某些抽样方法(如分层抽样或整群抽样)可能会降低误差幅度。

样本中的偏差:如果样本有偏差,则误差幅度可能会增加,因为样本不能准确代表总体。

应答率:较高的无应答率可能会增加误差幅度,因为它会减少有效样本量并可能引入偏倚。

在设计研究或解释统计估计结果时,考虑这些因素非常重要。通过了解影响误差幅度的因素,我们可以更好地解释统计估计的精度和准确性,并做出更明智的决策。

八、T 过程

t 检验是一种统计过程,用于检验样本的均值是否与已知或假设的总体均值显著不同。当总体标准差未知且样本数量较小(小于 30)时使用。

8.1 下面介绍了如何分五个步骤进行 t 检验:

  1. 陈述零假设和备选项假设。原假设 (H0) 是样本均值与总体均值之间没有显著差异的陈述。备择假设 (Ha) 是样本均值与总体均值之间存在显著差异的陈述。
  2. 确定显著性水平 (alpha) 和自由度。Alpha 是犯类型 I 错误的概率,即在原假设为真时拒绝原假设。自由度 (df) 取决于样本数量,等于 n-1。
  3. 计算检验统计量 (t)。检验统计量使用公式 t = (x̄ — μ) / (s / √n) 计算,其中 x̄ 是样本均值,μ是总体均值(假设或已知),s 是样本标准差,n 是样本数量。
  4. 确定 t 的临界值。该值是从具有 n-1 个自由度和所需显著性水平 (alpha) 的 t 分布表中获得的。
  5. 做出决定并解释结果。如果 t 的绝对值大于 t 的临界值,则否定原假设并得出样本均值与总体均值之间存在显著差异的结论。如果 t 的绝对值小于 t 的临界值,则无法否定原假设并得出样本均值与总体均值之间没有显著差异的结论。

例如,假设研究人员想要测试新的饮食计划是否有效减轻体重。随机选择15个人的样本,并记录他们在饮食计划之前和之后的体重。已知饮食计划前的人口平均体重为 175 磅,标准差为 12 磅。研究人员想要检验新的饮食计划导致体重在 0.05 显著水平上显着下降的假设。

  1. 原假设和备择假设为:

H0:μ=175(饮食计划前的平均体重与总体平均体重之间没有显著差异) Ha:μ <175(饮食计划后体重明显下降)

  1. Alpha 为 0.05,自由度为 15–1 = 14。
  2. 计算检验统计量:

        t = (x̄ — μ) / (s / √n) = (170–175) / (12 / √15) = -2.31

        其中 x̄ = 170,s = 12,n = 15。

        确定 t 的临界值:

        从具有 14 个自由度和 0.05 显著性水平的 t 分布表中,t 的临界值为 -1.76。

        由于t的绝对值(-2.31)大于t的临界值(-1.76),因此我们拒绝原假设,并得出结论,饮食计划后体重显着下降。我们可以将结果解释如下:在0.05的显著性水平上,证据表明新的饮食计划导致体重显着下降。阿贾梅塔

这篇关于【统计学概念】初学者指南:了解置信区间的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/218004

相关文章

Python使用qrcode库实现生成二维码的操作指南

《Python使用qrcode库实现生成二维码的操作指南》二维码是一种广泛使用的二维条码,因其高效的数据存储能力和易于扫描的特点,广泛应用于支付、身份验证、营销推广等领域,Pythonqrcode库是... 目录一、安装 python qrcode 库二、基本使用方法1. 生成简单二维码2. 生成带 Log

高效管理你的Linux系统: Debian操作系统常用命令指南

《高效管理你的Linux系统:Debian操作系统常用命令指南》在Debian操作系统中,了解和掌握常用命令对于提高工作效率和系统管理至关重要,本文将详细介绍Debian的常用命令,帮助读者更好地使... Debian是一个流行的linux发行版,它以其稳定性、强大的软件包管理和丰富的社区资源而闻名。在使用

macOS怎么轻松更换App图标? Mac电脑图标更换指南

《macOS怎么轻松更换App图标?Mac电脑图标更换指南》想要给你的Mac电脑按照自己的喜好来更换App图标?其实非常简单,只需要两步就能搞定,下面我来详细讲解一下... 虽然 MACOS 的个性化定制选项已经「缩水」,不如早期版本那么丰富,www.chinasem.cn但我们仍然可以按照自己的喜好来更换

什么是 Linux Mint? 适合初学者体验的桌面操作系统

《什么是LinuxMint?适合初学者体验的桌面操作系统》今天带你全面了解LinuxMint,包括它的历史、功能、版本以及独特亮点,话不多说,马上开始吧... linux Mint 是一款基于 Ubuntu 和 Debian 的知名发行版,它的用户体验非常友好,深受广大 Linux 爱好者和日常用户的青睐,

Python使用Pandas库将Excel数据叠加生成新DataFrame的操作指南

《Python使用Pandas库将Excel数据叠加生成新DataFrame的操作指南》在日常数据处理工作中,我们经常需要将不同Excel文档中的数据整合到一个新的DataFrame中,以便进行进一步... 目录一、准备工作二、读取Excel文件三、数据叠加四、处理重复数据(可选)五、保存新DataFram

使用JavaScript将PDF页面中的标注扁平化的操作指南

《使用JavaScript将PDF页面中的标注扁平化的操作指南》扁平化(flatten)操作可以将标注作为矢量图形包含在PDF页面的内容中,使其不可编辑,DynamsoftDocumentViewer... 目录使用Dynamsoft Document Viewer打开一个PDF文件并启用标注添加功能扁平化

电脑显示hdmi无信号怎么办? 电脑显示器无信号的终极解决指南

《电脑显示hdmi无信号怎么办?电脑显示器无信号的终极解决指南》HDMI无信号的问题却让人头疼不已,遇到这种情况该怎么办?针对这种情况,我们可以采取一系列步骤来逐一排查并解决问题,以下是详细的方法... 无论你是试图为笔记本电脑设置多个显示器还是使用外部显示器,都可能会弹出“无HDMI信号”错误。此消息可能

如何安装 Ubuntu 24.04 LTS 桌面版或服务器? Ubuntu安装指南

《如何安装Ubuntu24.04LTS桌面版或服务器?Ubuntu安装指南》对于我们程序员来说,有一个好用的操作系统、好的编程环境也是很重要,如何安装Ubuntu24.04LTS桌面... Ubuntu 24.04 LTS,代号 Noble NumBAT,于 2024 年 4 月 25 日正式发布,引入了众

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了