【统计推断】-01 抽样原理之(二)

2024-04-29 03:04
文章标签 统计 原理 01 抽样 推断

本文主要是介绍【统计推断】-01 抽样原理之(二),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

上篇文章:【统计推断】-01 抽样原理之(一)
关键词:Sampling distribution

目录

  • 一、说明
  • 二、抽样分布的定义、用法和示例
    • 2.1 什么是抽样分布?
    • 2.2 抽样分布如何工作
  • 三、确定抽样分布
  • 四、抽样分布的类型
  • 五、绘制抽样分布图
  • 六、为什么使用抽样来收集人口数据?
  • 七、为什么使用抽样分布?
  • 八、什么是均值?
  • 九、底线

一、说明

本篇是对上一篇文章(【统计推断】-01 抽样原理之(一))的展开阐述,本文用一些人口统计的事实,阐述抽样设计的要点和重要概念,通过此文,我们对母体和抽样的事实更加清晰,通过阅读此文,我们对后面文章的各类检验做出铺陈,使得统计操作过程更加具体详实。

二、抽样分布的定义、用法和示例

2.1 什么是抽样分布?

抽样分布是统计学中使用的概念。它是从特定总体中抽取的大量样本获得的统计量的概率分布。给定总体的抽样分布是总体统计中可能出现的一系列不同结果的频率分布。
这使得政府和企业等实体能够根据他们收集的信息做出更明智的决策。研究人员使用了几种抽样分布方法,包括均值抽样分布。

要点

  • 抽样分布是通过对特定总体进行重复抽样而获得的统计量的概率分布。
  • 它描述了统计数据的一系列可能结果,例如总体中某些变量的平均值或众数。
  • 研究人员分析的大部分数据实际上是样本,而不是总体。

2.2 抽样分布如何工作

数据使统计学家、研究人员、营销人员、分析师和学者能够就特定主题和信息得出重要结论。它可以帮助企业做出有关未来的决策并提高绩效,也可以帮助政府规划一群人所需的服务。

绘制和使用的许多数据实际上是样本而不是总体。样本是总体的子集。简而言之,样本是较大群体中的较小部分。因此,这个较小的部分应该代表整个母体。

抽样分布(或数据分布)是确定事件或特定结果是否发生的统计指标。这种分布取决于几个不同的因素,包括样本量、涉及的抽样过程以及总体元素规模。抽样分布涉及几个步骤。这些包括:

1)从总体中选择随机样本
2)确定该组的某个统计量,可以是标准差、中位数或平均值
3)建立每个样本的频率分布
4)在图表上绘制分布图
一旦收集、绘制和分析信息,研究人员就可以做出推论和结论。这可以帮助他们决定未来的期望。例如,政府可能能够根据特定社区的需求投资基础设施项目,或者如果抽样分布显示出积极的结果,公司可能会决定继续开展新的商业活动。
每个样本都有自己的样本均值,样本均值的分布称为样本分布。
特别注意事项

  • 1)总体中的观测值数量、样本中的观测值数量以及用于抽取样本集的程序决定了抽样分布的变异性。抽样分布的标准差称为标准误差。

  • 2)虽然抽样分布的平均值等于总体平均值,但标准误差取决于总体的标准差、总体规模和样本规模。

  • 3)了解每个样本集的均值彼此之间以及与总体均值的分布程度将表明样本均值与总体均值的接近程度。抽样分布的标准误差随着样本量的增加而减小。

三、确定抽样分布

假设一位医学研究人员想要将 1995 年至 2005 年在北美出生的所有婴儿的平均体重与同一时期内南美出生的婴儿的平均体重进行比较。由于他们无法在合理的时间内得出全部人口的数据,因此他们只会使用每个大陆的 100 个婴儿来得出结论。使用的数据是样本,计算出的平均权重是样本平均值。

现在假设他们从总体中重复随机抽样,并计算每个样本组的样本平均值。因此,对于北美,他们提取了美国、加拿大和墨西哥记录的 100 名新生儿体重数据,如下所示:

来自美国选定医院的 4 个 100 容量样本
来自加拿大的 5 个 70 容量样本
来自墨西哥的 3 条 150 容量样本
研究人员最终将 1,200 名新生婴儿的体重分为 12 组。他们还收集了南美洲 12 个国家各 100 个出生体重的样本数据。

为每个样本集计算的平均权重是均值的抽样分布。不仅仅是可以根据样本计算平均值。其他统计数据,例如标准差、方差、比例和极差,可以根据样本数据计算出来。标准差和方差衡量抽样分布的变异性。

四、抽样分布的类型

以下是对抽样分布类型的简要描述:

1)平均值的抽样分布:此方法显示正态分布,其中中间是抽样分布的平均值。因此,它代表了总体人口的平均值。为了达到这一点,研究人员必须计算出每个样本组的平均值并绘制出各个数据。
2)比例抽样分布:这种方法涉及从总体中选择样本集以获得样本的比例。比例的平均值最终成为较大群体的比例。
3)T 分布:这种类型的抽样分布在样本量较小的情况下很常见。当有关整个人口的信息很少时也可以使用它。 T 分布用于对平均值和其他统计点进行估计。
在 统计学中,总体是从中 抽取统计样本的整个池。总体可以指整个群体的人、物体、事件、医院就诊或测量结果。因此,总体可以说是对按共同特征分组在一起的受试者的聚合观察。

五、绘制抽样分布图

总体或一组数字样本将服从正态分布。然而,由于抽样分布包括多组观测值,因此它不一定具有钟形曲线形状。

按照我们的例子,北美和南美婴儿的人口平均体重呈正态分布,因为有些婴儿体重不足(低于平均值)或超重(高于平均值),而大多数婴儿介于两者之间(在平均值附近) )。如果北美新生儿的平均体重为 7 磅,则北美记录的 12 组样本观察中每组的样本平均体重也将接近 7 磅。

但是,如果将 1,200 个样本组中每个样本组计算出的每个平均值绘制成图表,所得形状可能会导致均匀分布,但很难准确预测实际形状会是什么。研究人员从超过一百万体重数据的人群中使用的样本越多,图表就越开始形成正态分布。

六、为什么使用抽样来收集人口数据?

抽样是收集和分析更大群体信息的一种方法。这样做是因为由于涉及的受试者数量庞大,研究人员无法研究整个人群。因此,并非较大群体中的每个人都可以包括在内,因为研究和分析数据可能需要很长时间。它允许政府和企业等实体做出有关未来的重要决策,无论这意味着投资基础设施项目、社会服务计划还是新产品。

七、为什么使用抽样分布?

抽样分布用于统计和研究。它们强调了可能发生的事件的机会或概率。这是基于从较大人群中的一小群人收集的一组数据。

八、什么是均值?

平均值是统计和研究中使用的度量标准。它是至少两个数字的平均值。可以通过将所有数字相加并将结果除以该集合中的数字数量来确定平均值。这称为算术平均值。您可以通过将数据集的值相乘并求总和的根等于该数据集中的值的数量来确定几何平均值。

九、底线

由于涉及的受试者数量众多,研究人员无法对非常大的群体做出结论。这就是他们使用抽样的原因。抽样使他们能够从大量人群中抽取一小部分人并分析数据。一旦收集到数据,研究人员就可以绘制出抽样分布,这使他们能够确定某个事件是否可能在特定人群中发生。这可能包括业务增长或人口趋势,这可以帮助企业、政府和其他实体为未来做出更好的决策。

这篇关于【统计推断】-01 抽样原理之(二)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/944951

相关文章

C++统计函数执行时间的最佳实践

《C++统计函数执行时间的最佳实践》在软件开发过程中,性能分析是优化程序的重要环节,了解函数的执行时间分布对于识别性能瓶颈至关重要,本文将分享一个C++函数执行时间统计工具,希望对大家有所帮助... 目录前言工具特性核心设计1. 数据结构设计2. 单例模式管理器3. RAII自动计时使用方法基本用法高级用法

ShardingProxy读写分离之原理、配置与实践过程

《ShardingProxy读写分离之原理、配置与实践过程》ShardingProxy是ApacheShardingSphere的数据库中间件,通过三层架构实现读写分离,解决高并发场景下数据库性能瓶... 目录一、ShardingProxy技术定位与读写分离核心价值1.1 技术定位1.2 读写分离核心价值二

深度解析Python中递归下降解析器的原理与实现

《深度解析Python中递归下降解析器的原理与实现》在编译器设计、配置文件处理和数据转换领域,递归下降解析器是最常用且最直观的解析技术,本文将详细介绍递归下降解析器的原理与实现,感兴趣的小伙伴可以跟随... 目录引言:解析器的核心价值一、递归下降解析器基础1.1 核心概念解析1.2 基本架构二、简单算术表达

深入浅出Spring中的@Autowired自动注入的工作原理及实践应用

《深入浅出Spring中的@Autowired自动注入的工作原理及实践应用》在Spring框架的学习旅程中,@Autowired无疑是一个高频出现却又让初学者头疼的注解,它看似简单,却蕴含着Sprin... 目录深入浅出Spring中的@Autowired:自动注入的奥秘什么是依赖注入?@Autowired

从原理到实战解析Java Stream 的并行流性能优化

《从原理到实战解析JavaStream的并行流性能优化》本文给大家介绍JavaStream的并行流性能优化:从原理到实战的全攻略,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的... 目录一、并行流的核心原理与适用场景二、性能优化的核心策略1. 合理设置并行度:打破默认阈值2. 避免装箱

Python中的filter() 函数的工作原理及应用技巧

《Python中的filter()函数的工作原理及应用技巧》Python的filter()函数用于筛选序列元素,返回迭代器,适合函数式编程,相比列表推导式,内存更优,尤其适用于大数据集,结合lamb... 目录前言一、基本概念基本语法二、使用方式1. 使用 lambda 函数2. 使用普通函数3. 使用 N

IDEA与MyEclipse代码量统计方式

《IDEA与MyEclipse代码量统计方式》文章介绍在项目中不安装第三方工具统计代码行数的方法,分别说明MyEclipse通过正则搜索(排除空行和注释)及IDEA使用Statistic插件或调整搜索... 目录项目场景MyEclipse代码量统计IDEA代码量统计总结项目场景在项目中,有时候我们需要统计

MyBatis-Plus 与 Spring Boot 集成原理实战示例

《MyBatis-Plus与SpringBoot集成原理实战示例》MyBatis-Plus通过自动配置与核心组件集成SpringBoot实现零配置,提供分页、逻辑删除等插件化功能,增强MyBa... 目录 一、MyBATis-Plus 简介 二、集成方式(Spring Boot)1. 引入依赖 三、核心机制

redis和redission分布式锁原理及区别说明

《redis和redission分布式锁原理及区别说明》文章对比了synchronized、乐观锁、Redis分布式锁及Redission锁的原理与区别,指出在集群环境下synchronized失效,... 目录Redis和redission分布式锁原理及区别1、有的同伴想到了synchronized关键字

Linux中的HTTPS协议原理分析

《Linux中的HTTPS协议原理分析》文章解释了HTTPS的必要性:HTTP明文传输易被篡改和劫持,HTTPS通过非对称加密协商对称密钥、CA证书认证和混合加密机制,有效防范中间人攻击,保障通信安全... 目录一、什么是加密和解密?二、为什么需要加密?三、常见的加密方式3.1 对称加密3.2非对称加密四、