【统计推断】-01 抽样原理之(二)

2024-04-29 03:04
文章标签 统计 原理 01 抽样 推断

本文主要是介绍【统计推断】-01 抽样原理之(二),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

上篇文章:【统计推断】-01 抽样原理之(一)
关键词:Sampling distribution

目录

  • 一、说明
  • 二、抽样分布的定义、用法和示例
    • 2.1 什么是抽样分布?
    • 2.2 抽样分布如何工作
  • 三、确定抽样分布
  • 四、抽样分布的类型
  • 五、绘制抽样分布图
  • 六、为什么使用抽样来收集人口数据?
  • 七、为什么使用抽样分布?
  • 八、什么是均值?
  • 九、底线

一、说明

本篇是对上一篇文章(【统计推断】-01 抽样原理之(一))的展开阐述,本文用一些人口统计的事实,阐述抽样设计的要点和重要概念,通过此文,我们对母体和抽样的事实更加清晰,通过阅读此文,我们对后面文章的各类检验做出铺陈,使得统计操作过程更加具体详实。

二、抽样分布的定义、用法和示例

2.1 什么是抽样分布?

抽样分布是统计学中使用的概念。它是从特定总体中抽取的大量样本获得的统计量的概率分布。给定总体的抽样分布是总体统计中可能出现的一系列不同结果的频率分布。
这使得政府和企业等实体能够根据他们收集的信息做出更明智的决策。研究人员使用了几种抽样分布方法,包括均值抽样分布。

要点

  • 抽样分布是通过对特定总体进行重复抽样而获得的统计量的概率分布。
  • 它描述了统计数据的一系列可能结果,例如总体中某些变量的平均值或众数。
  • 研究人员分析的大部分数据实际上是样本,而不是总体。

2.2 抽样分布如何工作

数据使统计学家、研究人员、营销人员、分析师和学者能够就特定主题和信息得出重要结论。它可以帮助企业做出有关未来的决策并提高绩效,也可以帮助政府规划一群人所需的服务。

绘制和使用的许多数据实际上是样本而不是总体。样本是总体的子集。简而言之,样本是较大群体中的较小部分。因此,这个较小的部分应该代表整个母体。

抽样分布(或数据分布)是确定事件或特定结果是否发生的统计指标。这种分布取决于几个不同的因素,包括样本量、涉及的抽样过程以及总体元素规模。抽样分布涉及几个步骤。这些包括:

1)从总体中选择随机样本
2)确定该组的某个统计量,可以是标准差、中位数或平均值
3)建立每个样本的频率分布
4)在图表上绘制分布图
一旦收集、绘制和分析信息,研究人员就可以做出推论和结论。这可以帮助他们决定未来的期望。例如,政府可能能够根据特定社区的需求投资基础设施项目,或者如果抽样分布显示出积极的结果,公司可能会决定继续开展新的商业活动。
每个样本都有自己的样本均值,样本均值的分布称为样本分布。
特别注意事项

  • 1)总体中的观测值数量、样本中的观测值数量以及用于抽取样本集的程序决定了抽样分布的变异性。抽样分布的标准差称为标准误差。

  • 2)虽然抽样分布的平均值等于总体平均值,但标准误差取决于总体的标准差、总体规模和样本规模。

  • 3)了解每个样本集的均值彼此之间以及与总体均值的分布程度将表明样本均值与总体均值的接近程度。抽样分布的标准误差随着样本量的增加而减小。

三、确定抽样分布

假设一位医学研究人员想要将 1995 年至 2005 年在北美出生的所有婴儿的平均体重与同一时期内南美出生的婴儿的平均体重进行比较。由于他们无法在合理的时间内得出全部人口的数据,因此他们只会使用每个大陆的 100 个婴儿来得出结论。使用的数据是样本,计算出的平均权重是样本平均值。

现在假设他们从总体中重复随机抽样,并计算每个样本组的样本平均值。因此,对于北美,他们提取了美国、加拿大和墨西哥记录的 100 名新生儿体重数据,如下所示:

来自美国选定医院的 4 个 100 容量样本
来自加拿大的 5 个 70 容量样本
来自墨西哥的 3 条 150 容量样本
研究人员最终将 1,200 名新生婴儿的体重分为 12 组。他们还收集了南美洲 12 个国家各 100 个出生体重的样本数据。

为每个样本集计算的平均权重是均值的抽样分布。不仅仅是可以根据样本计算平均值。其他统计数据,例如标准差、方差、比例和极差,可以根据样本数据计算出来。标准差和方差衡量抽样分布的变异性。

四、抽样分布的类型

以下是对抽样分布类型的简要描述:

1)平均值的抽样分布:此方法显示正态分布,其中中间是抽样分布的平均值。因此,它代表了总体人口的平均值。为了达到这一点,研究人员必须计算出每个样本组的平均值并绘制出各个数据。
2)比例抽样分布:这种方法涉及从总体中选择样本集以获得样本的比例。比例的平均值最终成为较大群体的比例。
3)T 分布:这种类型的抽样分布在样本量较小的情况下很常见。当有关整个人口的信息很少时也可以使用它。 T 分布用于对平均值和其他统计点进行估计。
在 统计学中,总体是从中 抽取统计样本的整个池。总体可以指整个群体的人、物体、事件、医院就诊或测量结果。因此,总体可以说是对按共同特征分组在一起的受试者的聚合观察。

五、绘制抽样分布图

总体或一组数字样本将服从正态分布。然而,由于抽样分布包括多组观测值,因此它不一定具有钟形曲线形状。

按照我们的例子,北美和南美婴儿的人口平均体重呈正态分布,因为有些婴儿体重不足(低于平均值)或超重(高于平均值),而大多数婴儿介于两者之间(在平均值附近) )。如果北美新生儿的平均体重为 7 磅,则北美记录的 12 组样本观察中每组的样本平均体重也将接近 7 磅。

但是,如果将 1,200 个样本组中每个样本组计算出的每个平均值绘制成图表,所得形状可能会导致均匀分布,但很难准确预测实际形状会是什么。研究人员从超过一百万体重数据的人群中使用的样本越多,图表就越开始形成正态分布。

六、为什么使用抽样来收集人口数据?

抽样是收集和分析更大群体信息的一种方法。这样做是因为由于涉及的受试者数量庞大,研究人员无法研究整个人群。因此,并非较大群体中的每个人都可以包括在内,因为研究和分析数据可能需要很长时间。它允许政府和企业等实体做出有关未来的重要决策,无论这意味着投资基础设施项目、社会服务计划还是新产品。

七、为什么使用抽样分布?

抽样分布用于统计和研究。它们强调了可能发生的事件的机会或概率。这是基于从较大人群中的一小群人收集的一组数据。

八、什么是均值?

平均值是统计和研究中使用的度量标准。它是至少两个数字的平均值。可以通过将所有数字相加并将结果除以该集合中的数字数量来确定平均值。这称为算术平均值。您可以通过将数据集的值相乘并求总和的根等于该数据集中的值的数量来确定几何平均值。

九、底线

由于涉及的受试者数量众多,研究人员无法对非常大的群体做出结论。这就是他们使用抽样的原因。抽样使他们能够从大量人群中抽取一小部分人并分析数据。一旦收集到数据,研究人员就可以绘制出抽样分布,这使他们能够确定某个事件是否可能在特定人群中发生。这可能包括业务增长或人口趋势,这可以帮助企业、政府和其他实体为未来做出更好的决策。

这篇关于【统计推断】-01 抽样原理之(二)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/944951

相关文章

MySQL中的MVCC底层原理解读

《MySQL中的MVCC底层原理解读》本文详细介绍了MySQL中的多版本并发控制(MVCC)机制,包括版本链、ReadView以及在不同事务隔离级别下MVCC的工作原理,通过一个具体的示例演示了在可重... 目录简介ReadView版本链演示过程总结简介MVCC(Multi-Version Concurr

Redis主从/哨兵机制原理分析

《Redis主从/哨兵机制原理分析》本文介绍了Redis的主从复制和哨兵机制,主从复制实现了数据的热备份和负载均衡,而哨兵机制可以监控Redis集群,实现自动故障转移,哨兵机制通过监控、下线、选举和故... 目录一、主从复制1.1 什么是主从复制1.2 主从复制的作用1.3 主从复制原理1.3.1 全量复制

Redis主从复制的原理分析

《Redis主从复制的原理分析》Redis主从复制通过将数据镜像到多个从节点,实现高可用性和扩展性,主从复制包括初次全量同步和增量同步两个阶段,为优化复制性能,可以采用AOF持久化、调整复制超时时间、... 目录Redis主从复制的原理主从复制概述配置主从复制数据同步过程复制一致性与延迟故障转移机制监控与维

SpringCloud配置动态更新原理解析

《SpringCloud配置动态更新原理解析》在微服务架构的浩瀚星海中,服务配置的动态更新如同魔法一般,能够让应用在不重启的情况下,实时响应配置的变更,SpringCloud作为微服务架构中的佼佼者,... 目录一、SpringBoot、Cloud配置的读取二、SpringCloud配置动态刷新三、更新@R

Redis主从复制实现原理分析

《Redis主从复制实现原理分析》Redis主从复制通过Sync和CommandPropagate阶段实现数据同步,2.8版本后引入Psync指令,根据复制偏移量进行全量或部分同步,优化了数据传输效率... 目录Redis主DodMIK从复制实现原理实现原理Psync: 2.8版本后总结Redis主从复制实

opencv实现像素统计的示例代码

《opencv实现像素统计的示例代码》本文介绍了OpenCV中统计图像像素信息的常用方法和函数,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录1. 统计像素值的基本信息2. 统计像素值的直方图3. 统计像素值的总和4. 统计非零像素的数量

如何使用 Bash 脚本中的time命令来统计命令执行时间(中英双语)

《如何使用Bash脚本中的time命令来统计命令执行时间(中英双语)》本文介绍了如何在Bash脚本中使用`time`命令来测量命令执行时间,包括`real`、`user`和`sys`三个时间指标,... 使用 Bash 脚本中的 time 命令来统计命令执行时间在日常的开发和运维过程中,性能监控和优化是不

hdu1496(用hash思想统计数目)

作为一个刚学hash的孩子,感觉这道题目很不错,灵活的运用的数组的下标。 解题步骤:如果用常规方法解,那么时间复杂度为O(n^4),肯定会超时,然后参考了网上的解题方法,将等式分成两个部分,a*x1^2+b*x2^2和c*x3^2+d*x4^2, 各自作为数组的下标,如果两部分相加为0,则满足等式; 代码如下: #include<iostream>#include<algorithm

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于

hdu4407(容斥原理)

题意:给一串数字1,2,......n,两个操作:1、修改第k个数字,2、查询区间[l,r]中与n互质的数之和。 解题思路:咱一看,像线段树,但是如果用线段树做,那么每个区间一定要记录所有的素因子,这样会超内存。然后我就做不来了。后来看了题解,原来是用容斥原理来做的。还记得这道题目吗?求区间[1,r]中与p互质的数的个数,如果不会的话就先去做那题吧。现在这题是求区间[l,r]中与n互质的数的和