【统计推断】-01 抽样原理之（二）

本文主要是介绍【统计推断】-01 抽样原理之（二），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

上篇文章：【统计推断】-01 抽样原理之（一）
关键词：Sampling distribution

一、说明
二、抽样分布的定义、用法和示例
- 2.1 什么是抽样分布？
- 2.2 抽样分布如何工作
三、确定抽样分布
四、抽样分布的类型
五、绘制抽样分布图
六、为什么使用抽样来收集人口数据？
七、为什么使用抽样分布？
八、什么是均值？
九、底线

一、说明

本篇是对上一篇文章（【统计推断】-01 抽样原理之（一））的展开阐述，本文用一些人口统计的事实，阐述抽样设计的要点和重要概念，通过此文，我们对母体和抽样的事实更加清晰，通过阅读此文，我们对后面文章的各类检验做出铺陈，使得统计操作过程更加具体详实。

二、抽样分布的定义、用法和示例

2.1 什么是抽样分布？

抽样分布是统计学中使用的概念。它是从特定总体中抽取的大量样本获得的统计量的概率分布。给定总体的抽样分布是总体统计中可能出现的一系列不同结果的频率分布。
这使得政府和企业等实体能够根据他们收集的信息做出更明智的决策。研究人员使用了几种抽样分布方法，包括均值抽样分布。

要点

抽样分布是通过对特定总体进行重复抽样而获得的统计量的概率分布。
它描述了统计数据的一系列可能结果，例如总体中某些变量的平均值或众数。
研究人员分析的大部分数据实际上是样本，而不是总体。

2.2 抽样分布如何工作

数据使统计学家、研究人员、营销人员、分析师和学者能够就特定主题和信息得出重要结论。它可以帮助企业做出有关未来的决策并提高绩效，也可以帮助政府规划一群人所需的服务。

绘制和使用的许多数据实际上是样本而不是总体。样本是总体的子集。简而言之，样本是较大群体中的较小部分。因此，这个较小的部分应该代表整个母体。

抽样分布（或数据分布）是确定事件或特定结果是否发生的统计指标。这种分布取决于几个不同的因素，包括样本量、涉及的抽样过程以及总体元素规模。抽样分布涉及几个步骤。这些包括：

1）从总体中选择随机样本
2）确定该组的某个统计量，可以是标准差、中位数或平均值
3）建立每个样本的频率分布
4）在图表上绘制分布图
一旦收集、绘制和分析信息，研究人员就可以做出推论和结论。这可以帮助他们决定未来的期望。例如，政府可能能够根据特定社区的需求投资基础设施项目，或者如果抽样分布显示出积极的结果，公司可能会决定继续开展新的商业活动。
每个样本都有自己的样本均值，样本均值的分布称为样本分布。
特别注意事项

1）总体中的观测值数量、样本中的观测值数量以及用于抽取样本集的程序决定了抽样分布的变异性。抽样分布的标准差称为标准误差。
2）虽然抽样分布的平均值等于总体平均值，但标准误差取决于总体的标准差、总体规模和样本规模。
3）了解每个样本集的均值彼此之间以及与总体均值的分布程度将表明样本均值与总体均值的接近程度。抽样分布的标准误差随着样本量的增加而减小。

三、确定抽样分布

假设一位医学研究人员想要将 1995 年至 2005 年在北美出生的所有婴儿的平均体重与同一时期内南美出生的婴儿的平均体重进行比较。由于他们无法在合理的时间内得出全部人口的数据，因此他们只会使用每个大陆的 100 个婴儿来得出结论。使用的数据是样本，计算出的平均权重是样本平均值。

现在假设他们从总体中重复随机抽样，并计算每个样本组的样本平均值。因此，对于北美，他们提取了美国、加拿大和墨西哥记录的 100 名新生儿体重数据，如下所示：

来自美国选定医院的 4 个 100 容量样本
来自加拿大的 5 个 70 容量样本
来自墨西哥的 3 条 150 容量样本
研究人员最终将 1,200 名新生婴儿的体重分为 12 组。他们还收集了南美洲 12 个国家各 100 个出生体重的样本数据。

为每个样本集计算的平均权重是均值的抽样分布。不仅仅是可以根据样本计算平均值。其他统计数据，例如标准差、方差、比例和极差，可以根据样本数据计算出来。标准差和方差衡量抽样分布的变异性。

四、抽样分布的类型

以下是对抽样分布类型的简要描述：

1）平均值的抽样分布：此方法显示正态分布，其中中间是抽样分布的平均值。因此，它代表了总体人口的平均值。为了达到这一点，研究人员必须计算出每个样本组的平均值并绘制出各个数据。
2）比例抽样分布：这种方法涉及从总体中选择样本集以获得样本的比例。比例的平均值最终成为较大群体的比例。
3）T 分布：这种类型的抽样分布在样本量较小的情况下很常见。当有关整个人口的信息很少时也可以使用它。 T 分布用于对平均值和其他统计点进行估计。
在统计学中，总体是从中抽取统计样本的整个池。总体可以指整个群体的人、物体、事件、医院就诊或测量结果。因此，总体可以说是对按共同特征分组在一起的受试者的聚合观察。

五、绘制抽样分布图

总体或一组数字样本将服从正态分布。然而，由于抽样分布包括多组观测值，因此它不一定具有钟形曲线形状。

按照我们的例子，北美和南美婴儿的人口平均体重呈正态分布，因为有些婴儿体重不足（低于平均值）或超重（高于平均值），而大多数婴儿介于两者之间（在平均值附近））。如果北美新生儿的平均体重为 7 磅，则北美记录的 12 组样本观察中每组的样本平均体重也将接近 7 磅。

但是，如果将 1,200 个样本组中每个样本组计算出的每个平均值绘制成图表，所得形状可能会导致均匀分布，但很难准确预测实际形状会是什么。研究人员从超过一百万体重数据的人群中使用的样本越多，图表就越开始形成正态分布。

六、为什么使用抽样来收集人口数据？

抽样是收集和分析更大群体信息的一种方法。这样做是因为由于涉及的受试者数量庞大，研究人员无法研究整个人群。因此，并非较大群体中的每个人都可以包括在内，因为研究和分析数据可能需要很长时间。它允许政府和企业等实体做出有关未来的重要决策，无论这意味着投资基础设施项目、社会服务计划还是新产品。

七、为什么使用抽样分布？

抽样分布用于统计和研究。它们强调了可能发生的事件的机会或概率。这是基于从较大人群中的一小群人收集的一组数据。

八、什么是均值？

平均值是统计和研究中使用的度量标准。它是至少两个数字的平均值。可以通过将所有数字相加并将结果除以该集合中的数字数量来确定平均值。这称为算术平均值。您可以通过将数据集的值相乘并求总和的根等于该数据集中的值的数量来确定几何平均值。

九、底线

由于涉及的受试者数量众多，研究人员无法对非常大的群体做出结论。这就是他们使用抽样的原因。抽样使他们能够从大量人群中抽取一小部分人并分析数据。一旦收集到数据，研究人员就可以绘制出抽样分布，这使他们能够确定某个事件是否可能在特定人群中发生。这可能包括业务增长或人口趋势，这可以帮助企业、政府和其他实体为未来做出更好的决策。

这篇关于【统计推断】-01 抽样原理之（二）的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！