教你使用几种常用的等概率抽样法

2023-10-12 00:59

本文主要是介绍教你使用几种常用的等概率抽样法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在统计建模过程中往往会使用到采样技术,通过样本来反映总体特征。关于采样,目前主要有两大类抽样技术,即等概率抽样和非等概率抽样,而在实际应用中,等概率抽样是最常见的,下面就讲讲等概率抽样中的几种抽样技术。


一、简单随机抽样

简单随机抽样(SRS)是我们经常接触到的抽样方法,比如摸彩或抽奖,或办公室需要有人出公差去送数据时用抽签决定人选。SRS的特色是母群体中的每一个体都有相同的机会被选中进入样本,这是一种最公平且概念上最简单的抽样法,可以直接套用统计学原理去进行估算与推论。关于简单随机抽样,在R中可以使用自带的sample()函数实现,下面是sample()函数的语法及参数意义:


sample(x, size, replace = FALSE, prob = NULL)

x:抽样对象,为一个向量

size:抽样规模,即需要从总体x中抽取多少样本

replace:指定是否有放回的抽样,默认为无放回,当设置为TRUE时,则表示简单随机抽样是有放回的

prob:指定抽样元素的概率,默认是每个个体被等概率抽中


例子:

```{r}

#向量--无放回

values <- runif(100, min = 10, max = 100)

sample1 <- sample(values, size = 10, replace = FALSE)

sample1

0?wx_fmt=png
#向量--有放回,不等概率

sample2 <- sample(c('A','B','C','D'), 500, replace = TRUE, prob = c(0.5,0.2,0.2,0.1))

table(sample2)

prop.table(table(sample2))

0?wx_fmt=png
#数据框

x <- runif(100)

y <- rnorm(100)

z <- rt(100,4)

df <- data.frame(x = x, y = y, z = z)


sample3 <- df[sample(1:nrow(df), size = 40),]

head(sample3)

0?wx_fmt=png
```


二、系统抽样

系统抽样方法是一种简化的随机抽样法,最普遍的做法是从母群体的名单中,按照一定的间隔取出足够的个体组成样本。比如我们可以从这500家医院的名单中,每10间医院取一间来做为样本个体。但首先我们必须先随机决定一个起始的号码,也就是从1-10之间随机选出一个号码,假如选中的是3号,则我们从3号开始,每10号取一家医院做为样本(3, 13, 23, 33,…493)。关于系统抽样,在R中可以使用sampling包中的UPsystematic()函数实现,下面是UPsystematic()函数的语法及参数意义:


UPsystematic(pik,eps=1e-6)

pik:为一向量,存放抽样的包含概率

esp:为一控制值,默认为1e-6


例子:

```{r}

x <- round(runif(1000, min = 1, max = 100))

#计算一阶包含概率

pik <- inclusionprobabilities(x,200)

#返回0-1值表示是否被抽样

s <- UPsystematic(pik) 

head(getdata(x,s),10)

0?wx_fmt=png
```

但从上面的返回的ID_unit看,并不是系统抽样定义的那样,即等间隔的抽取样本。为保证与定义一致,这里自定义系统抽样的函数:

```{r}

sys_sampling <- function(x, gap = 10, seed = 1234){

  set.seed(seed)

  i <- round(runif(1, min = 1, max = 10))

    ID <- numeric()

    sampling <- numeric()

  while(i<=length(x)){

    ID[ceiling(i/gap)] <- i

    sampling[ceiling(i/gap)] <- x[i]

    i <- i + gap

  }

 return(data.frame(ID = ID, data = sampling))   

}

```

其中,x为待抽样的总体;gap为抽样间隔,默认为10;seed为种子数,用于从[1,10]之间随机挑选一个起始号设定随机种子,默认为1234。


例子:

```{r}

head(sys_sampling(x = x, gap = 7, seed = 3),10)

0?wx_fmt=png
```


三、分层抽样

分层或分组抽样是一种比SRS更精准的随机抽样法,所用的方法是跟据我们的研究性质,依照相关的条件把母群体中的个体分成不同的层别或组别(strata),再分别从每一层别或组别中的个体随机抽出一定的个体来组成样本。在R中可以使用sampling包中的strata()函数实现,下面是strata()函数的语法及参数意义:


strata(data, stratanames=NULL, size, 

          method=c("srswor","srswr","poisson","systematic"), 

          pik,description=FALSE)

data:待抽样的数据框

stratanames:指定数据框中的分层变量

size:指定每个层中的抽样数量,默认按原数据中分层变量水平的顺序指定抽样数量

method:指定抽取各层数据的方法,默认为无放回的简单随机抽样,还可以是有放回的简单随机抽样、泊松抽样和系统抽样

pik:如果选择系统抽样时,需要指定系统抽样的包含概率pik向量


例子:

```{r}

Stratified <- rep(c('A','B','C','D'), c(100,200,300,400))

Values <- round(runif(1000, min = 1, max = 1000))

df <- data.frame(Stratified = Stratified, Values = Values)


#等比例抽样

n <- 400

size <- round(400*table(df$Stratified)/length(df$Stratified))

s <- strata(data = df, stratanames = 'Stratified', size = size, method = 'srswor')

head(getdata(data = df, m = s))

0?wx_fmt=png
#非等比例抽样,随意指定抽样数量

s <- strata(data = df, stratanames = 'Stratified', size = c(50, 100, 50, 200), method = 'srswor')

head(getdata(data = df, m = s))

0?wx_fmt=png
```


四、聚集抽样

聚集抽样也是跟据某种母群体的特性,将母群体中的个体分成不同的群组(clusters),然后从这些群组中随机抽出部分的群组,再从被选中的群组中随机抽出足够的个体来组成样本。

从定义上看,聚集抽样与分层抽样很相似,但各自的组是完全两回事。在聚集抽样中,尽量保证组内数据差异特别大,而组间差异尽量小;在分层抽样中就恰恰相反,即组内差异尽量小,而组间差异要求很大。在R中可以使用sampling包中的cluster()函数实现,下面是cluster()函数的语法及参数意义:


cluster(data, clustername, size, 

           method=c("srswor","srswr","poisson","systematic"),

           pik,description=FALSE)

data:待抽样的数据框

clustername:指定数据框中的聚集变量

size:指定抽取多少个组

method:指定抽取的方法,默认为无放回的简单随机抽样,还可以是有放回的简单随机抽样、泊松抽样和系统抽样

pik:如果选择系统抽样时,需要指定系统抽样的包含概率pik向量


例子:

```{r}

Clusters <- rep(c('A','B','C','D','E','F','G'), c(100,200,300,400, 100, 200, 300))

Values <- round(runif(1600, min = 1, max = 1000))

df <- data.frame(Clusters = Clusters, Values = Values)


#从7个聚集组中随机抽取3个组

s <- cluster(data = df, clustername = 'Clusters', size = 3, method=c('srswor'))

#查看随机抽取了哪三个组

unique(s$Clusters)

head(getdata(data = df, m = s))

```

0?wx_fmt=png


参考资料

https://www.douban.com/group/topic/72819666/



每天进步一点点2015

学习与分享,取长补短,关注小号!

0?wx_fmt=jpeg
     长按识别二维码à马上关注

这篇关于教你使用几种常用的等概率抽样法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/192107

相关文章

使用Python实现批量访问URL并解析XML响应功能

《使用Python实现批量访问URL并解析XML响应功能》在现代Web开发和数据抓取中,批量访问URL并解析响应内容是一个常见的需求,本文将详细介绍如何使用Python实现批量访问URL并解析XML响... 目录引言1. 背景与需求2. 工具方法实现2.1 单URL访问与解析代码实现代码说明2.2 示例调用

使用SpringBoot创建一个RESTful API的详细步骤

《使用SpringBoot创建一个RESTfulAPI的详细步骤》使用Java的SpringBoot创建RESTfulAPI可以满足多种开发场景,它提供了快速开发、易于配置、可扩展、可维护的优点,尤... 目录一、创建 Spring Boot 项目二、创建控制器类(Controller Class)三、运行

Python使用Pandas库将Excel数据叠加生成新DataFrame的操作指南

《Python使用Pandas库将Excel数据叠加生成新DataFrame的操作指南》在日常数据处理工作中,我们经常需要将不同Excel文档中的数据整合到一个新的DataFrame中,以便进行进一步... 目录一、准备工作二、读取Excel文件三、数据叠加四、处理重复数据(可选)五、保存新DataFram

使用Java解析JSON数据并提取特定字段的实现步骤(以提取mailNo为例)

《使用Java解析JSON数据并提取特定字段的实现步骤(以提取mailNo为例)》在现代软件开发中,处理JSON数据是一项非常常见的任务,无论是从API接口获取数据,还是将数据存储为JSON格式,解析... 目录1. 背景介绍1.1 jsON简介1.2 实际案例2. 准备工作2.1 环境搭建2.1.1 添加

如何使用celery进行异步处理和定时任务(django)

《如何使用celery进行异步处理和定时任务(django)》文章介绍了Celery的基本概念、安装方法、如何使用Celery进行异步任务处理以及如何设置定时任务,通过Celery,可以在Web应用中... 目录一、celery的作用二、安装celery三、使用celery 异步执行任务四、使用celery

使用Python绘制蛇年春节祝福艺术图

《使用Python绘制蛇年春节祝福艺术图》:本文主要介绍如何使用Python的Matplotlib库绘制一幅富有创意的“蛇年有福”艺术图,这幅图结合了数字,蛇形,花朵等装饰,需要的可以参考下... 目录1. 绘图的基本概念2. 准备工作3. 实现代码解析3.1 设置绘图画布3.2 绘制数字“2025”3.3

Jsoncpp的安装与使用方式

《Jsoncpp的安装与使用方式》JsonCpp是一个用于解析和生成JSON数据的C++库,它支持解析JSON文件或字符串到C++对象,以及将C++对象序列化回JSON格式,安装JsonCpp可以通过... 目录安装jsoncppJsoncpp的使用Value类构造函数检测保存的数据类型提取数据对json数

python使用watchdog实现文件资源监控

《python使用watchdog实现文件资源监控》watchdog支持跨平台文件资源监控,可以检测指定文件夹下文件及文件夹变动,下面我们来看看Python如何使用watchdog实现文件资源监控吧... python文件监控库watchdogs简介随着Python在各种应用领域中的广泛使用,其生态环境也

Python中构建终端应用界面利器Blessed模块的使用

《Python中构建终端应用界面利器Blessed模块的使用》Blessed库作为一个轻量级且功能强大的解决方案,开始在开发者中赢得口碑,今天,我们就一起来探索一下它是如何让终端UI开发变得轻松而高... 目录一、安装与配置:简单、快速、无障碍二、基本功能:从彩色文本到动态交互1. 显示基本内容2. 创建链

Java调用Python代码的几种方法小结

《Java调用Python代码的几种方法小结》Python语言有丰富的系统管理、数据处理、统计类软件包,因此从java应用中调用Python代码的需求很常见、实用,本文介绍几种方法从java调用Pyt... 目录引言Java core使用ProcessBuilder使用Java脚本引擎总结引言python