随机算法之蓄水池抽样问题

2024-02-27 09:18

本文主要是介绍随机算法之蓄水池抽样问题,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

蓄水池抽样问题是从动态变化的N个元素中随机抽选出M个元素(N>=M)

算法描述如下:

Init : a reservoir with the size: kfor    i= k+1 to NM=random(1, i);if( M < k)SWAP the Mth value and ith valueend for

由于N的个数是不确定的,这就意味着不论N的个数是多少,里面元素都要被等概率抽取,例如,先从10个元素中抽取2个出来,现在又往里面添加了10个元素,变成了从20个元素中抽取两个出来,如何保证这次变化后每个元素被抽取的概率还是一样的呢?

 

问题,证明对于任意样本号n,n>=k,每个样本作为取出样本的概率相等,即k/n

 证明:

 当n=k时,由我们把前k个数放入蓄水池可知,每个样本的取出概率均相等,即k/k=1。   设当前样本号为n,其每个取出样本概率均相等,即为k/n,我们要证明的是这种情况对于n+1也成立。

 由于我们以k/(n+1)决定是否把n+1放入蓄水池,那么对于n+1其出现在蓄水池中的概率就是k/(n+1),对于前n个元素中的任意元素m(k+1<=m<=n),其出现在蓄水池中的概率为 m出现在蓄水池中的概率 * [(m+1被选中的概率*m没被m+1替换的概率 + m+1没被选中的概率)*(m+2被选中的概率*m没被m+2替换的概率 + m+2没被选中的概率)*…*(n+1被选中的概率*m没被n+1替换的概率 + n+1没被选中的概率)]

可见,对于n+1每个样本取出概率也相等,即为k/(n+1)。证毕。

面试题:

给你一个长度为N的链表。N很大,但你不知道N有多大。你的任务是从这N个元素中随机取出k个元素。你只能遍历这个链表一次。你的算法必须保证取出的元素恰好有k个,且它们是完全随机的(出现概率均等)。

此问题有个限制点:

1.元素个数不可知

2.只能遍历一边

解题思路如下:

1.遍历链表到第k个元素,构造一个数组A[K]存储这k个元素

2.从k+1开始遍历,与前面算法一样

for    i= k+1 to N M=random(1, i);if( M < k)SWAP the Mth value and ith value in array A
end for

3.最后得到的数组A[k]就是想要的。

 

 

在网上流传的这个算法有问题,wiki 上面的描述如下:

array R[k];    // result
integer i, j;
// fill the reservoir array
for each i in 1 to k doR[i] := S[i]
done;
// replace elements with gradually decreasing probability
for each i in k+1 to length(S) doj := random(1, i);   // important: inclusive rangeif j <= k thenR[j] := S[i]fi
done

(ps:注意第10行的 j <= k)

我个人倾向于有等号的算法,欢迎各位朋友讨论,指导。

参考链接:

http://hi.baidu.com/cpuramdisk/item/260611ca0082bcd796445239

http://en.wikipedia.org/wiki/Reservoir_sampling

这篇关于随机算法之蓄水池抽样问题的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/751929

相关文章

Springboot3统一返回类设计全过程(从问题到实现)

《Springboot3统一返回类设计全过程(从问题到实现)》文章介绍了如何在SpringBoot3中设计一个统一返回类,以实现前后端接口返回格式的一致性,该类包含状态码、描述信息、业务数据和时间戳,... 目录Spring Boot 3 统一返回类设计:从问题到实现一、核心需求:统一返回类要解决什么问题?

maven异常Invalid bound statement(not found)的问题解决

《maven异常Invalidboundstatement(notfound)的问题解决》本文详细介绍了Maven项目中常见的Invalidboundstatement异常及其解决方案,文中通过... 目录Maven异常:Invalid bound statement (not found) 详解问题描述可

idea粘贴空格时显示NBSP的问题及解决方案

《idea粘贴空格时显示NBSP的问题及解决方案》在IDEA中粘贴代码时出现大量空格占位符NBSP,可以通过取消勾选AdvancedSettings中的相应选项来解决... 目录1、背景介绍2、解决办法3、处理完成总结1、背景介绍python在idehttp://www.chinasem.cna粘贴代码,出

SpringBoot整合Kafka启动失败的常见错误问题总结(推荐)

《SpringBoot整合Kafka启动失败的常见错误问题总结(推荐)》本文总结了SpringBoot项目整合Kafka启动失败的常见错误,包括Kafka服务器连接问题、序列化配置错误、依赖配置问题、... 目录一、Kafka服务器连接问题1. Kafka服务器无法连接2. 开发环境与生产环境网络不通二、序

SpringSecurity中的跨域问题处理方案

《SpringSecurity中的跨域问题处理方案》本文介绍了跨域资源共享(CORS)技术在JavaEE开发中的应用,详细讲解了CORS的工作原理,包括简单请求和非简单请求的处理方式,本文结合实例代码... 目录1.什么是CORS2.简单请求3.非简单请求4.Spring跨域解决方案4.1.@CrossOr

nacos服务无法注册到nacos服务中心问题及解决

《nacos服务无法注册到nacos服务中心问题及解决》本文详细描述了在Linux服务器上使用Tomcat启动Java程序时,服务无法注册到Nacos的排查过程,通过一系列排查步骤,发现问题出在Tom... 目录简介依赖异常情况排查断点调试原因解决NacosRegisterOnWar结果总结简介1、程序在

解决java.util.RandomAccessSubList cannot be cast to java.util.ArrayList错误的问题

《解决java.util.RandomAccessSubListcannotbecasttojava.util.ArrayList错误的问题》当你尝试将RandomAccessSubList... 目录Java.util.RandomAccessSubList cannot be cast to java.

Apache服务器IP自动跳转域名的问题及解决方案

《Apache服务器IP自动跳转域名的问题及解决方案》本教程将详细介绍如何通过Apache虚拟主机配置实现这一功能,并解决常见问题,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,... 目录​​问题背景​​解决方案​​方法 1:修改 httpd-vhosts.conf(推荐)​​步骤

java反序列化serialVersionUID不一致问题及解决

《java反序列化serialVersionUID不一致问题及解决》文章主要讨论了在Java中序列化和反序列化过程中遇到的问题,特别是当实体类的`serialVersionUID`发生变化或未设置时,... 目录前言一、序列化、反序列化二、解决方法总结前言serialVersionUID变化后,反序列化失

C++ 多态性实战之何时使用 virtual 和 override的问题解析

《C++多态性实战之何时使用virtual和override的问题解析》在面向对象编程中,多态是一个核心概念,很多开发者在遇到override编译错误时,不清楚是否需要将基类函数声明为virt... 目录C++ 多态性实战:何时使用 virtual 和 override?引言问题场景判断是否需要多态的三个关