随机算法之蓄水池抽样问题

2024-02-27 09:18

本文主要是介绍随机算法之蓄水池抽样问题,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

蓄水池抽样问题是从动态变化的N个元素中随机抽选出M个元素(N>=M)

算法描述如下:

Init : a reservoir with the size: kfor    i= k+1 to NM=random(1, i);if( M < k)SWAP the Mth value and ith valueend for

由于N的个数是不确定的,这就意味着不论N的个数是多少,里面元素都要被等概率抽取,例如,先从10个元素中抽取2个出来,现在又往里面添加了10个元素,变成了从20个元素中抽取两个出来,如何保证这次变化后每个元素被抽取的概率还是一样的呢?

 

问题,证明对于任意样本号n,n>=k,每个样本作为取出样本的概率相等,即k/n

 证明:

 当n=k时,由我们把前k个数放入蓄水池可知,每个样本的取出概率均相等,即k/k=1。   设当前样本号为n,其每个取出样本概率均相等,即为k/n,我们要证明的是这种情况对于n+1也成立。

 由于我们以k/(n+1)决定是否把n+1放入蓄水池,那么对于n+1其出现在蓄水池中的概率就是k/(n+1),对于前n个元素中的任意元素m(k+1<=m<=n),其出现在蓄水池中的概率为 m出现在蓄水池中的概率 * [(m+1被选中的概率*m没被m+1替换的概率 + m+1没被选中的概率)*(m+2被选中的概率*m没被m+2替换的概率 + m+2没被选中的概率)*…*(n+1被选中的概率*m没被n+1替换的概率 + n+1没被选中的概率)]

可见,对于n+1每个样本取出概率也相等,即为k/(n+1)。证毕。

面试题:

给你一个长度为N的链表。N很大,但你不知道N有多大。你的任务是从这N个元素中随机取出k个元素。你只能遍历这个链表一次。你的算法必须保证取出的元素恰好有k个,且它们是完全随机的(出现概率均等)。

此问题有个限制点:

1.元素个数不可知

2.只能遍历一边

解题思路如下:

1.遍历链表到第k个元素,构造一个数组A[K]存储这k个元素

2.从k+1开始遍历,与前面算法一样

for    i= k+1 to N M=random(1, i);if( M < k)SWAP the Mth value and ith value in array A
end for

3.最后得到的数组A[k]就是想要的。

 

 

在网上流传的这个算法有问题,wiki 上面的描述如下:

array R[k];    // result
integer i, j;
// fill the reservoir array
for each i in 1 to k doR[i] := S[i]
done;
// replace elements with gradually decreasing probability
for each i in k+1 to length(S) doj := random(1, i);   // important: inclusive rangeif j <= k thenR[j] := S[i]fi
done

(ps:注意第10行的 j <= k)

我个人倾向于有等号的算法,欢迎各位朋友讨论,指导。

参考链接:

http://hi.baidu.com/cpuramdisk/item/260611ca0082bcd796445239

http://en.wikipedia.org/wiki/Reservoir_sampling

这篇关于随机算法之蓄水池抽样问题的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/751929

相关文章

关于MongoDB图片URL存储异常问题以及解决

《关于MongoDB图片URL存储异常问题以及解决》:本文主要介绍关于MongoDB图片URL存储异常问题以及解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录MongoDB图片URL存储异常问题项目场景问题描述原因分析解决方案预防措施js总结MongoDB图

SpringBoot项目中报错The field screenShot exceeds its maximum permitted size of 1048576 bytes.的问题及解决

《SpringBoot项目中报错ThefieldscreenShotexceedsitsmaximumpermittedsizeof1048576bytes.的问题及解决》这篇文章... 目录项目场景问题描述原因分析解决方案总结项目场景javascript提示:项目相关背景:项目场景:基于Spring

解决Maven项目idea找不到本地仓库jar包问题以及使用mvn install:install-file

《解决Maven项目idea找不到本地仓库jar包问题以及使用mvninstall:install-file》:本文主要介绍解决Maven项目idea找不到本地仓库jar包问题以及使用mvnin... 目录Maven项目idea找不到本地仓库jar包以及使用mvn install:install-file基

usb接口驱动异常问题常用解决方案

《usb接口驱动异常问题常用解决方案》当遇到USB接口驱动异常时,可以通过多种方法来解决,其中主要就包括重装USB控制器、禁用USB选择性暂停设置、更新或安装新的主板驱动等... usb接口驱动异常怎么办,USB接口驱动异常是常见问题,通常由驱动损坏、系统更新冲突、硬件故障或电源管理设置导致。以下是常用解决

Mysql如何解决死锁问题

《Mysql如何解决死锁问题》:本文主要介绍Mysql如何解决死锁问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录【一】mysql中锁分类和加锁情况【1】按锁的粒度分类全局锁表级锁行级锁【2】按锁的模式分类【二】加锁方式的影响因素【三】Mysql的死锁情况【1

SpringBoot内嵌Tomcat临时目录问题及解决

《SpringBoot内嵌Tomcat临时目录问题及解决》:本文主要介绍SpringBoot内嵌Tomcat临时目录问题及解决,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,... 目录SprinjavascriptgBoot内嵌Tomcat临时目录问题1.背景2.方案3.代码中配置t

SpringBoot使用GZIP压缩反回数据问题

《SpringBoot使用GZIP压缩反回数据问题》:本文主要介绍SpringBoot使用GZIP压缩反回数据问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录SpringBoot使用GZIP压缩反回数据1、初识gzip2、gzip是什么,可以干什么?3、Spr

如何解决idea的Module:‘:app‘platform‘android-32‘not found.问题

《如何解决idea的Module:‘:app‘platform‘android-32‘notfound.问题》:本文主要介绍如何解决idea的Module:‘:app‘platform‘andr... 目录idea的Module:‘:app‘pwww.chinasem.cnlatform‘android-32

kali linux 无法登录root的问题及解决方法

《kalilinux无法登录root的问题及解决方法》:本文主要介绍kalilinux无法登录root的问题及解决方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,... 目录kali linux 无法登录root1、问题描述1.1、本地登录root1.2、ssh远程登录root2、

SpringBoot应用中出现的Full GC问题的场景与解决

《SpringBoot应用中出现的FullGC问题的场景与解决》这篇文章主要为大家详细介绍了SpringBoot应用中出现的FullGC问题的场景与解决方法,文中的示例代码讲解详细,感兴趣的小伙伴可... 目录Full GC的原理与触发条件原理触发条件对Spring Boot应用的影响示例代码优化建议结论F