【蓄水池问题】太 nice 了!我中奖啦!

2024-05-01 16:20
文章标签 问题 nice 蓄水池 中奖

本文主要是介绍【蓄水池问题】太 nice 了!我中奖啦!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

小伙伴们中过奖么?

是不是都是 中奖绝缘体 呢?

今天我们就来聊一聊关于中奖的 概率 问题~

先思考两个问题

如果让你从规模为 N 的数据序列中,随机选取出 k 个不重复的数据,你会怎么做呢?

  • 是不是很简单,知道了总数 N ,等概率随机选择 k 个即可,每个数据被选到的概率均为 k / N k/N k/N

问题变一下:那如果从始至终都不知道 N 的具体大小呢?也就是说,数据流长度 N 很大,数据会源源不断的到来,且 N 直到处理完所有数据之前都不可知。

如何在这样的情况下,随机选取 k 个数据,保证当前已经到来的前 i 个元素中每一个元素被选中的概率相等,均为 k / i k/i k/i ,当处理完所有数据结束时,概率自然就变为了 k / N k/N k/N 呢?

两者区别一句话总结:能否提前知道 总数据量 N 。


这就引出了今天要探讨的问题:蓄水池算法

蓄水池算法

在一个很大,未知总量的数据流中,抽取 k 个样本,并保证每个样本的选取概率都是 相等并随机 的。

算法思路

  1. 构建一个可容纳 k 个样本的数组容器。
  2. 当数据量不足 k 个时,全部选取放入数组中。
  3. 当数据量超过 k 个时(假设是第 i 个元素),以 k / i k/i k/i 的概率选择进入数组中,并以 1 / k 1/k 1/k 的概率随机替换掉数组中的一个样本元素。
  4. 无论样本数据 N 何时结束,均能保证所选元素概率均为 k / N k/N k/N

即:保证在动态情况下,已经到来的每个样本元素被选中的概率相等

证明

i ≤ k i≤k ik 时,前 m 个元素,每个被选到的概率均为 k / m k/m k/m


i > k i>k ik 时,前 m 个元素,每个被选到的概率也均为 k / m k/m k/m

由以上两种情况的证明,我们可以得出结论:

每个元素被选到的概率均等,均为 k / N k/N k/N


以上我们证明了该方法的正确性:能够在未知数据量的情况下,依然保证在新元素到来时被选中的概率相等。

代码

public static class RandomBox {// 存放被选的元素数组private int[] arr;// 抽取 k 个样本private int k;// 目前到达的样本总数private int m;// 初始化public RandomBox(int capacity) {arr = new int[capacity];        k = capacity;        m = 0;}// 等概率随机 1 ~ max 之间的一个数private int rand(int max) {return (int) (Math.random() * max) + 1;}// 新到一个元素后,进行选择public void add(int num) {// 总量+1m++;// 没超过k时,直接选入if (m <= k) {arr[m - 1] = num;} else {// 以 k/i 的概率选择进入数组if (rand(m) <= k) {// 随机替换掉其中一个元素,概率 1/karr[rand(k) - 1] = num;}}}}

实际意义

这个算法在现实中有什么意义呢?
抽奖

参与活动中大奖

今天所有参与活动的小伙伴都有几率中奖哦,今晚24:00整开奖~

假设设置了 10 个奖品,但不知道有多少个人会来参与活动,当 24:00 整时,要公布获奖名单。

此时,就可以选择“蓄水池算法”,活动结束后,遍历一遍结果数组 arr[10],所有在数组中的 10 个人就是最终的获奖者。每个人的中奖几率均为 10/今天参与活动的总人数 ,确保了活动的公平性。

你中过奖么😜
~ 点赞 ~ 关注 ~ 星标 ~ 不迷路 ~!!!

关注
回复「ACM紫书」获取 ACM 算法书籍 ~
回复「算法导论」获取 算法导论第3版 ~

点赞、转发
让你的小伙伴们一起来学算法吧!!

这篇关于【蓄水池问题】太 nice 了!我中奖啦!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/952126

相关文章

VSCode中C/C++编码乱码问题的两种解决方法

《VSCode中C/C++编码乱码问题的两种解决方法》在中国地区,Windows系统中的cmd和PowerShell默认编码是GBK,但VSCode默认使用UTF-8编码,这种编码不一致会导致在VSC... 目录问题方法一:通过 Code Runner 插件调整编码配置步骤方法二:在 PowerShell

mybatis-plus分页无效问题解决

《mybatis-plus分页无效问题解决》本文主要介绍了mybatis-plus分页无效问题解决,原因是配置分页插件的版本问题,旧版本和新版本的MyBatis-Plus需要不同的分页配置,感兴趣的可... 昨天在做一www.chinasem.cn个新项目使用myBATis-plus分页一直失败,后来经过多方

Flask解决指定端口无法生效问题

《Flask解决指定端口无法生效问题》文章讲述了在使用PyCharm开发Flask应用时,启动地址与手动指定的IP端口不一致的问题,通过修改PyCharm的运行配置,将Flask项目的运行模式从Fla... 目录android问题重现解决方案问题重现手动指定的IP端口是app.run(host='0.0.

Seata之分布式事务问题及解决方案

《Seata之分布式事务问题及解决方案》:本文主要介绍Seata之分布式事务问题及解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Seata–分布式事务解决方案简介同类产品对比环境搭建1.微服务2.SQL3.seata-server4.微服务配置事务模式1

mysql关联查询速度慢的问题及解决

《mysql关联查询速度慢的问题及解决》:本文主要介绍mysql关联查询速度慢的问题及解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录mysql关联查询速度慢1. 记录原因1.1 在一次线上的服务中1.2 最终发现2. 解决方案3. 具体操作总结mysql

一文教你解决Python不支持中文路径的问题

《一文教你解决Python不支持中文路径的问题》Python是一种广泛使用的高级编程语言,然而在处理包含中文字符的文件路径时,Python有时会表现出一些不友好的行为,下面小编就来为大家介绍一下具体的... 目录问题背景解决方案1. 设置正确的文件编码2. 使用pathlib模块3. 转换路径为Unicod

Spring MVC跨域问题及解决

《SpringMVC跨域问题及解决》:本文主要介绍SpringMVC跨域问题及解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录跨域问题不同的域同源策略解决方法1.CORS2.jsONP3.局部解决方案4.全局解决方法总结跨域问题不同的域协议、域名、端口

SpringBoot自定义注解如何解决公共字段填充问题

《SpringBoot自定义注解如何解决公共字段填充问题》本文介绍了在系统开发中,如何使用AOP切面编程实现公共字段自动填充的功能,从而简化代码,通过自定义注解和切面类,可以统一处理创建时间和修改时间... 目录1.1 问题分析1.2 实现思路1.3 代码开发1.3.1 步骤一1.3.2 步骤二1.3.3

基于.NET编写工具类解决JSON乱码问题

《基于.NET编写工具类解决JSON乱码问题》在开发过程中,我们经常会遇到JSON数据处理的问题,尤其是在数据传输和解析过程中,很容易出现编码错误导致的乱码问题,下面我们就来编写一个.NET工具类来解... 目录问题背景核心原理工具类实现使用示例总结在开发过程中,我们经常会遇到jsON数据处理的问题,尤其是

springboot3.4和mybatis plus的版本问题的解决

《springboot3.4和mybatisplus的版本问题的解决》本文主要介绍了springboot3.4和mybatisplus的版本问题的解决,主要由于SpringBoot3.4与MyBat... 报错1:spring-boot-starter/3.4.0/spring-boot-starter-