面试题80:海量数据等概论抽样(蓄水池问题)

2024-04-06 17:38

本文主要是介绍面试题80:海量数据等概论抽样(蓄水池问题),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

题目:

从N个元素中随机抽取K个元素,N的个数不确定,要求保证每个数字被抽中的概率相等。

解读:

这种应用的场景一般是数据流的情况下,由于数据只能被读取一次,而且数据量很大,并不能全部保存,因此数据量N是无法在抽样开始时确定的;但又要保证概率相等。

解决:

解决方案就是蓄水池抽样。主要思想就是保持一个集合(这个集合最终的数字就是被抽中的数字)。依次遍历所有数据的时候以一定的概率替换掉这个蓄水池中的数字。

其伪代码为:

Init : a reservoir with the size: k   //初始化蓄水池为前K个数for    i= k+1 to N  M=random(1, i);if( M < k)SWAP the Mth value and ith valueend for
程序的开始就是把前K个元素都放到水库中,然后对之后的第i个元素,以k/i的概率替换掉这个水库中的某一个元素。

证明概率相等:

首先要明白,如果最终K个元素确定,则这K个元素出现的概率都是K/N。

下面来证明当读到第i个元素时,水库中每个元素出现的概率是K/i。

1)初始情况:出现在水库中的K个元素出现的概率都是1.

2)第一步:处理第K+1个元素的情况。分为两种情况:水库中元素都没有被替换;水库中某个元素被第K+1个元素替换掉。

对于情况2:第K+1个元素被选中的概率是K/(K+1),所以这个新元素在水库中出现的概率就一定是K/(K+1)。下面看水库中剩余的元素出现的概率。水库中人一个元素被替换的概率是1/(K+1),那它出现在水库中的概率就是K/(K+1)。可以看出新元素和旧元素出现的概率是相等的。
对于情况1:当元素全部都没有替换掉的时候,每个元素的出现概率肯定是一样的,这很显然。但具体是多少呢?就是1-P(第k+1个元素被选中)=1-1/(k+1)=K/(k+1)。

即i=K+1的时候满足

3)归纳法:重复上面的过程,只要证明第i步到第i+1步,所有元素出现的概率相等即可。

假设第i个元素也满足水库中每个元素出现的概率是K/i,则当第i+1个元素时:
第i+1个元素出现在水池中的概率为K/(i+1),很容易得到水库中其他元素出现的概率也是K/(i+1)。


下面利用上面的方法从1-100之间选出3个数:

#include <iostream>
#include <cstdio>
#include <cstdlib>
#include <ctime>
#include <algorithm>
using namespace std;const int N = 100;
const int poolN = 3;int Random(int min, int max)
{return min + rand() % (max - min + 1);
}void Draw()
{int source[N];int re[poolN];for (int i = 0; i < N; i++) source[i] = i + 1;for (int i = 0; i < poolN; i++) re[i] = source[i];for (int k = poolN; k < N; k++){int temp = Random(0, k-1);if (temp < poolN) swap(re[temp], source[k]);}for (int i = 0; i < poolN; i++)cout << re[i] << " ";cout << endl;
}int main()
{srand((unsigned int)time(NULL));for (int i = 0; i < 100;i++)Draw();return 0;
}
感觉有点问题,能够保证Random(min,max)产生的[min,max]中每个数的概率相等吗?

这篇关于面试题80:海量数据等概论抽样(蓄水池问题)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/880444

相关文章

解决Maven项目idea找不到本地仓库jar包问题以及使用mvn install:install-file

《解决Maven项目idea找不到本地仓库jar包问题以及使用mvninstall:install-file》:本文主要介绍解决Maven项目idea找不到本地仓库jar包问题以及使用mvnin... 目录Maven项目idea找不到本地仓库jar包以及使用mvn install:install-file基

Spring 请求之传递 JSON 数据的操作方法

《Spring请求之传递JSON数据的操作方法》JSON就是一种数据格式,有自己的格式和语法,使用文本表示一个对象或数组的信息,因此JSON本质是字符串,主要负责在不同的语言中数据传递和交换,这... 目录jsON 概念JSON 语法JSON 的语法JSON 的两种结构JSON 字符串和 Java 对象互转

C++如何通过Qt反射机制实现数据类序列化

《C++如何通过Qt反射机制实现数据类序列化》在C++工程中经常需要使用数据类,并对数据类进行存储、打印、调试等操作,所以本文就来聊聊C++如何通过Qt反射机制实现数据类序列化吧... 目录设计预期设计思路代码实现使用方法在 C++ 工程中经常需要使用数据类,并对数据类进行存储、打印、调试等操作。由于数据类

usb接口驱动异常问题常用解决方案

《usb接口驱动异常问题常用解决方案》当遇到USB接口驱动异常时,可以通过多种方法来解决,其中主要就包括重装USB控制器、禁用USB选择性暂停设置、更新或安装新的主板驱动等... usb接口驱动异常怎么办,USB接口驱动异常是常见问题,通常由驱动损坏、系统更新冲突、硬件故障或电源管理设置导致。以下是常用解决

Mysql如何解决死锁问题

《Mysql如何解决死锁问题》:本文主要介绍Mysql如何解决死锁问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录【一】mysql中锁分类和加锁情况【1】按锁的粒度分类全局锁表级锁行级锁【2】按锁的模式分类【二】加锁方式的影响因素【三】Mysql的死锁情况【1

SpringBoot内嵌Tomcat临时目录问题及解决

《SpringBoot内嵌Tomcat临时目录问题及解决》:本文主要介绍SpringBoot内嵌Tomcat临时目录问题及解决,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,... 目录SprinjavascriptgBoot内嵌Tomcat临时目录问题1.背景2.方案3.代码中配置t

SpringBoot使用GZIP压缩反回数据问题

《SpringBoot使用GZIP压缩反回数据问题》:本文主要介绍SpringBoot使用GZIP压缩反回数据问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录SpringBoot使用GZIP压缩反回数据1、初识gzip2、gzip是什么,可以干什么?3、Spr

如何使用Nginx配置将80端口重定向到443端口

《如何使用Nginx配置将80端口重定向到443端口》这篇文章主要为大家详细介绍了如何将Nginx配置为将HTTP(80端口)请求重定向到HTTPS(443端口),文中的示例代码讲解详细,有需要的小伙... 目录1. 创建或编辑Nginx配置文件2. 配置HTTP重定向到HTTPS3. 配置HTTPS服务器

如何解决idea的Module:‘:app‘platform‘android-32‘not found.问题

《如何解决idea的Module:‘:app‘platform‘android-32‘notfound.问题》:本文主要介绍如何解决idea的Module:‘:app‘platform‘andr... 目录idea的Module:‘:app‘pwww.chinasem.cnlatform‘android-32

SpringBoot集成Milvus实现数据增删改查功能

《SpringBoot集成Milvus实现数据增删改查功能》milvus支持的语言比较多,支持python,Java,Go,node等开发语言,本文主要介绍如何使用Java语言,采用springboo... 目录1、Milvus基本概念2、添加maven依赖3、配置yml文件4、创建MilvusClient