本文主要是介绍海量数据中随机抽查K个样本 算法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
现在做爬虫阶段的数据分析,需要针对每一个站点随机抽检K个url,那么,如何从巨大数量的url中做到随机抽检呢?url的总数是不知道的,当然你可以扫描两次,第一次得到url总是,但是,有更好的做法。
(哈哈,我要无耻的说 原创 转帖标签不好看 :))
以下引用来自:http://wansishuang.iteye.com/blog/443902
要求从N个元素中随机的抽取k个元素,其中N无法确定。
是在 《计算机程序设计与艺术》 中看到的这个题目,书中只给出了解法,没给出证明。
解决方法是叫Reservoir Sampling (蓄水池抽样)
Init : a reservoir with the size: k
for i= k+1 to N
M=random(1, i);
if( M < k)
SWAP the Mth value and ith value<
这篇关于海量数据中随机抽查K个样本 算法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!