本文主要是介绍我与Bloom filter,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
1 海量网页判断用Bloom Filter
面试的时候,一个面试官问我说:“有一个网络爬虫,爬虫程序会不停地爬取页面上的每一个网页,并把爬取后的网页给存储起来,那么爬虫如何判定现在在爬的网页有没有被爬过。”
我当时卡住了半天回答不上来。
面试官给我说用Bloom Filter。
Bloom Filter把爬取过的网页映射到Bloom Filter内,如果再爬取到该网页,Bloom Filter会检验当前网页是否在Bloom Filter内,如果在的话,就说明当前网页已经被爬过了。
2 毕业论文里面有写到我对Bloom Filter这个算法的应用。
a Bloom Filter的错误率估计
b 最优哈希函数个数
c 位数组的大小
导师说这些东西都是别人的东西,你要体现自己的工作量,那么如何体现自己的工作量呢?
a 结合我要判断的东西,我实地考量要分发的数据的数量?
b
这篇关于我与Bloom filter的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!