位图与Bloom过滤器

2024-04-01 16:48
文章标签 过滤器 位图 bloom

本文主要是介绍位图与Bloom过滤器,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

位图

  位图常用在给定一个很大范围的数,判断某个数是否在其中。BitSet是位操作的对象,值只有0或1(即true 和 false),内部维护一个long数组,初始化只有一个long segement,所以BitSet最小的size是64;随着存储的元素越来越多,BitSet内部会自动扩充,一次扩充64位,最终内部是由N个long segement 来存储。默认情况下,BitSet所有位都是0即false;基本原理是,用1位来表示一个数据是否出现过,0为没有出现过,1表示出现过。使用用的时候既可根据某一个是否为0表示此数是否出现过。
  例如有四十亿个数,一个int型的数字是4个字节,32个比特位,如果把每一个比特位标志一个数字,那一个字节就可以标记32个数字(注意:位图不存放这些数据,只是标记是否存在,位图中的数组存放的是二进制数字0或者1)。40亿个数字大概就是16G,而现在使用位图16G/32大约就是500M左右,不光节省内存,也同时提高了效率。
在这里插入图片描述

void SetBit(size_t x){size_t index = x >> 5;size_t num = x % 32;_bitTable[index] |= (1 << num);}

  JDK选择long数组作为BitSet的内部存储结构而不用不用int是出于性能的考虑,因为BitSet提供and和or这种操作,需要对两个BitSet中的所有bit位做and或者or,实现的时候需要遍历所有的数组元素。使用long能够使得循环的次数降到最低,所以Java选择使用long数组作为BitSet的内部存储结构。

Bloom过滤器

  Bloom过滤器主要用于快速从海量数据中找出某个成员是否属于这个集合。因为Bloom Filter使用位数组和哈希函数来表征集合,并不需要存储集合数据本身内容,所以其空间利用率非常高。

基本思想:
  布隆过滤器是一个bit 数组,如果我们要映射一个值到布隆过滤器中,我们需要使用多个不同的哈希函数生成多个哈希值,并对每个生成的哈希值指向的 bit 位置 1。对于集合S中的某个成员a,分别使用k个哈希函数对其进行计算,如果 H i(a)=x(1<=i<=k,1<=x<=m),则将位数组的第x 位置为1,

查询:
  当查询某个成员a是否在集合S中出现时,使用相同的k个哈希函数计算,如果其对应位置全部为1,则a属于集合S,只要有一个位置为0,则a 不属于集合S。

误判率及相关计算:
  为什么会发生误判: 假如此时查询X3这个元素是否属于集合,通过3个哈希函数计算后的位置数为 2,7,11,而这时这3个位置都为1,BF会认为X3属于集合,但可能此时这3个位置的1是其他元素对应的,就发生误判了。

影响误判率的因素:

  1. 集合大小n
    因为集合n越大,其它条件固定的情况下,位数组中就会有更多比例的位置被设成1,误判率就会增大。
  2. 哈希函数的个数k
    个数越多,位数组中更多比例的位置被设置为1,即增大了误判率。但在查询时,显然个数越多的时候误判率会越低。
  3. 位数组的大小m
    位数组大小m越大,那么n和k固定的情况下,位数组中剩余0的比特位就越高,误判率就会减小。

这篇关于位图与Bloom过滤器的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/867653

相关文章

Redis中使用布隆过滤器解决缓存穿透问题

一、缓存穿透(失效)问题 缓存穿透是指查询一个一定不存在的数据,由于缓存中没有命中,会去数据库中查询,而数据库中也没有该数据,并且每次查询都不会命中缓存,从而每次请求都直接打到了数据库上,这会给数据库带来巨大压力。 二、布隆过滤器原理 布隆过滤器(Bloom Filter)是一种空间效率很高的随机数据结构,它利用多个不同的哈希函数将一个元素映射到一个位数组中的多个位置,并将这些位置的值置

哈希表的封装和位图

文章目录 2 封装2.1 基础框架2.2 迭代器(1)2.3 迭代器(2) 3. 位图3.1 问题引入3.2 左移和右移?3.3 位图的实现3.4 位图的题目3.5 位图的应用 2 封装 2.1 基础框架 文章 有了前面map和set封装的经验,容易写出下面的代码 // UnorderedSet.h#pragma once#include "HashTable.h"

布隆过滤器的详解与应用

一、什么是Bloom Filter Bloom Filter是一种空间效率很高的随机数据结构,它的原理是,当一个元素被加入集合时,通过K个Hash函数将这个元素映射成一个位阵列(Bit array)中的K个点,把它们置为1。检索时,我们只要看看这些点是不是都是1就(大约)知道集合中有没有它了:如果这些点有任何一个0,则被检索元素一定不在;如果都是1,则被检索元素很可能在。这就是布隆过滤器的基本思

请解释Java Web应用中的前后端分离是什么?它有哪些好处?什么是Java Web中的Servlet过滤器?它有什么作用?

请解释Java Web应用中的前后端分离是什么?它有哪些好处? Java Web应用中的前后端分离 在Java Web应用中,前后端分离是一种开发模式,它将传统Web开发中紧密耦合的前端(用户界面)和后端(服务器端逻辑)代码进行分离,使得它们能够独立开发、测试、部署和维护。在这种模式下,前端通常通过HTTP请求与后端进行数据交换,后端则负责业务逻辑处理、数据库交互以及向前端提供RESTful

.NET 自定义过滤器 - ActionFilterAttribute

这个代码片段定义了一个自定义的 ASP.NET Core 过滤器(GuardModelStateAttribute),用于在控制器动作执行之前验证模型状态(ModelState)。如果模型状态无效,则构造一个 ProblemDetails 对象来描述错误,并返回一个 BadRequest 响应。 代码片段: /// <summary>/// 验证 ModelState 是否有效/// </

水处理过滤器运行特性及选择原则浅谈

过滤属于流体的净化过程中不可缺的处理环节,主要用于去除流体中的颗粒物或其他悬浮物。水处理过滤器的原理是利用有孔介质,从流体中去除污染物,使流体达到所需的洁净度水平。         水处理过滤器的滤壁是有一定厚度的,也就是说过滤器材具有深度,以“弯曲通 道”的形式对去除污染物起到了辅助作用。过滤器是除去液体中少量固体颗粒的设备,当流体进入置有一定规格滤网的滤筒后,其杂质被阻挡,而

过滤器:精密过滤器特点及应用范围概述

精密过滤器(又称作保安过滤器),筒体外壳一般采用不锈钢材质制造,内部采用PP熔喷、线烧、折叠、钛滤芯、活性炭滤芯等管状滤芯作为过滤元件,根据不同的过滤介质及设计工艺选择不同的过滤元件,以达到出水水质的要求。随着过滤行业的不断发展,越来越多的行业和企业运用到了精密过滤器,越来越多的企业加入了精密过滤器行业。   一、精密过滤器的性能特点及应用   1、精密过滤器的性能特点   (1)过滤精

过滤器:自清洗过滤器工作原理及特点阐述

一、自清洗过滤器的原理描述   当水从进水口进入并从外向里进入粗滤网(粗滤网的设置根据水质情况而定),较粗的杂质被过滤后再进入细滤网,较小的杂质被拦截在细过滤内壁,过滤后的干净水从出水口流出,当滤筒内壁的杂质越积越多时,自清洗过滤器进出口的压差达到预设值或达到清洗时间或手动预制时,过滤器将开始自清洗过程,整个自清洗过程包含两个步骤:打开位于自清洗过滤器上的自动排污阀;外部的双向电机带动吸吮扫

过滤器:活性碳过滤器技术特点简要分析

活性碳过滤器是一种罐体的机械过滤器,外壳一般为不锈钢或者玻璃钢,内部填充活性炭,用来过滤水中的游离物、微生物、部分重金属离子,并能有效降低水的色度。活性炭过滤器是一种较常用的水处理设备,作为水处理脱盐系统前处理能够吸附前级过滤中无法去除的余氯,可有效保证后级设备使用寿命,提高出水水质,防止污染,特别是防止后级反渗透膜,离子交换树脂等的游离态余氧中毒污染。同时还吸附从前级泄漏过来的小分子有机物等

过滤器:自清洗过滤器工作原理及技术特点阐述

一、自清洗过滤器的原理描述   当水从进水口进入并从外向里进入粗滤网(粗滤网的设置根据水质情况而定),较粗的杂质被过滤后再进入细滤网,较小的杂质被拦截在细过滤内壁,过滤后的干净水从出水口流出,当滤筒内壁的杂质越积越多时,自清洗过滤器进出口的压差达到预设值或达到清洗时间或手动预制时,过滤器将开始自清洗过程,整个自清洗过程包含两个步骤:打开位于自清洗过滤器上的自动排污阀;外部的双向电机带动吸吮扫