C++进阶篇5---番外-位图和布隆过滤器

2023-11-29 00:04

本文主要是介绍C++进阶篇5---番外-位图和布隆过滤器,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

哈希的应用

一、位图

情景:给40亿个不重复的无符号整数,没排过序。给一个无符号整数,如何快速判断一个数是否在这40亿个数中???

看到查找元素的范围,暴力肯定是过不了的,我们要么二分要么哈希,但是二分要求排序,题目说没排过序,只剩下哈希,但是如果用正常的哈希表肯定不行,数据量太大了(可以算一下,大概15G),根本加载不进内存,更别谈放到哈希表中了,那怎么办? 

这时候就需要用到位图---本质就是状态压缩版的哈希表,用一个比特位表示一个数字,大大压缩了数据量,(整形是4字节,如果是哈希表只能用来表示一个数字,但是位图可以用来表示4*8=32个数),数据量缩小了32倍,大概0.5G,具体的实现如下

namespace zxws
{template <size_t N=100>class bitset{public:bitset(){bit.resize(N/32+1);}void set(size_t x)//增{size_t i = x / 32;size_t j = x % 32;bit[i] |= (1u << j);//1u代表unsigned int类型的1}void reset(size_t x)//删{size_t i = x / 32;size_t j = x % 32;bit[i] &= ~(1u << j);}bool test(size_t x)//查{size_t i = x / 32;size_t j = x % 32;return (bit[i] >> j) & 1u;}private:vector<int>bit;};
}

模拟实现没啥难度,就是要了解位运算,当然这只是位图的最重要的几个函数,还有一些其他的不常用的就不模拟实现了,有兴趣大家可以去查看文档

那么了解了位图的实现原理,我们再来看看下面的几个题

1. 给定100亿个整数,设计算法找到只出现一次的整数?
2. 给两个文件,分别有100亿个整数,我们只有1G内存,如何找到两个文件交集?
3. 位图应用变形:1个文件有100亿个int,1G内存,设计算法找到出现次数不超过2次的所有整数
题1:正常用一个位图,不好做,因为一个数字对应一个比特位,而一个比特位只有0 / 1两个状态,无法表示没出现,出现1次和出现多次这3个状态,那怎么办?既然一个比特位无法表示,那两个比特位呢?共有00,01,10,11四个状态,绰绰有余,实现如下
namespace zxws
{template <size_t N = 100>class twobitset{public:void set(size_t x){size_t i = x / 32;size_t j = x % 32;if (bs1.test(x) == false && bs2.test(x) == false)//00->01{bs1.set(x);}else if (bs1.test(x) == true && bs2.test(x) == false)//01->10{bs1.reset(x);bs2.set(x);}}void test(size_t x){return bs1.test(x) == true && bs2.test(x) == false;//01--代表只出现一次}private:bitset<N>bs1;bitset<N>bs2;};
}

题2:找文件交集,这个就很明显了,两个位图分别存放两个文件中的数字,然后比特位之间&一下,比特位上为1的就是交集

题3:这题其实和第1题一样,都是查看数字出现次数,要求不出现两次,即有没出现,出现1次,出现2次和出现2次以上四个状态,两个位图正好够了,实现同题1

二、布隆过滤器

布隆过滤器是由布隆(Burton Howard Bloom)在1970年提出的 一种紧凑型的、比较巧妙的概率型数据结构,特点是高效地插入和查询,可以用来告诉你 “某样东西一定不存在或者可能存在”,它是用多个哈希函数,将一个数据映射到位图结构中。此种方式不仅可以提升查询效率,也可以节省大量的内存空间

实现原理图

一般来说用三个哈希函数就差不多了

上图是网上的研究数据显示结果,仅供参考(k,m,n满足上诉关系时,不容易发生哈希冲突)

布隆过滤器的作用范围还是很广泛的,尤其是在不怎么关心某一个东西是否真的存在的场景下,举个例子,比如说取用户ID,当你取的id没人用时,OK你创建成功,当你取的id显示有人用时,如果是真的有人用了,那我们就换一个,如果没人用,它误判了,那我们也就是不能用这个id而已,没有啥太大影响,这时布隆过滤器就非常合适

当然如果说用户投诉说明明没人用这个id,却不让用,要求我们修复bug,这时我们只要让在布隆过滤器过滤后显示为存在的数据再去数据库中校验一下即可,

当然也有人会觉得反正都要去数据库校验还要布隆过滤器干嘛,注意:1.布隆过滤器它为啥叫过滤器,关键就是它只能确定不存在的数据,不能确定存在的数据。2.网络上通讯会比较耗时,如果每一个id的确认都需要与服务器上的数据库校验,就会浪费时间

实现如下

//哈希函数就自行去网上找哪些不容易产生哈希冲突的就行
template <size_t N, class K=string, class HashFunc1=HashFun<K>, class HashFunc2=DGBHash<K>, class HashFunc3=APHash<K> >
class BloomFiler {
public:void set(const K& key){size_t hash1 = HashFunc1()(key) % N;size_t hash2 = HashFunc2()(key) % N;size_t hash3 = HashFunc3()(key) % N;_bs.set(hash1);_bs.set(hash2);_bs.set(hash3);}bool test(const K& key){size_t hash1 = HashFunc1()(key) % N;size_t hash2 = HashFunc2()(key) % N;size_t hash3 = HashFunc3()(key) % N;if (_bs.test(hash1) == false|| _bs.test(hash2) == false|| _bs.test(hash3) == false)return false;return true;}
private:bitset<N*5>_bs;
};

两个问题:

1. 给两个文件,分别有100亿个query,我们只有1G内存,如何找到两个文件交集?分别给出精确算法和近似算法(具体下面一个专题讲)

2. 如何扩展BloomFilter使得它支持删除元素的操作?一般来说是不能支持的,因为删除一个元素的映射会影响其他元素的哈希映射(因为它们会出现冲突),但是我们可以给它们加一个引用计数,这样就能在删除它的同时不影响其他元素的映射

优点
1. 增加和查询元素的时间复杂度为:O(K), (K为哈希函数的个数,一般比较小),与数据量大小无关
2. 哈希函数相互之间没有关系,方便硬件并行运算
3. 布隆过滤器不需要存储元素本身,在某些对保密要求比较严格的场合有很大优势
4. 在能够承受一定的误判时,布隆过滤器比其他数据结构有这很大的空间优势
5. 数据量很大时,布隆过滤器可以表示全集,其他数据结构不能
6. 使用同一组散列函数的布隆过滤器可以进行交、并、差运算

三、哈希分割---哈希思想的扩展

给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址?如何找到top K的IP?

100G的file很显然太大,我们的想法是将它分割成一个个小文件,然后在小文件中计数,我们将文件按Hash(id) % 100,得到100个1G的小文件(理想情况),然后我们就可以在小文件中统计每个id出现的次数(因为同一个id经过哈希映射会在同一个小文件中),但是,上面的只是理想情况,如果某一个小文件的大小为10G,也就是分完之后还是太大了,我们又该怎么办?

出现上诉情况共分两种可能:

1.相同的id太多
2.哈希冲突太多,导致多个不同的id都放在了同一个小文件中

如果是情况一,我们不用管,map中只会插入一次这个id,空间足够

如果是情况二,会报内存错误,这时我们就对这个小文件进行二次哈希分割即可

top K问题用堆实现就行,之前再二叉树数据结构中讲过的


下面,我们回过头去看看

给两个文件,分别有100亿个query,我们只有1G内存,如何找到两个文件交集?分别给出精确算法和近似算法

近似算法就是用布隆过滤器,但是精确的算法呢?

这个query的大小也要考虑到,假设query的大小为50字节,那么一共5000亿字节,约等于500G,很明显了哈希切割,当然我们得先将query转成整数,Hash(query)%500,两个文件各自分成500个1G的小文件(理想情况),这样两个文件中相同的query会分别放在同一个余数的两个小文件中,如下图

当然它也会出现小文件太大的情况,处理方法同上,注意这个不能用位图的原因是query里面存的不一定是整数,这样不同的query查询也有可能映射到用一个比特位(这也是布隆过滤器不准确的原因之一),就不精确了


如果上诉内容对你理解哈希有帮助的话,不要忘记点赞+评论哟!!!

这篇关于C++进阶篇5---番外-位图和布隆过滤器的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/430708

相关文章

C++使用栈实现括号匹配的代码详解

《C++使用栈实现括号匹配的代码详解》在编程中,括号匹配是一个常见问题,尤其是在处理数学表达式、编译器解析等任务时,栈是一种非常适合处理此类问题的数据结构,能够精确地管理括号的匹配问题,本文将通过C+... 目录引言问题描述代码讲解代码解析栈的状态表示测试总结引言在编程中,括号匹配是一个常见问题,尤其是在

使用C++实现链表元素的反转

《使用C++实现链表元素的反转》反转链表是链表操作中一个经典的问题,也是面试中常见的考题,本文将从思路到实现一步步地讲解如何实现链表的反转,帮助初学者理解这一操作,我们将使用C++代码演示具体实现,同... 目录问题定义思路分析代码实现带头节点的链表代码讲解其他实现方式时间和空间复杂度分析总结问题定义给定

C++初始化数组的几种常见方法(简单易懂)

《C++初始化数组的几种常见方法(简单易懂)》本文介绍了C++中数组的初始化方法,包括一维数组和二维数组的初始化,以及用new动态初始化数组,在C++11及以上版本中,还提供了使用std::array... 目录1、初始化一维数组1.1、使用列表初始化(推荐方式)1.2、初始化部分列表1.3、使用std::

C++ Primer 多维数组的使用

《C++Primer多维数组的使用》本文主要介绍了多维数组在C++语言中的定义、初始化、下标引用以及使用范围for语句处理多维数组的方法,具有一定的参考价值,感兴趣的可以了解一下... 目录多维数组多维数组的初始化多维数组的下标引用使用范围for语句处理多维数组指针和多维数组多维数组严格来说,C++语言没

c++中std::placeholders的使用方法

《c++中std::placeholders的使用方法》std::placeholders是C++标准库中的一个工具,用于在函数对象绑定时创建占位符,本文就来详细的介绍一下,具有一定的参考价值,感兴... 目录1. 基本概念2. 使用场景3. 示例示例 1:部分参数绑定示例 2:参数重排序4. 注意事项5.

使用C++将处理后的信号保存为PNG和TIFF格式

《使用C++将处理后的信号保存为PNG和TIFF格式》在信号处理领域,我们常常需要将处理结果以图像的形式保存下来,方便后续分析和展示,C++提供了多种库来处理图像数据,本文将介绍如何使用stb_ima... 目录1. PNG格式保存使用stb_imagephp_write库1.1 安装和包含库1.2 代码解

C++实现封装的顺序表的操作与实践

《C++实现封装的顺序表的操作与实践》在程序设计中,顺序表是一种常见的线性数据结构,通常用于存储具有固定顺序的元素,与链表不同,顺序表中的元素是连续存储的,因此访问速度较快,但插入和删除操作的效率可能... 目录一、顺序表的基本概念二、顺序表类的设计1. 顺序表类的成员变量2. 构造函数和析构函数三、顺序表

使用C++实现单链表的操作与实践

《使用C++实现单链表的操作与实践》在程序设计中,链表是一种常见的数据结构,特别是在动态数据管理、频繁插入和删除元素的场景中,链表相比于数组,具有更高的灵活性和高效性,尤其是在需要频繁修改数据结构的应... 目录一、单链表的基本概念二、单链表类的设计1. 节点的定义2. 链表的类定义三、单链表的操作实现四、

使用C/C++调用libcurl调试消息的方式

《使用C/C++调用libcurl调试消息的方式》在使用C/C++调用libcurl进行HTTP请求时,有时我们需要查看请求的/应答消息的内容(包括请求头和请求体)以方便调试,libcurl提供了多种... 目录1. libcurl 调试工具简介2. 输出请求消息使用 CURLOPT_VERBOSE使用 C

C++实现获取本机MAC地址与IP地址

《C++实现获取本机MAC地址与IP地址》这篇文章主要为大家详细介绍了C++实现获取本机MAC地址与IP地址的两种方式,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 实际工作中,项目上常常需要获取本机的IP地址和MAC地址,在此使用两种方案获取1.MFC中获取IP和MAC地址获取