C++从零开始(day54)——位图,布隆过滤器

2024-03-19 21:28

本文主要是介绍C++从零开始(day54)——位图,布隆过滤器,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

这是关于一个普通双非本科大一学生的C++的学习记录贴

在此前,我学了一点点C语言还有简单的数据结构,如果有小伙伴想和我一起学习的,可以私信我交流分享学习资料

那么开启正题

今天分享的是关于位图, 布隆过滤器相关的知识点

1.位图

1.1位图的概念

我们先来看一道面试题:

给40亿个不重复的无符号整数,无序,给一个无符号整数,如何迅速判断一个数是否存在这40亿个数当中?

在学习哈希之前我们可能会用sort排序后二分查找,学了哈希之后可以用set或者unordered_set解决,但是这个题目用这两种方法都不行,因为空间不够,那么如何解决呢?我们来看位图的概念

位图的概念:用每一位存放某种状态,适用于海量数据,处理无重复的场景,通常来判断某个数据是否存在

位图用到了哈希的思想

1.2位图的实现

位图的实现并不难,熟练掌握位操作运算符即可轻松写出,这里直接给出

namespace wkl
{class my_set{public:my_set(size_t N){_a.resize(N / 32 + 1, 0);_num = 0;}void set(size_t x){size_t index = x / 32;size_t pos = x % 32;_a[index] |= (1 << pos);}void reset(size_t x){size_t index = x / 32;size_t pos = x % 32;_a[index] &= ~(1 << pos);}bool test(size_t x){size_t index = x / 32;size_t pos = x % 32;return _a[index] & (1 << pos);}private:vector<int> _a;size_t _num;};void Test_my_set(){my_set ms(100);ms.set(2);ms.set(4);ms.set(96);ms.set(97);ms.set(98);//ms.reset(2);for (size_t i = 0; i < 100; ++i){printf("[%d]:%d\n", i, ms.test(i));}}
}

1.3位图的应用

1.快速查找某个数据是否在一个集合当中

2.排序 + 去重

3.求两个集合的交集,并集

4.操作系统中的磁盘块标记

1.4位图的优缺点

优点:节约空间,效率高

缺点:只能处理整形数据

2.布隆过滤器

2.1布隆过滤器概念

在我们刷短视频时,是如何保证推送给我们的内容没有重复推送的呢?客户端会从用户历史记录里进行筛选,过滤掉已经存在的记录,那么何如快速查找呢?

1.使用哈希表存储用户记录,缺点:浪费空间

2.用位图存储用户记录,无法记录(位图只能处理整形数据

那么这里就要引出布隆过滤器

布隆过滤器:1970由布隆提出的一种紧凑的,巧妙地概率性数据结构,特点是高效地插入和查找,用来告诉用户某数据不存在或者可能存在它是由多个哈希函数,将一个数据映射到位图结构中,这种方法提高了查找效率,也极大地节省了内存

2.2布隆过滤器的实现

这里不给出代码只讲其原理

a.插入

用多个哈希函数找到数据映射位置,借助于set标记存储

b.查询

找到多个哈希函数映射的值,如果全被标记则可能存在,布隆过滤器如果说某个元素不存在时,该元素一定不存在,如果该元素存在时,该元素可能存在,因为有些哈希函数存在一定的误判

c.删除

布隆过滤器不能直接支持删除操作,因为在删除一个元素时,可能会影响到其他元素

2.3布隆过滤器的优缺点

优点:查找效率高,节省空间

缺点:不能删除元素,有误判率,不能获取元素本身

新手写博客,有不对的位置希望大佬们能够指出,也谢谢大家能看到这里,让我们一起学习进步吧!

这篇关于C++从零开始(day54)——位图,布隆过滤器的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/827290

相关文章

C++右移运算符的一个小坑及解决

《C++右移运算符的一个小坑及解决》文章指出右移运算符处理负数时左侧补1导致死循环,与除法行为不同,强调需注意补码机制以正确统计二进制1的个数... 目录我遇到了这么一个www.chinasem.cn函数由此可以看到也很好理解总结我遇到了这么一个函数template<typename T>unsigned

C++统计函数执行时间的最佳实践

《C++统计函数执行时间的最佳实践》在软件开发过程中,性能分析是优化程序的重要环节,了解函数的执行时间分布对于识别性能瓶颈至关重要,本文将分享一个C++函数执行时间统计工具,希望对大家有所帮助... 目录前言工具特性核心设计1. 数据结构设计2. 单例模式管理器3. RAII自动计时使用方法基本用法高级用法

深入解析C++ 中std::map内存管理

《深入解析C++中std::map内存管理》文章详解C++std::map内存管理,指出clear()仅删除元素可能不释放底层内存,建议用swap()与空map交换以彻底释放,针对指针类型需手动de... 目录1️、基本清空std::map2️、使用 swap 彻底释放内存3️、map 中存储指针类型的对象

C++ STL-string类底层实现过程

《C++STL-string类底层实现过程》本文实现了一个简易的string类,涵盖动态数组存储、深拷贝机制、迭代器支持、容量调整、字符串修改、运算符重载等功能,模拟标准string核心特性,重点强... 目录实现框架一、默认成员函数1.默认构造函数2.构造函数3.拷贝构造函数(重点)4.赋值运算符重载函数

C++ vector越界问题的完整解决方案

《C++vector越界问题的完整解决方案》在C++开发中,std::vector作为最常用的动态数组容器,其便捷性与性能优势使其成为处理可变长度数据的首选,然而,数组越界访问始终是威胁程序稳定性的... 目录引言一、vector越界的底层原理与危害1.1 越界访问的本质原因1.2 越界访问的实际危害二、基

c++日志库log4cplus快速入门小结

《c++日志库log4cplus快速入门小结》文章浏览阅读1.1w次,点赞9次,收藏44次。本文介绍Log4cplus,一种适用于C++的线程安全日志记录API,提供灵活的日志管理和配置控制。文章涵盖... 目录简介日志等级配置文件使用关于初始化使用示例总结参考资料简介log4j 用于Java,log4c

C++归并排序代码实现示例代码

《C++归并排序代码实现示例代码》归并排序将待排序数组分成两个子数组,分别对这两个子数组进行排序,然后将排序好的子数组合并,得到排序后的数组,:本文主要介绍C++归并排序代码实现的相关资料,需要的... 目录1 算法核心思想2 代码实现3 算法时间复杂度1 算法核心思想归并排序是一种高效的排序方式,需要用

C++11范围for初始化列表auto decltype详解

《C++11范围for初始化列表autodecltype详解》C++11引入auto类型推导、decltype类型推断、统一列表初始化、范围for循环及智能指针,提升代码简洁性、类型安全与资源管理效... 目录C++11新特性1. 自动类型推导auto1.1 基本语法2. decltype3. 列表初始化3

C++11右值引用与Lambda表达式的使用

《C++11右值引用与Lambda表达式的使用》C++11引入右值引用,实现移动语义提升性能,支持资源转移与完美转发;同时引入Lambda表达式,简化匿名函数定义,通过捕获列表和参数列表灵活处理变量... 目录C++11新特性右值引用和移动语义左值 / 右值常见的左值和右值移动语义移动构造函数移动复制运算符

C++中detach的作用、使用场景及注意事项

《C++中detach的作用、使用场景及注意事项》关于C++中的detach,它主要涉及多线程编程中的线程管理,理解detach的作用、使用场景以及注意事项,对于写出高效、安全的多线程程序至关重要,下... 目录一、什么是join()?它的作用是什么?类比一下:二、join()的作用总结三、join()怎么