【C++】哈希之位图

2024-04-03 09:36
文章标签 c++ 哈希 之位

本文主要是介绍【C++】哈希之位图,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

  • 一、位图概念
  • 二、海量数据面试题

一、位图概念

假如有40亿个无重复且没有排序的无符号整数,给一个无符号整数,如何判断这个整数是否在这40亿个数中?

我们用以前的思路有这些:

  1. 把这40亿个数遍历一遍,直到找到为为止
  2. 排序+二分查找
  3. 位图解决

遍历一遍的时间复杂度为O(N);排序是O(N * logN),二分查找是O(logN),第二种还不如第一种。前面两种方法如果是针对比较小的数据的话,还行。但是如果是数据很大的,效率就低了。所以我们可以使用第三种方法,位图解决查找数据的问题。

位图概念:
位图是通过每一个比特位来判断一个数是否是在还是不在。一个二进制比特位只有两种状态,要么为0,要么为1,如果某个数据在,则对应映射的比特位为1;不在,对应的比特位为0。位图适用于海量数据处理,且数据无重复的场景,时间复杂度为O(1)

在这里插入图片描述

用位图解决前面的问题:

有40亿个无重复且没有排序的无符号整数,给一个无符号整数,如何判断这个整数是否在这40亿个数中?

首先要了解1G大约等于10亿个字节,1个整数等于4个字节,1个字节等于8个比特位。换算下40亿个整数大约是16G。但是我们不可能开出16G的内存去查找一个数,用位图就可以节省很多空间了。一个整数等于32个比特位,根据位图的概念,用每个比特位是1还是0来确定一个数到底在不在,1个整数的32个比特位可以用来确定32个数据的存在,所以16G除以32等于0.5G,即512M,这就是开辟的空间大小,是不是节省多了。

这里是我们自己模拟出来的一个简单的位图,主要有以下接口:

1️⃣构造
使用vector的接口resize开辟出N / 32 + 1的空间大小,每个位置初始化为0,为什么要除32?因为一个整数有32个比特位,这32个比特位存储在vector数组的一个位置里;为什么又要加1?因为假如开的空间大小是50,50/32等于1,那到底是一个位置还是2个位置?很明显是2个,第一个位置刚好满32个比特位,剩余18个比特位也要有位置放,因此要有第二个位置。

2️⃣将该比特位设置为1
每个数都有对应映射的比特位,将这个数除以32找到该数在数组中的位置,取模32找到映射的第几个比特位,1左移前面取模的位数,然后按位或将该比特位设置为1
在这里插入图片描述

3️⃣将该比特位设置为0
前面同上,先按位取反1左移前面取模的位数后的数,然后按位与将该比特位设置为0
在这里插入图片描述

4️⃣判断状态
前面同上,用按位与,映射的位置和1移动后的位都是1才说明这个数在
在这里插入图片描述

类的模板是非类型模板参数,传的是数据的大小。成员变量是vector类型,方便开辟空间。为什么1是左移?注意:左移不是真的往左边移,右移也不是真的往右边移,跟方向没关系。左移是往高位移动,右移是往低位移动;其次,还要看编译器,vs下是小端存储数据的,所以这里是左移。

代码:

namespace yss
{template<size_t N>class bitset{public://构造bitset(){_bit.resize(N / 32 + 1, 0);}//该比特位 置为1void set(size_t x){size_t i = x / 32;size_t j = x % 32;_bit[i] |= (1 << j);}//该比特位 置为0void reset(size_t x){size_t i = x / 32;size_t j = x % 32;_bit[i] &= ~(1 << j);}//该比特位的状态(在/不在)bool test(size_t x){size_t i = x / 32;size_t j = x % 32;return _bit[i] & (1 << j);}private:vector<int> _bit;};
}void Func1()
{yss::bitset<100> bs;bs.set(30);bs.set(60);bs.set(90);for (size_t i = 0; i < 100; i++){if (bs.test(i)){cout << i << "->" << "在" << endl;}else{cout << i << "->" << "不在" << endl;}}
}

40亿个数据,如下:

yss::bitset<-1>* bs = new bitset<-1>;//第一种写法
yss::bitset<4294967295>* bs = new bitset<4294967295>;//第二种写法

栈的空间有限,对于很大的数据,需要大量的内存空间,应该通过堆来申请。其他同上面代码。

二、海量数据面试题

1️⃣给定100亿个整数,设计算法找到只出现一次的整数?

思路:

  • 使用两个位图来实现,表示00(没有出现) - 01(出现一次) - 10 - 11 的情况(后面两个是出现2个及2个以上),本题是找到只出现一次的整数,所以最终判断这个整数在不在的条件是两个位图映射的比特位是不是01
  • 有100亿个整数,为了映射所有整数,一个位图开辟的空间大小是512M,即2的32次方个比特位,两个合起来是占1G内存

代码:

int main()
{vector<int> a{ 2,2,3,3,5,8,8,14,14,66 };bitset<-1>* bs1 = new bitset<-1>;//指针bitset<-1>* bs2 = new bitset<-1>;for (auto e : a){if (bs1->test(e) == false && bs2->test(e) == false){bs2->set(e);//00->01}else if (bs1->test(e) == false && bs2->test(e) == true){bs1->set(e);bs2->reset(e);//01->10}else{//}}for (size_t i = 0; i < -1; i++){if (bs1->test(i) == false && bs2->test(i) == true){cout << i << endl;// 5   66}}return 0;
}

2️⃣给两个文件,分别有100亿个整数,我们只有1G内存,如何找到两个文件交集?

思路:

  • 既然给两个文件,那么也要用两个位图。100亿个整数,跟前面一样,一个位图也是512M,两个位图刚好1G
  • 只需判断某个数据在两个位图是否存在即可,如果两个位图的对应映射的比特位都是1,就是交集;反之,有一个不是1,或者两个都是0就不是交集

代码:

int main()
{vector<int> a1{ 2,4,6,8,10,14,20 };vector<int> a2{ 1,3,4,5,7,9,10,17 };bitset<-1>* bs1 = new bitset<-1>;bitset<-1>* bs2 = new bitset<-1>;for (auto e : a1){bs1->set(e);}for (auto e : a2){bs2->set(e);}for (size_t i = 0; i < -1; i++){if (bs1->test(i) == true && bs2->test(i) == true){cout << i << endl;// 4  10}}return 0;
}

3️⃣1个文件有100亿个int,1G内存,设计算法找到出现次数不超过2次的所有整数

思路:

  • 步骤同问题1,在它的基础上增加了10->11的情况,即出现3次和3次以上,然后最后判断条件为出现1次和2次的数据打印出来

代码:

int main()
{vector<int> a{ 2,4,4,5,5,5,7,9,9,9,9 };bitset<-1>* bs1 = new bitset<-1>;bitset<-1>* bs2 = new bitset<-1>;for (auto e : a){if (bs1->test(e) == false && bs2->test(e) == false){bs2->set(e);//00->01 出现1次}else if (bs1->test(e) == false && bs2->test(e) == true){bs1->set(e);bs2->reset(e);//01->10 出现2次}else if (bs1->test(e) == true && bs2->test(e) == false){bs2->set(e);//10->11 出现3次}//3次以上}for (size_t i = 0; i < -1; i++){if ( (bs1->test(i) == false && bs2->test(i) == true)|| (bs1->test(i) == true && bs2->test(i) == false)){cout << i << endl;// 2  4  7}}return 0;
}

这篇关于【C++】哈希之位图的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/872551

相关文章

哈希leetcode-1

目录 1前言 2.例题  2.1两数之和 2.2判断是否互为字符重排 2.3存在重复元素1 2.4存在重复元素2 2.5字母异位词分组 1前言 哈希表主要是适合于快速查找某个元素(O(1)) 当我们要频繁的查找某个元素,第一哈希表O(1),第二,二分O(log n) 一般可以分为语言自带的容器哈希和用数组模拟的简易哈希。 最简单的比如数组模拟字符存储,只要开26个c

【C++ Primer Plus习题】13.4

大家好,这里是国中之林! ❥前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站。有兴趣的可以点点进去看看← 问题: 解答: main.cpp #include <iostream>#include "port.h"int main() {Port p1;Port p2("Abc", "Bcc", 30);std::cout <<

C++包装器

包装器 在 C++ 中,“包装器”通常指的是一种设计模式或编程技巧,用于封装其他代码或对象,使其更易于使用、管理或扩展。包装器的概念在编程中非常普遍,可以用于函数、类、库等多个方面。下面是几个常见的 “包装器” 类型: 1. 函数包装器 函数包装器用于封装一个或多个函数,使其接口更统一或更便于调用。例如,std::function 是一个通用的函数包装器,它可以存储任意可调用对象(函数、函数

C++11第三弹:lambda表达式 | 新的类功能 | 模板的可变参数

🌈个人主页: 南桥几晴秋 🌈C++专栏: 南桥谈C++ 🌈C语言专栏: C语言学习系列 🌈Linux学习专栏: 南桥谈Linux 🌈数据结构学习专栏: 数据结构杂谈 🌈数据库学习专栏: 南桥谈MySQL 🌈Qt学习专栏: 南桥谈Qt 🌈菜鸡代码练习: 练习随想记录 🌈git学习: 南桥谈Git 🌈🌈🌈🌈🌈🌈🌈🌈🌈🌈🌈🌈🌈�

【C++】_list常用方法解析及模拟实现

相信自己的力量,只要对自己始终保持信心,尽自己最大努力去完成任何事,就算事情最终结果是失败了,努力了也不留遗憾。💓💓💓 目录   ✨说在前面 🍋知识点一:什么是list? •🌰1.list的定义 •🌰2.list的基本特性 •🌰3.常用接口介绍 🍋知识点二:list常用接口 •🌰1.默认成员函数 🔥构造函数(⭐) 🔥析构函数 •🌰2.list对象

06 C++Lambda表达式

lambda表达式的定义 没有显式模版形参的lambda表达式 [捕获] 前属性 (形参列表) 说明符 异常 后属性 尾随类型 约束 {函数体} 有显式模版形参的lambda表达式 [捕获] <模版形参> 模版约束 前属性 (形参列表) 说明符 异常 后属性 尾随类型 约束 {函数体} 含义 捕获:包含零个或者多个捕获符的逗号分隔列表 模板形参:用于泛型lambda提供个模板形参的名

usaco 1.3 Prime Cryptarithm(简单哈希表暴搜剪枝)

思路: 1. 用一个 hash[ ] 数组存放输入的数字,令 hash[ tmp ]=1 。 2. 一个自定义函数 check( ) ,检查各位是否为输入的数字。 3. 暴搜。第一行数从 100到999,第二行数从 10到99。 4. 剪枝。 代码: /*ID: who jayLANG: C++TASK: crypt1*/#include<stdio.h>bool h

6.1.数据结构-c/c++堆详解下篇(堆排序,TopK问题)

上篇:6.1.数据结构-c/c++模拟实现堆上篇(向下,上调整算法,建堆,增删数据)-CSDN博客 本章重点 1.使用堆来完成堆排序 2.使用堆解决TopK问题 目录 一.堆排序 1.1 思路 1.2 代码 1.3 简单测试 二.TopK问题 2.1 思路(求最小): 2.2 C语言代码(手写堆) 2.3 C++代码(使用优先级队列 priority_queue)

【C++高阶】C++类型转换全攻略:深入理解并高效应用

📝个人主页🌹:Eternity._ ⏩收录专栏⏪:C++ “ 登神长阶 ” 🤡往期回顾🤡:C++ 智能指针 🌹🌹期待您的关注 🌹🌹 ❀C++的类型转换 📒1. C语言中的类型转换📚2. C++强制类型转换⛰️static_cast🌞reinterpret_cast⭐const_cast🍁dynamic_cast 📜3. C++强制类型转换的原因📝

C++——stack、queue的实现及deque的介绍

目录 1.stack与queue的实现 1.1stack的实现  1.2 queue的实现 2.重温vector、list、stack、queue的介绍 2.1 STL标准库中stack和queue的底层结构  3.deque的简单介绍 3.1为什么选择deque作为stack和queue的底层默认容器  3.2 STL中对stack与queue的模拟实现 ①stack模拟实现