本文主要是介绍【算法-位图法】在海量数据中查找重复元素,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
什么是位图法?
举个简单例子,在java中一个int类型的数有32位,而这32只表示一个数太过浪费,于是就考虑让这32位可以表示32个数,每一位表示该数是否存在,例如:
这里用16位的二进制就能表示十六个数字,1表示存在,0表示不存在,上图就表示存在(16,12,6,4,1)这五个数。
在海量数据中查找重复出现的元素或者去除重复出现的元素也是常考的问题。针对此类问题,一般可以通过位图法实现,例如,已知某个文件内包含一些电话号码,每个号码为8位数字,统计不同号码的个数。
本题最好的解决办法就是通过位图法来实现。
解题思路:
8位整数可以表示的最大十进制数值为99999999,如果每个数字对应于位图中的一个bit位,那么存储八位整数需要99999999bit大约99Mbit,因为1Byte=8bit,所以99Mbit折合成内存为99/8=12.375MB的内存,及可以只用12.375MB的内存表示所有的8位数电话号码的内容。
程序代码如下:
import java.util.Random;
public class DuplicateTelephone{int randNum=100;int min=10000000;int max=99999999;int len=(max-min+1);int bit_per_word=32;int word_offset(int b){return b/bit_per_word;}int bit_offset(int b){return b%bit_per_word;}void setBit(int[] words,int n){int temp=n;temp-=min;words[word_offset(temp)]|=(1<<bit_offset(temp));}void clearBit(int[] words,int n){words[word_offset(n)]&=~(1<<bit_offset(n));}boolean getBit(int[] words,int n){int result=words[word_offset(n)]&(1<<bit_offset(n));return result!=0;}public void sort(){int arr[]=new int[randNum];System.out.println("数组大小:"+randNum);int[] words=new int[len/bit_per_word+1];int count=0;Random r=new Random();for(int j=0;j<randNum;j++){arr[j]=r.nextInt(len);arr[j]+=min;System.out.print(arr[j]+" ");}System.out.println();for(int j=0;j<randNum;j++){setBit(words,arr[j]);}System.out.println("排序后a为:");for(int i=0;i<len;i++){if(getBit(words,i)){System.out.print(i+min+" ");count++;}}System.out.println();System.out.println("总个数为:"+count);}public static void main(String[] args){new DuplicateTelephone().sort();}}
运行的结果为:
数组大小:100

排序后a为:

总个数为:100
这篇关于【算法-位图法】在海量数据中查找重复元素的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!