对大数据量进行排序--位图法

2024-04-29 14:08

本文主要是介绍对大数据量进行排序--位图法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

题目:对2G的数据量进行排序,这是基本要求。

数据:1、每个数据不大于8亿;2、数据类型位int;3、每个数据最多重复一次。

内存:最多用200M的内存进行操作。

我听过很多种类似问题的解法,有的是内存多次利用,有的用到了外存,我觉得这两种做法都不是比较好的思想,太慢。由于这个题目看起来没有对效率进行约束,所以这两种方法也是对的,但是我这次提出一个比较好的算法来解答此题,如果有更好的做法请赶快跟帖留言,共同讨论。希望大神们的加入。。。。。

思想:把200M的内存平分,可以开两个数组,一个数组arr存放一遍不重复的所有数据,另一个数组arr_2只存放重复的数据。存放方法是对数组中的每个数据的位进行操作。比如:18这个数,18/32=0,18就会对应arr[0]这个数组中的某一位,而每一个数组元素都是32位组成,18%32=18,也就是说arr[0]那个数的第18位对应18这个数。同样道理再来一个数:43    43/32=1,43%32=11,也就是说43对应的是arr[1]中的第11位。只要找到了对应位置,把该位置1,其余位置不变(默认为0),遍历一次数据,就会把内存中的对应位置1.如果遇到重复数据,此时就会用到第二个数组了,若本次查询该位已经为1,那么就要把arr_2这个数组中的对应位置1。在输出的时候就要同步遍历两个数组。

输出:就是一个反向还原过程,遍历内存中的每一位,该位对应的有数组下标和所处位,进行一次乘、和运算就能还原回来数据,并依次写入文件或者打印到屏幕上。

废话不多说,直接上代码,如有问题,跟帖讨论。

#include <stdio.h>
#include <stdlib.h>
#define NUM 1024*1024	//数据占用的内存大小,即存储数据的载体
#define N	1024*1024*128	//10测试正确性可以用10来测	//数据量
unsigned long int arr[NUM];
unsigned long int arr_2[NUM];
unsigned long int temp[N];//本可不必开辟这个数组的,直接从文件中读取
int main(){
int i,j,temp_num=0,temp_num_2=0,flag=0;
//清空内存
memset(arr,0,sizeof(arr));
memset(arr_2,0,sizeof(arr_2));	
	//得到数据,存到数组中
for(i=0;i<N;i++){
temp[i]=N-i;
temp[i++]=N-i;
}
//下边这个循环是一个排序过程,把对应位置1,如果原来是1,就把另一块内存中的对应位置1
for(i=0;i<N;i++){
if(((arr[temp[i]/32] >> (temp[i]%32)) & 0x00000001) == 1)
arr_2[temp[i]/32] |= (0x00000001<<(temp[i]%32));
arr[temp[i]/32] |= (0x00000001<<(temp[i]%32));
}
printf("\n");
for(i=0;i<NUM && flag<N;i++){
if(arr[i] == 0)
continue;
temp_num=arr[i];
for(j=0;j<32;j++){
if((temp_num&0x00000001) == 0){
temp_num=(temp_num>>1);
}
else if((temp_num&0x0001) == 1){
printf("%d ",(i<<5)+j);
temp_num=(temp_num>>1);
temp_num_2=arr[i];
flag++;
//重复数据的输出
if((temp_num_2&0x00000001) == 1){
printf("%d ",(i<<5)+j);
flag++;
}
}
}
}
printf("\n");
return 0;
}




这篇关于对大数据量进行排序--位图法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/946304

相关文章

使用Jackson进行JSON生成与解析的新手指南

《使用Jackson进行JSON生成与解析的新手指南》这篇文章主要为大家详细介绍了如何使用Jackson进行JSON生成与解析处理,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. 核心依赖2. 基础用法2.1 对象转 jsON(序列化)2.2 JSON 转对象(反序列化)3.

C#使用SQLite进行大数据量高效处理的代码示例

《C#使用SQLite进行大数据量高效处理的代码示例》在软件开发中,高效处理大数据量是一个常见且具有挑战性的任务,SQLite因其零配置、嵌入式、跨平台的特性,成为许多开发者的首选数据库,本文将深入探... 目录前言准备工作数据实体核心技术批量插入:从乌龟到猎豹的蜕变分页查询:加载百万数据异步处理:拒绝界面

Python使用自带的base64库进行base64编码和解码

《Python使用自带的base64库进行base64编码和解码》在Python中,处理数据的编码和解码是数据传输和存储中非常普遍的需求,其中,Base64是一种常用的编码方案,本文我将详细介绍如何使... 目录引言使用python的base64库进行编码和解码编码函数解码函数Base64编码的应用场景注意

Java进行文件格式校验的方案详解

《Java进行文件格式校验的方案详解》这篇文章主要为大家详细介绍了Java中进行文件格式校验的相关方案,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录一、背景异常现象原因排查用户的无心之过二、解决方案Magandroidic Number判断主流检测库对比Tika的使用区分zip

Java使用Curator进行ZooKeeper操作的详细教程

《Java使用Curator进行ZooKeeper操作的详细教程》ApacheCurator是一个基于ZooKeeper的Java客户端库,它极大地简化了使用ZooKeeper的开发工作,在分布式系统... 目录1、简述2、核心功能2.1 CuratorFramework2.2 Recipes3、示例实践3

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》:本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应

Python使用date模块进行日期处理的终极指南

《Python使用date模块进行日期处理的终极指南》在处理与时间相关的数据时,Python的date模块是开发者最趁手的工具之一,本文将用通俗的语言,结合真实案例,带您掌握date模块的六大核心功能... 目录引言一、date模块的核心功能1.1 日期表示1.2 日期计算1.3 日期比较二、六大常用方法详

Python使用DrissionPage中ChromiumPage进行自动化网页操作

《Python使用DrissionPage中ChromiumPage进行自动化网页操作》DrissionPage作为一款轻量级且功能强大的浏览器自动化库,为开发者提供了丰富的功能支持,本文将使用Dri... 目录前言一、ChromiumPage基础操作1.初始化Drission 和 ChromiumPage

Jackson库进行JSON 序列化时遇到了无限递归(Infinite Recursion)的问题及解决方案

《Jackson库进行JSON序列化时遇到了无限递归(InfiniteRecursion)的问题及解决方案》使用Jackson库进行JSON序列化时遇到了无限递归(InfiniteRecursi... 目录解决方案‌1. 使用 @jsonIgnore 忽略一个方向的引用2. 使用 @JsonManagedR

使用Folium在Python中进行地图可视化的操作指南

《使用Folium在Python中进行地图可视化的操作指南》在数据分析和可视化领域,地图可视化是一项非常重要的技能,它能够帮助我们更直观地理解和展示地理空间数据,Folium是一个基于Python的地... 目录引言一、Folium简介与安装1. Folium简介2. 安装Folium二、基础使用1. 创建