外部排序之文件归并

2024-09-02 06:36
文章标签 归并 排序 外部

本文主要是介绍外部排序之文件归并,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

概述

外部排序(External Sorting)是一种用于处理无法完全加载到内存中的大量数据的排序技术。由于内存的限制,传统的内存排序算法(如快速排序、归并排序)可能无法处理超大规模的数据集合。因此,需要采用外部排序技术,将数据分割成较小的块,利用磁盘进行排序。

文件归并

概念

文件归并(File Merging)是一种将多个已排序文件合并成一个单一排序文件的过程。这通常用于处理大规模数据集,其中数据已经被分割成多个部分,每部分在内存中排序后存储在磁盘上。

实现思路

(1)读取n个值排序后写入file1,再读取n个值排序后写入file2

(2)file1和file2利用归并排序的思想,依次读取比较,取小的数尾插到mfile,mfile再归并为一个有序文件
在这里插入图片描述
(3)重命名mfile为file1,再次从data中读取n个数据排序后写入file2
(4)重复步骤2、3直到data无法读出数据,得到排序好的文件file1
在这里插入图片描述

代码实现

#include<stdio.h>
#include<time.h>
#include<stdlib.h>
//创建随机数据
void CreateDate()
{int n = 40000;//生成随机数据(自1970年1月1日)srand(time(0));//常量字符指针 用file存储文件名的字符串const char* file = "data.txt";//对file文件进行写操作FILE* fin = fopen(file, "w");if (fin == NULL){perror("fopen error");//打印错误信息return;}//生成n个随机数并写入文件for (int i = 0; i < n; i++){int x = rand() + i;//添加换行符——保持数据完整性,方便读入fscanffprintf(fin, "%d\n", x);}fclose(fin);
}int compare(const void* a, const void* b)
{return (*(int*)a - *(int*)b);
}//传入file的实参,无需每次打开file文件,直接读出n个数据到file1
int ReadNDateSortToFile(FILE* fout,int n,const char* file1)
{//创建空间为n的数组int* a = (int*)malloc(sizeof(int) * n);if (a == NULL){perror("malloc fail");return 0;}int x = 0;//如果遇到文件读取结束,实际读取的数据为j个int j = 0;for (int i = 0; i < n; i++){//从fout读出一个数据赋值给x//如果读不出来说明data中数据读取完成if (fscanf(fout, "%d", &x) == EOF)break;a[j++] = x;}if (j == 0){free(a);return 0;}//内部排序(随意选择一种排序方法)qsort(a, j, sizeof(int), compare);//对file1文件进行写操作FILE* fin = fopen(file1, "w");if (fin == NULL){perror("fopen error");//打印错误信息return 0;}for (int i = 0; i < j; i++){fprintf(fin, "%d\n", a[i]);}free(a);fclose(fin);return j;//返回实际读到的数据个数,没有数据了返回0
}void MergeFile(const char* file1, const char* file2, const char* mfile)
{FILE* fout1 = fopen(file1, "r");if (fout1 == NULL){perror("fopen error");//打印错误信息return;}FILE* fout2 = fopen(file2, "r");if (fout2 == NULL){perror("fopen error");//打印错误信息return;}FILE* mfin = fopen(mfile, "w");if (mfin == NULL){perror("fopen error");//打印错误信息return;}//归并操作int x1 = 0;int x2 = 0;int ret1 = fscanf(fout1, "%d\n", &x1);int ret2 = fscanf(fout2, "%d\n", &x2);while (ret1 != EOF && ret2 != EOF){if (x1 < x2){fprintf(mfin, "%d\n", x1);ret1 = fscanf(fout1, "%d\n", &x1);}else{fprintf(mfin, "%d\n", x2);ret2 = fscanf(fout2, "%d\n", &x2);}}while (ret1 != EOF){fprintf(mfin, "%d\n", x1);ret1 = fscanf(fout1, "%d\n", &x1);}while (ret2 != EOF){fprintf(mfin, "%d\n", x2);ret2 = fscanf(fout2, "%d\n", &x2);}fclose(fout1);fclose(fout2);fclose(mfin);
}int main()
{CreateDate();const char* file1 = "file1.txt";const char* file2 = "file2.txt";const char* mfile = "mfile.txt";//对fout文件进行写操作FILE* fout = fopen("data.txt", "r");if (fout == NULL){perror("fopen error");//打印错误信息return 0;}ReadNDateSortToFile(fout,100,file1);ReadNDateSortToFile(fout, 100, file2);//文件归并while (1){MergeFile(file1, file2, mfile);//删除file1和file2remove(file1);remove(file2);//重命名mfile为file1rename(mfile, file1);//读入100个数据排序后到file2if (ReadNDateSortToFile(fout, 100, file2) == 0)break;}return 0;
}

这篇关于外部排序之文件归并的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1129265

相关文章

Spring排序机制之接口与注解的使用方法

《Spring排序机制之接口与注解的使用方法》本文介绍了Spring中多种排序机制,包括Ordered接口、PriorityOrdered接口、@Order注解和@Priority注解,提供了详细示例... 目录一、Spring 排序的需求场景二、Spring 中的排序机制1、Ordered 接口2、Pri

大数据小内存排序问题如何巧妙解决

《大数据小内存排序问题如何巧妙解决》文章介绍了大数据小内存排序的三种方法:数据库排序、分治法和位图法,数据库排序简单但速度慢,对设备要求高;分治法高效但实现复杂;位图法可读性差,但存储空间受限... 目录三种方法:方法概要数据库排序(http://www.chinasem.cn对数据库设备要求较高)分治法(常

Python中lambda排序的六种方法

《Python中lambda排序的六种方法》本文主要介绍了Python中使用lambda函数进行排序的六种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们... 目录1.对单个变量进行排序2. 对多个变量进行排序3. 降序排列4. 单独降序1.对单个变量进行排序

关于Java内存访问重排序的研究

《关于Java内存访问重排序的研究》文章主要介绍了重排序现象及其在多线程编程中的影响,包括内存可见性问题和Java内存模型中对重排序的规则... 目录什么是重排序重排序图解重排序实验as-if-serial语义内存访问重排序与内存可见性内存访问重排序与Java内存模型重排序示意表内存屏障内存屏障示意表Int

【数据结构】——原来排序算法搞懂这些就行,轻松拿捏

前言:快速排序的实现最重要的是找基准值,下面让我们来了解如何实现找基准值 基准值的注释:在快排的过程中,每一次我们要取一个元素作为枢纽值,以这个数字来将序列划分为两部分。 在此我们采用三数取中法,也就是取左端、中间、右端三个数,然后进行排序,将中间数作为枢纽值。 快速排序实现主框架: //快速排序 void QuickSort(int* arr, int left, int rig

usaco 1.3 Mixing Milk (结构体排序 qsort) and hdu 2020(sort)

到了这题学会了结构体排序 于是回去修改了 1.2 milking cows 的算法~ 结构体排序核心: 1.结构体定义 struct Milk{int price;int milks;}milk[5000]; 2.自定义的比较函数,若返回值为正,qsort 函数判定a>b ;为负,a<b;为0,a==b; int milkcmp(const void *va,c

hdu 1285(拓扑排序)

题意: 给各个队间的胜负关系,让排名次,名词相同按从小到大排。 解析: 拓扑排序是应用于有向无回路图(Direct Acyclic Graph,简称DAG)上的一种排序方式,对一个有向无回路图进行拓扑排序后,所有的顶点形成一个序列,对所有边(u,v),满足u 在v 的前面。该序列说明了顶点表示的事件或状态发生的整体顺序。比较经典的是在工程活动上,某些工程完成后,另一些工程才能继续,此时

《数据结构(C语言版)第二版》第八章-排序(8.3-交换排序、8.4-选择排序)

8.3 交换排序 8.3.1 冒泡排序 【算法特点】 (1) 稳定排序。 (2) 可用于链式存储结构。 (3) 移动记录次数较多,算法平均时间性能比直接插入排序差。当初始记录无序,n较大时, 此算法不宜采用。 #include <stdio.h>#include <stdlib.h>#define MAXSIZE 26typedef int KeyType;typedef char In

【软考】希尔排序算法分析

目录 1. c代码2. 运行截图3. 运行解析 1. c代码 #include <stdio.h>#include <stdlib.h> void shellSort(int data[], int n){// 划分的数组,例如8个数则为[4, 2, 1]int *delta;int k;// i控制delta的轮次int i;// 临时变量,换值int temp;in

学习记录:js算法(二十八):删除排序链表中的重复元素、删除排序链表中的重复元素II

文章目录 删除排序链表中的重复元素我的思路解法一:循环解法二:递归 网上思路 删除排序链表中的重复元素 II我的思路网上思路 总结 删除排序链表中的重复元素 给定一个已排序的链表的头 head , 删除所有重复的元素,使每个元素只出现一次 。返回 已排序的链表 。 图一 图二 示例 1:(图一)输入:head = [1,1,2]输出:[1,2]示例 2:(图