【算法与数据结构】—— 基数排序(后缀数组基础)

2024-03-30 12:58

本文主要是介绍【算法与数据结构】—— 基数排序(后缀数组基础),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

基数排序



定义:
基数排序(Radix Sort)是桶排序的扩展,它的基本思想是:将整数按位切割成不同的数字,然后按每个位数分别比较(位操作)。
具体做法是:将待排序序列中的所有数字统一为同一数位长度,数位较短的数前面补零(比如对于序列{1,23,456}而言,需要将这序列格式化为{001,023,456})。然后从最低位开始,依次排序,直到最高位排序完成以后, 数列就变成一个有序序列。




下面通过一个实际的例子来进行阐述。
假设现在需要对数组{42, 6, 184, 671, 24, 819, 352, 74}进行排序,采用基数排序的流程如下:
Alt
在上图中,首先是将所有待排序数值的长度统一(比如在上面的数字集合中,最大的数是个三位数,因此需要将上面的数字集合中的42改写为042、6改写为006、24改写为024、74改写为074),然后再从最低位开始,依次进行排序,排序流程如下:

  1. 按照个位数进行排序。
  2. 按照十位数进行排序。
  3. 按照百位数进行排序。

最终,数列就变成了一个有序序列。
实际上,每个位上的排序其主要思路都是一致的。也就是说如果我们能够实现对其中某个位置上的排序,那么剩下的那些都将迎刃而解。下面我们就以“个位”为例,对数组{42, 6, 184, 671, 24, 819, 352, 74}进行基数排序,其过程如下:
① 首先,我们需要定义一个用于统计数字[0,9]的出现次数的桶数组buckets[ ],并将其中的所有元素初始化为0。显然,其长度应设为10;
② 接下来我们对原数组中个位上的各个值进行统计,如下:
Alt
此时我们得到的桶数组的值为:buckets[10]={0,1,2,0,3,0,1,0,0,1}。
紧接着,我们对桶数组中的每项都进行一个前缀累加操作,此时桶数组中的值更新为:
buckets[10]={0,1,3,3,6,6,7,7,7,8}。
③ 对于原数组ary[8]={42, 6, 184, 671, 24, 819, 352, 74},如果仅按个位上的值进行排序的话,我们容易得到答案为ans[8]={671, 42, 352, 184, 24, 74, 6, 819}(数值相同时,就依照其本身的前后位置进行排列)。此时我们来分析桶数组buckets[ ]、排序后的数组ans[ ]以及原数组ary[ ]之间的关系,看能否从中找到联系:
Alt
如上图所示:如果我们从最后一项往前看,首先是ary[7]=74,其个位上的数为4;
对应看buckets[4]=6,而在最终的结果数组ans中,ans[6-1]=ans[5]正好等于74。

继续往上推,接下来是ary[6]=352,其个位上的数为2;
对应看buckets[2]=3,而在最终的结果数组ans中,ans[3-1]=ans[2]正好等于352。

再往上推是ary[5]=819,其个位上的数为9;
对应看buckets[9]=8,而在最终的结果数组ans中ans[8-1]=ans[7]正好等于819。

不难发现,对于初始数组ary而言,如果我们仅看待排序的数在某个位置上的值(比如上面仅看个位),那么若将这个值取出作为buckets数组的索引,其对应的取值再减1就是最终该数按某个位置进行排序后在ans数组中的位置。
这个规律是否真的成立呢?我们再继续往上走试试,此时是ary[4]=24,其个位上的数为4。问题来了,我们最开始从ary数组中取ary[7]时,其个位上的值也是4啊。如果我们在取ary[4]=24时还和上面执行一样的过程,那必然会导致最终ans[5]的值由之前的74更新为24,但是这样显然是不正确的。
如果耐心一点,我们可以做一个大胆的猜想:每次在buckets数组中的某个值被取用后,我们就将这个值减1。比如在第一次遇到ary[7]=74时,其个位上的值为4,对应在buckets[ ]数组中,buckets[4]=6,此时,我们将buckets[4]自减1,然后得到buckets[4]=5,并将5作为74在ans数组中的索引;接下来,当到了ary[4]=24时,其个位上的值也为4,对应在buckets[ ]数组中,buckets[4]=5,此时,我们将buckets[4]自减1,然后得到buckets[4]=4,并将4作为24在ans数组中的索引……根据这样的规律,我们可以不断地往上推,最终你会发现,得出的ans数组和上图中给出的完全一致。
你可以将上面的ary数组内容替换成任意非负整数序列,会发现上述规律对其都将适用。
如此一来,我们就得到了桶数组buckets[ ]、排序后的数组ans[ ]与原数组ary[ ]在某个位上的关系。有了这个关系,我们就可以设计相关的算法来完成对“个位”进行基数排序的算法。拓展一下也就能完成对其他“十位”、“百位”……等位置的排序。如果把某个位(如“个位”、“十位”等)作为一个参数,就能得到一个通用的基数排序函数。

下面给出实现基数排序的完整代码(附详细解释):

/** 获取数组a中最大值** 参数说明:*     a -- 数组*     n -- 数组长度*/
int get_max(int a[], int n)
{int i, max;max = a[0];for (i = 1; i < n; i++)if (a[i] > max)max = a[i];return max;
}/** 对数组按照"某个位数"进行排序(桶排序)** 参数说明:*     a -- 数组*     n -- 数组长度*     exp -- 指数。对数组a按照该指数进行排序。** 例如,对于数组a={42, 6, 352, 671, 24, 819, 184, 76};*    (01) 当exp=1表示按照"个位"对数组a进行排序*    (02) 当exp=10表示按照"十位"对数组a进行排序*    (03) 当exp=100表示按照"百位"对数组a进行排序*    ...*/
void count_sort(int a[], int n, int exp)
{int output[n];             	//存放排序后的数组int i, buckets[10] = {0};//将数据出现的次数存储在buckets[]中for (i = 0; i < n; i++)buckets[ (a[i]/exp)%10 ]++;//更改buckets[i]。目的是让更改后的buckets[i]的值,是该数据在output[]中的位置for (i = 1; i < 10; i++)buckets[i] += buckets[i - 1];//将数据存储到临时数组output[]中for (i = n - 1; i >= 0; i--){output[buckets[ (a[i]/exp)%10 ] - 1] = a[i];buckets[ (a[i]/exp)%10 ]--;}//将排序好的数据赋值给a[]for (i = 0; i < n; i++)a[i] = output[i];
}/** 基数排序** 参数说明:*     a -- 数组*     n -- 数组长度*/
void radix_sort(int a[], int n)
{int exp;    //指数。当对数组按各位进行排序时,exp=1;按十位进行排序时,exp=10;...int max = get_max(a, n);    //数组a中的最大值//从个位开始,对数组a按"指数"进行排序for (exp = 1; max/exp > 0; exp *= 10)count_sort(a, n, exp);
}

radix_sort(a, n)的作用是对数组a进行基数排序。

  1. 首先通过get_max(a)获取数组a中的最大值。获取最大值的目的是计算出数组a的最大指数。
  2. 获取到数组a中的最大指数后,再从指数1开始,根据位数对数组a中的元素进行排序。
  3. count_sort(a, n, exp)的作用是对数组a按照指数exp进行排序。



上面给出的算法仅仅是针对非负整数序列,有同学肯定要问了,那有没有更强大的,对所有整数序列都适用的呢?当然是有的。
仔细想,在加入负数之后,对于整个序列而言,相当于新添了9种新状态:-1、-2、……、-8、-9。那么我们要想办法将这些新的状态和之前的0、1、……、8、9加以区别。
有一种很简单的办法是:将a[i]%10+10(a[i]是存放初始序列的数组),这样一来就可以将所有的负数控制在[1,9]之间,同时将所有的非负数控制在[10,19]之间。说白了就是将上面的buckets[ ]数组容量扩大即可。并且在执行a[i]%10+10后,对于其中的每个a[i]而言,相对大小都未发生改变(毕竟大家都增加了10)。因此这样处理a[i],对于sort函数而言并不会使其失去正确性。
基于这样的一种思路,下面给出适用于所有整数序列的基数排序算法(仅需要修改sort函数即可):

void sort(int a[], int n, int exp)
{int[] output = new int[n]; 				//存储"被排序数据"的临时数组int i, buckets[] = new int[20];			//负数只需要把buckets容量扩大为20个即可//将数据出现的次数存储在buckets[]中for (i = 0; i < n; i++)buckets[ (a[i]/exp)%10 + 10 ]++;//更改buckets[i]。目的是让更改后的buckets[i]的值,是该数据在output[]中的位置。for (i = 1; i < 20; i++)buckets[i] += buckets[i - 1];//将数据存储到临时数组output[]中for (i = n - 1; i >= 0; i--){output[buckets[ (a[i]/exp)%10 + 10 ] - 1] = a[i];buckets[ (a[i]/exp)%10 + 10 ]--;}//将排序好的数据赋值给a[]for (i = 0; i < n; i++)a[i] = output[i];
}



这篇关于【算法与数据结构】—— 基数排序(后缀数组基础)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/861549

相关文章

golang字符串匹配算法解读

《golang字符串匹配算法解读》文章介绍了字符串匹配算法的原理,特别是Knuth-Morris-Pratt(KMP)算法,该算法通过构建模式串的前缀表来减少匹配时的不必要的字符比较,从而提高效率,在... 目录简介KMP实现代码总结简介字符串匹配算法主要用于在一个较长的文本串中查找一个较短的字符串(称为

C++一个数组赋值给另一个数组方式

《C++一个数组赋值给另一个数组方式》文章介绍了三种在C++中将一个数组赋值给另一个数组的方法:使用循环逐个元素赋值、使用标准库函数std::copy或std::memcpy以及使用标准库容器,每种方... 目录C++一个数组赋值给另一个数组循环遍历赋值使用标准库中的函数 std::copy 或 std::

通俗易懂的Java常见限流算法具体实现

《通俗易懂的Java常见限流算法具体实现》:本文主要介绍Java常见限流算法具体实现的相关资料,包括漏桶算法、令牌桶算法、Nginx限流和Redis+Lua限流的实现原理和具体步骤,并比较了它们的... 目录一、漏桶算法1.漏桶算法的思想和原理2.具体实现二、令牌桶算法1.令牌桶算法流程:2.具体实现2.1

C++初始化数组的几种常见方法(简单易懂)

《C++初始化数组的几种常见方法(简单易懂)》本文介绍了C++中数组的初始化方法,包括一维数组和二维数组的初始化,以及用new动态初始化数组,在C++11及以上版本中,还提供了使用std::array... 目录1、初始化一维数组1.1、使用列表初始化(推荐方式)1.2、初始化部分列表1.3、使用std::

C++ Primer 多维数组的使用

《C++Primer多维数组的使用》本文主要介绍了多维数组在C++语言中的定义、初始化、下标引用以及使用范围for语句处理多维数组的方法,具有一定的参考价值,感兴趣的可以了解一下... 目录多维数组多维数组的初始化多维数组的下标引用使用范围for语句处理多维数组指针和多维数组多维数组严格来说,C++语言没

0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型的操作流程

《0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeekR1模型的操作流程》DeepSeekR1模型凭借其强大的自然语言处理能力,在未来具有广阔的应用前景,有望在多个领域发... 目录0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型,3步搞定一个应

Go语言中三种容器类型的数据结构详解

《Go语言中三种容器类型的数据结构详解》在Go语言中,有三种主要的容器类型用于存储和操作集合数据:本文主要介绍三者的使用与区别,感兴趣的小伙伴可以跟随小编一起学习一下... 目录基本概念1. 数组(Array)2. 切片(Slice)3. 映射(Map)对比总结注意事项基本概念在 Go 语言中,有三种主要

Java 字符数组转字符串的常用方法

《Java字符数组转字符串的常用方法》文章总结了在Java中将字符数组转换为字符串的几种常用方法,包括使用String构造函数、String.valueOf()方法、StringBuilder以及A... 目录1. 使用String构造函数1.1 基本转换方法1.2 注意事项2. 使用String.valu

Python中的随机森林算法与实战

《Python中的随机森林算法与实战》本文详细介绍了随机森林算法,包括其原理、实现步骤、分类和回归案例,并讨论了其优点和缺点,通过面向对象编程实现了一个简单的随机森林模型,并应用于鸢尾花分类和波士顿房... 目录1、随机森林算法概述2、随机森林的原理3、实现步骤4、分类案例:使用随机森林预测鸢尾花品种4.1

Python在固定文件夹批量创建固定后缀的文件(方法详解)

《Python在固定文件夹批量创建固定后缀的文件(方法详解)》文章讲述了如何使用Python批量创建后缀为.md的文件夹,生成100个,代码中需要修改的路径、前缀和后缀名,并提供了注意事项和代码示例,... 目录1. python需求的任务2. Python代码的实现3. 代码修改的位置4. 运行结果5.