[置顶]后缀数组(suffix array)详解

2024-09-05 16:32

本文主要是介绍[置顶]后缀数组(suffix array)详解,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

写在前面

在字符串处理当中,后缀树和后缀数组都是非常有力的工具。

其中后缀树大家了解得比较多,关于后缀数组则很少见于国内的资料。

其实后缀数组是后缀树的一个非常精巧的替代品,它比后缀树容易编程实现,

能够实现后缀树的很多功能而时间复杂度也不太逊色,并且,它比后缀树所占用的空间小很多。

可以说,在信息学竞赛中后缀数组比后缀树要更为实用!

因此在本文中笔者想介绍一下后缀数组的基本概念、构造方法,

以及配合后缀数组的最长公共前缀数组的构造方法,最后结合一些例子谈谈后缀数组的应用。

What Is Suffix Array?

学习后缀数组需要认识几个概念:

子串

  字符串S的子串r[i..j],i<=j,表示S串中从i到j这一段,就是顺次排列r[i],r[i+1],...,r[j]形成的子串。

后缀

  后缀是指从某个位置 i 开始到整个串末尾结束的一个特殊子串。字符串r的从第i个字符开始的后缀表示为Suffix(i),

    也就是Suffix(i)=S[i...len(S)-1] 。

后缀数组(SA[i]存放排名第i大的后缀首字符下标)

  后缀数组 SA 是一个一维数组,它保存1..n 的某个排列SA[1] ,SA[2] ,...,SA[n] ,

  并且保证Suffix(SA[i])<Suffix(SA[i+1]), 1<=i<n 。

    也就是将S的n个后缀从小到大进行排序之后把排好序的后缀的开头位置顺次放入SA 中。

名次数组(rank[i]存放suffix(i)的优先级)

  名次数组 Rank[i] 保存的是 Suffix(i) 在所有后缀中从小到大排列的“名次”

   注:这个是排序的关键字~(这句话是我们排序的重点)

 

(我的理解):

sa[i]:保存的是S字符串的所有后缀在以字典序排序后,排在第i名的字符串在原来子串中的位置。

rank[i]:保存的是S字符串的所有后缀在以字典序排序后,原来的第i名现在排第几。

简单的说,后缀数组(SA)是“排第几的是谁?”,名次数组(RANK)是“你排第几?”

容易看出,后缀数组和名次数组为互逆运算。我们只要算出了sa数组,就可以在O(n)的时间复杂度内算出rank数组。

height数组:height[i]保存的是suffix(i)和suffix(i-1)的最长公共前缀的长度。也就是排名相邻的两个后缀的最长公共前缀。

 

How To Build Suffix Array?

要构造Suffix Array,主要就是构造sa数组,rank数组和height数组。

首先来看一下如何构造sa数组:

构造sa数组的方法有三种:

1)倍增算法:O(nlongn)

2)DC3算法:O(n)

3)skew算法(不常用)

 

这里主要讲一下DC3算法

DC3算法是一个优秀的线性算法!

很多人都认为DC3算法很复杂,其实也没多复杂,代码也就40多行,只是for循环多了点。

DC3算法:

1) 先将后缀分成两部分,然后对第一部分的后缀排序。 

  字符的编号从0开始。

  将后缀分成两部分:

    第一部分是后缀k(k模3不等于0)

    第二部分是后缀k(k模3等于0)

2) 利用(1)的结果,对第二部分的后缀排序。
3) 将(1)和(2)的结果合并,即完成对所有后缀排序。

于是求出了所有后缀的排序,有什么用呢?主要是用于求它们之间的最长公共前缀(Longest Common Prefix,LCP)。

求出sa数组之后,根据rank[sa[i]]=i,rank数组自然也就能够在O(n)的时间内求出。

那我们如何快速的求出height数组呢?

令LCP(i,j)为第i小的后缀和第j小的后缀(也就是Suffix(SA[i])和Suffix(SA[j]))的最长公共前缀的长度,则有如下两个性质: 

    1. 对任意i<=k<=j,有LCP(i,j) = min(LCP(i,k),LCP(k,j))

    2. LCP(i,j)=min(i<k<=j)(LCP(k-1,k))

令height[i]=LCP(i-1,i),即height[i]代表第i小的后缀与第i-1小的后缀的LCP,则求LCP(i,j)就等于求height[i+1]~height[j]之间的RMQ,套用RMQ算法就可以了,复杂度是预处理O(nlogn),查询O(1).

这样一来我们就将height数组也求出来了。

 

下面用草稿纸来模拟一遍:

例如:
aabaaaab


总共有n=8个后缀:

1: aabaaaab

这篇关于[置顶]后缀数组(suffix array)详解的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1139476

相关文章

Spring Security基于数据库验证流程详解

Spring Security 校验流程图 相关解释说明(认真看哦) AbstractAuthenticationProcessingFilter 抽象类 /*** 调用 #requiresAuthentication(HttpServletRequest, HttpServletResponse) 决定是否需要进行验证操作。* 如果需要验证,则会调用 #attemptAuthentica

hdu2241(二分+合并数组)

题意:判断是否存在a+b+c = x,a,b,c分别属于集合A,B,C 如果用暴力会超时,所以这里用到了数组合并,将b,c数组合并成d,d数组存的是b,c数组元素的和,然后对d数组进行二分就可以了 代码如下(附注释): #include<iostream>#include<algorithm>#include<cstring>#include<stack>#include<que

OpenHarmony鸿蒙开发( Beta5.0)无感配网详解

1、简介 无感配网是指在设备联网过程中无需输入热点相关账号信息,即可快速实现设备配网,是一种兼顾高效性、可靠性和安全性的配网方式。 2、配网原理 2.1 通信原理 手机和智能设备之间的信息传递,利用特有的NAN协议实现。利用手机和智能设备之间的WiFi 感知订阅、发布能力,实现了数字管家应用和设备之间的发现。在完成设备间的认证和响应后,即可发送相关配网数据。同时还支持与常规Sof

hdu 1166 敌兵布阵(树状数组 or 线段树)

题意是求一个线段的和,在线段上可以进行加减的修改。 树状数组的模板题。 代码: #include <stdio.h>#include <string.h>const int maxn = 50000 + 1;int c[maxn];int n;int lowbit(int x){return x & -x;}void add(int x, int num){while

6.1.数据结构-c/c++堆详解下篇(堆排序,TopK问题)

上篇:6.1.数据结构-c/c++模拟实现堆上篇(向下,上调整算法,建堆,增删数据)-CSDN博客 本章重点 1.使用堆来完成堆排序 2.使用堆解决TopK问题 目录 一.堆排序 1.1 思路 1.2 代码 1.3 简单测试 二.TopK问题 2.1 思路(求最小): 2.2 C语言代码(手写堆) 2.3 C++代码(使用优先级队列 priority_queue)

K8S(Kubernetes)开源的容器编排平台安装步骤详解

K8S(Kubernetes)是一个开源的容器编排平台,用于自动化部署、扩展和管理容器化应用程序。以下是K8S容器编排平台的安装步骤、使用方式及特点的概述: 安装步骤: 安装Docker:K8S需要基于Docker来运行容器化应用程序。首先要在所有节点上安装Docker引擎。 安装Kubernetes Master:在集群中选择一台主机作为Master节点,安装K8S的控制平面组件,如AP

嵌入式Openharmony系统构建与启动详解

大家好,今天主要给大家分享一下,如何构建Openharmony子系统以及系统的启动过程分解。 第一:OpenHarmony系统构建      首先熟悉一下,构建系统是一种自动化处理工具的集合,通过将源代码文件进行一系列处理,最终生成和用户可以使用的目标文件。这里的目标文件包括静态链接库文件、动态链接库文件、可执行文件、脚本文件、配置文件等。      我们在编写hellowor

LabVIEW FIFO详解

在LabVIEW的FPGA开发中,FIFO(先入先出队列)是常用的数据传输机制。通过配置FIFO的属性,工程师可以在FPGA和主机之间,或不同FPGA VIs之间进行高效的数据传输。根据具体需求,FIFO有多种类型与实现方式,包括目标范围内FIFO(Target-Scoped)、DMA FIFO以及点对点流(Peer-to-Peer)。 FIFO类型 **目标范围FIFO(Target-Sc

019、JOptionPane类的常用静态方法详解

目录 JOptionPane类的常用静态方法详解 1. showInputDialog()方法 1.1基本用法 1.2带有默认值的输入框 1.3带有选项的输入对话框 1.4自定义图标的输入对话框 2. showConfirmDialog()方法 2.1基本用法 2.2自定义按钮和图标 2.3带有自定义组件的确认对话框 3. showMessageDialog()方法 3.1

脏页的标记方式详解

脏页的标记方式 一、引言 在数据库系统中,脏页是指那些被修改过但还未写入磁盘的数据页。为了有效地管理这些脏页并确保数据的一致性,数据库需要对脏页进行标记。了解脏页的标记方式对于理解数据库的内部工作机制和优化性能至关重要。 二、脏页产生的过程 当数据库中的数据被修改时,这些修改首先会在内存中的缓冲池(Buffer Pool)中进行。例如,执行一条 UPDATE 语句修改了某一行数据,对应的缓