【数据结构】数组和字符串(十五):字符串匹配2:KMP算法(Knuth-Morris-Pratt)

本文主要是介绍【数据结构】数组和字符串(十五):字符串匹配2:KMP算法(Knuth-Morris-Pratt),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 4.3 字符串
    • 4.3.1 字符串的定义与存储
    • 4.3.2 字符串的基本操作
    • 4.3.3 模式匹配算法
      • 0. 朴素模式匹配算法
      • 1. ADL语言
      • 2. KMP算法分析
      • 3. 手动求失败函数
        • 定义
        • 例1
        • 例2
        • 例3
      • 4. 自动求失败函数(C语言)
      • 5. KMP算法(C语言)
      • 6. 失败函数答案
        • 例2
        • 例3

4.3 字符串

  字符串(String)是由零个或多个字符(char)顺序排列组成的有限序列,简称为串。例如 “good morning”就是由12个字符构成的一个字符串。一般把字符串记作:

S = ′ ′ a 0 a 1 … a n − 1 ′ ′ S=''a_{0} a_{1}…a_{n-1}'' S=′′a0a1an1′′

  其中S是串名,引号中的字符序列是串值。字符个数是串的长度,长度为0的串被称为空串,因为它不包含任何字符。需要注意的是,空格字符(" ")并不是空串,因为它包含一个字符——空格。
  若把某个串称为主串,则主串中任意个连续的字符组成的子序列被称为子串。子串在主串中第一次出现时,其首字符在主串中的序号被称为该子串在主串中的位置。
  关于字符串的基础知识亦可参考前文:
【重拾C语言】六、批量数据组织(三)数组初值;字符串、字符数组、字符串数组;类型定义 typedef
【重拾C语言】七、指针(三)指针与字符串(字符串与字符串数组;指针与字符串的遍历、拷贝、比较;反转字符串

4.3.1 字符串的定义与存储

  字符串在许多非数值计算问题中扮演着重要的角色,并在模式匹配、程序编译和数据处理等领域得到广泛应用。在高级程序设计语言中,字符串通常被定义为以特殊字符’\0’(称为空字符或字符串结束符)结尾的字符序列。这个约定使得在处理字符串时可以方便地确定字符串的结束位置。关于字符串的存储方式,主要有两种常见的方式:

  • 顺序存储:字符串的字符按照顺序依次存储在连续的内存空间中。这种方式使得字符串的访问和操作效率较高,可以通过索引直接访问任意位置的字符。在顺序存储方式中,字符串的长度可以通过计算字符个数或者遇到’\0’结束符来确定。

  • 链式存储:字符串的字符通过链表的方式进行存储。每个节点包含一个字符和指向下一个节点的指针。链式存储方式可以动态地分配内存,适用于长度可变的字符串。但是相比于顺序存储,链式存储方式需要更多的内存空间,并且访问字符需要遍历链表。

  选择何种存储方式取决于具体的应用场景和需求。顺序存储适合于需要频繁访问和操作字符串的情况,而链式存储适合于长度可变的字符串或者对内存空间要求较高的情况。具体C语言实现可参照前文:
  【数据结构】数组和字符串(十一):字符串的定义与存储(顺序存储、链式存储及其C语言实现)

4.3.2 字符串的基本操作

顺序存储:【数据结构】数组和字符串(十二):顺序存储字符串的基本操作(串长统计、查找、复制、插入、删除、串拼接)
链式存储:【数据结构】数组和字符串(十三):链式字符串的基本操作(串长统计、查找、复制、插入、删除、串拼接)

4.3.3 模式匹配算法

  文本编辑器中常用的“查找”、“替换”和“全部替换”等基本的编辑操作就是最普通的模式匹配问题,即:在文本文件中查找串。它的查找过程可简单描述如下:给定两个字符串变量 S 和 P,其中目标串 S 有n个字符,模式串P有m个字符,m≤n . 从S的给定位置(通常为S的第一个字符)开始,搜索模式串P,如果找到,返回模式串P在S中匹配成功的起始位置;如果没找到(即S中没有P),则返回–1 .
  字符串匹配可以采用多种算法,包括朴素模式匹配算法、KMP(Knuth-Morris-Pratt)算法、Boyer-Moore算法等。这些算法的性能和效率各不相同,具体选择取决于应用的需求和文本数据的规模。

0. 朴素模式匹配算法

  • 朴素模式匹配算法:【数据结构】数组和字符串(十四):字符串匹配1:朴素的模式匹配算法(StringMatching)
      朴素模式匹配算法的优点是过程简单,缺点是效率低。在最坏情况下,该算法要匹配n-m+1次,每次匹配要做m次比较。本文将介绍更高效的模式匹配算法——KMP算法

1. ADL语言

在这里插入图片描述

2. KMP算法分析

待完善

3. 手动求失败函数

定义

在这里插入图片描述

例1

在这里插入图片描述

例2

在这里插入图片描述

例3

在这里插入图片描述
答案见文末

4. 自动求失败函数(C语言)

在这里插入图片描述

#include <stdio.h>
#include <string.h>void buildFailureFunction(const char* P, int m, int* F) {int i = 1, j = 0;F[0] = -1;while (i < m) {if (P[i] == P[j]) {j++;F[i] = j - 1;i++;} else {if (j != 0) {j = F[j - 1];} else {F[i] = -1;i++;}}}
}int main() {
//    const char* P = "abcdabc";
//    const char* P = "aaaabbaabb";const char* P = "abcabcabcabcabcabc";int m = strlen(P);int F[m];buildFailureFunction(P, m, F);printf("模式串P: %s\n", P);printf("失败函数F(P): ");for (int i = 0; i < m; i++) {printf("%d ", F[i]);}printf("\n");return 0;
}

5. KMP算法(C语言)

#include <stdio.h>
#include <string.h>void buildFailureFunction(const char* P, int m, int* F) {int i = 1, j = 0;F[0] = 0;while (i < m) {if (P[i] == P[j]) {j++;F[i] = j;i++;} else {if (j != 0) {j = F[j - 1];} else {F[i] = 0;i++;}}}
}int kmpPatternMatching(const char* S, const char* P, int* comparisons) {int n = strlen(S);  // 目标串的长度int m = strlen(P);  // 模式串的长度int position = -1;  // 初始化位置为-1int F[m];  // 失败函数表buildFailureFunction(P, m, F);int i = 0, j = 0;while (i < n) {(*comparisons)++;  // 比较次数加1if (S[i] == P[j]) {i++;j++;if (j == m) {  // 如果模式串完全匹配position = i - m;break;}} else {if (j != 0) {j = F[j - 1];} else {i++;}}}return position;
}int naivePatternMatching(const char* S, const char* P, int* comparisons) {int n = strlen(S);  // 目标串的长度int m = strlen(P);  // 模式串的长度int position = -1;  // 初始化位置为-1for (int i = 0; i <= n - m; i++) {int j = 0;while (j < m && S[i + j] == P[j]) {(*comparisons)++;  // 比较次数加1j++;}if (j == m) {  // 如果模式串完全匹配position = i;  // 设置匹配位置break;}}return position;
}int main() {const char* S = "abcabcabcabcabcabd";const char* P = "abcabd";int comparisons = 0;  // 比较次数初始化为0int result1 = naivePatternMatching(S, P, &comparisons);if (result1 != -1) {printf("朴素模式匹配算法:模式串在目标串中的位置: %d\n", result1);} else {printf("未找到匹配\n");}printf("朴素模式匹配算法:比较次数: %d\n", comparisons);comparisons = 0;  // 比较次数初始化为0int result2 = kmpPatternMatching(S, P, &comparisons);if (result2 != -1) {printf("KMP算法:模式串在目标串中的位置: %d\n", result2);} else {printf("未找到匹配\n");}printf("KMP算法:比较次数: %d\n", comparisons);return 0;
}

在这里插入图片描述

6. 失败函数答案

例2

在这里插入图片描述
在这里插入图片描述

例3

在这里插入图片描述
在这里插入图片描述

这篇关于【数据结构】数组和字符串(十五):字符串匹配2:KMP算法(Knuth-Morris-Pratt)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/347545

相关文章

C++使用栈实现括号匹配的代码详解

《C++使用栈实现括号匹配的代码详解》在编程中,括号匹配是一个常见问题,尤其是在处理数学表达式、编译器解析等任务时,栈是一种非常适合处理此类问题的数据结构,能够精确地管理括号的匹配问题,本文将通过C+... 目录引言问题描述代码讲解代码解析栈的状态表示测试总结引言在编程中,括号匹配是一个常见问题,尤其是在

Java中String字符串使用避坑指南

《Java中String字符串使用避坑指南》Java中的String字符串是我们日常编程中用得最多的类之一,看似简单的String使用,却隐藏着不少“坑”,如果不注意,可能会导致性能问题、意外的错误容... 目录8个避坑点如下:1. 字符串的不可变性:每次修改都创建新对象2. 使用 == 比较字符串,陷阱满

IDEA编译报错“java: 常量字符串过长”的原因及解决方法

《IDEA编译报错“java:常量字符串过长”的原因及解决方法》今天在开发过程中,由于尝试将一个文件的Base64字符串设置为常量,结果导致IDEA编译的时候出现了如下报错java:常量字符串过长,... 目录一、问题描述二、问题原因2.1 理论角度2.2 源码角度三、解决方案解决方案①:StringBui

C++初始化数组的几种常见方法(简单易懂)

《C++初始化数组的几种常见方法(简单易懂)》本文介绍了C++中数组的初始化方法,包括一维数组和二维数组的初始化,以及用new动态初始化数组,在C++11及以上版本中,还提供了使用std::array... 目录1、初始化一维数组1.1、使用列表初始化(推荐方式)1.2、初始化部分列表1.3、使用std::

C++ Primer 多维数组的使用

《C++Primer多维数组的使用》本文主要介绍了多维数组在C++语言中的定义、初始化、下标引用以及使用范围for语句处理多维数组的方法,具有一定的参考价值,感兴趣的可以了解一下... 目录多维数组多维数组的初始化多维数组的下标引用使用范围for语句处理多维数组指针和多维数组多维数组严格来说,C++语言没

Go语言中三种容器类型的数据结构详解

《Go语言中三种容器类型的数据结构详解》在Go语言中,有三种主要的容器类型用于存储和操作集合数据:本文主要介绍三者的使用与区别,感兴趣的小伙伴可以跟随小编一起学习一下... 目录基本概念1. 数组(Array)2. 切片(Slice)3. 映射(Map)对比总结注意事项基本概念在 Go 语言中,有三种主要

关于Gateway路由匹配规则解读

《关于Gateway路由匹配规则解读》本文详细介绍了SpringCloudGateway的路由匹配规则,包括基本概念、常用属性、实际应用以及注意事项,路由匹配规则决定了请求如何被转发到目标服务,是Ga... 目录Gateway路由匹配规则一、基本概念二、常用属性三、实际应用四、注意事项总结Gateway路由

C#从XmlDocument提取完整字符串的方法

《C#从XmlDocument提取完整字符串的方法》文章介绍了两种生成格式化XML字符串的方法,方法一使用`XmlDocument`的`OuterXml`属性,但输出的XML字符串不带格式,可读性差,... 方法1:通过XMLDocument的OuterXml属性,见XmlDocument类该方法获得的xm

JSON字符串转成java的Map对象详细步骤

《JSON字符串转成java的Map对象详细步骤》:本文主要介绍如何将JSON字符串转换为Java对象的步骤,包括定义Element类、使用Jackson库解析JSON和添加依赖,文中通过代码介绍... 目录步骤 1: 定义 Element 类步骤 2: 使用 Jackson 库解析 jsON步骤 3: 添

Java 字符数组转字符串的常用方法

《Java字符数组转字符串的常用方法》文章总结了在Java中将字符数组转换为字符串的几种常用方法,包括使用String构造函数、String.valueOf()方法、StringBuilder以及A... 目录1. 使用String构造函数1.1 基本转换方法1.2 注意事项2. 使用String.valu