手把手粗糙解析KMP算法

2024-02-23 11:38

本文主要是介绍手把手粗糙解析KMP算法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在介绍KMP算法之前,要介绍另一个算法——BF(Brute Force)算法,也就是传说中的男朋友算法(Boy Friend),这是对字符串是否匹配一种简单粗暴的算法,但是通常简单粗暴的算法的执行效率并不怎么样,KMP算法(看毛片)是对BF算法的基础上进行的一种优化,从而大大提升了执行效率,下面先讲一下BF算法是个什么东西。
假如此时,我们有一个字符串 T=bbcabcdababcdabcdabde 我们要查找的字符串是M=abcdabd
当我们用BF算法进行匹配时,我们一个一个的进行匹配也就是

0  1  2  3  4  5  6  7  8  9  10 11 12 13 14 15 16 17 18 19 20 //指针
b  b  c  a  b  c  d  a  b  a  b  c  d  a  b  c  d  a  b  d  e  //T字符串
a  b  c  d  a  b  d                                            //M字符串
0  1  2  3  4  5  6                                            //指针

T[0]!=M[0],不一样咋整来,不能懵逼啊,既然第一个不相等,那就继续往后移一位呗,M字符串后移一位,变成如下

0  1  2  3  4  5  6  7  8  9  10 11 12 13 14 15 16 17 18 19 20 //指针
b  b  c  a  b  c  d  a  b  a  b  c  d  a  b  c  d  a  b  d  e  //T字符串a  b  c  d  a  b  d                                         //M字符串0  1  2  3  4  5  6                                         //指针

wtf,T[1]!=M[0],继续后移吧,就这样一直移 移到了下面这样

0  1  2  3  4  5  6  7  8  9  10 11 12 13 14 15 16 17 18 19 20 //指针
b  b  c  a  b  c  d  a  b  a  b  c  d  a  b  c  d  a  b  d  e  //T字符串a  b  c  d  a  b  d                                   //M字符串0  1  2  3  4  5  6                                   //指针

下面我们进行对比了啊T[3]==M[0],T[4]==M[1],T[5]==M[2],T[6]==M[3],T[7]==M[4],T[8]==M[5] (有点后悔选这么长的字符串了),T[9]!=M[6],不一样 ,又要继续后移一位,变成如下

0  1  2  3  4  5  6  7  8  9  10 11 12 13 14 15 16 17 18 19 20 //指针
b  b  c  a  b  c  d  a  b  a  b  c  d  a  b  c  d  a  b  d  e  //T字符串a  b  c  d  a  b  d                                //M字符串0  1  2  3  4  5  6                                //指针

继续进行对比,如果不同就后移一位,直到匹配完成。如果你之前不知道BF算法,还是一步一步的对比完,不要跳,BF算法是KMP算法的基础,很关键。
我们先不看KMP算法,我们先自己想一下,BF算法究竟傻在哪里,用座山雕的话说就是:一个字,BF算法傻在累。当我们进行到这一步时,特别的突出

0  1  2  3  4  5  6  7  8  9  10 11 12 13 14 15 16 17 18 19 20 //指针
b  b  c  a  b  c  d  a  b  a  b  c  d  a  b  c  d  a  b  d  e  //T字符串a  b  c  d  a  b  d                                   //M字符串0  1  2  3  4  5  6                                   //指针

我们比较了好几位,我们从T[3]一直比到T[9]才发现不一样,在进行下一步的时候,

0  1  2  3  4  5  6  7  8  9  10 11 12 13 14 15 16 17 18 19 20 //指针
b  b  c  a  b  c  d  a  b  a  b  c  d  a  b  c  d  a  b  d  e  //T字符串a  b  c  d  a  b  d                                //M字符串0  1  2  3  4  5  6                                //指针

又从T[4]开始比较了,这就是浪费了啊,既然我们在上一个步骤已经比到T[9]了,说明T[3]~T[8]与我们的M字符串的M[0]~M[5]相同啊 ,我们一定要记住这一点
如果我们按照BF算法右移一位,对比M[0]与T[4],因为之前我们知道M[1]==T[4],所以我们直接就可以对比M字符串的M[1],M[0]与M[1]比较,找到这个规律了,我们思考在这上面能不能做点文章呢?
我们在观察一下M字符串

a  b  c  d  a  b  d                                //M字符串
0  1  2  3  4  5  6                                //指针

如果M[6]处发生了失配(不是适配),也就是说M[0]~M[5]与T字符串上的相等,按照上面的规律,M[0]!=M[1]!=M[2]!=M[3]==M[4],所以 我们就可以直接将右移到bcd 处的步骤省掉,直接匹配到M[4]处(也就是直接匹配到T对应的的字符的地方),哈哈,我们已经对BF算法进行了优化,我们再想想 我们还能再进行优化嘛?
当我们直接匹配到M[4]处时(也就是直接匹配到T对应的的字符的地方),下一步该怎么做了,是不是应该比对M[1]与M[5](也就是比对T对应的的字符的地方),如果相等,我们就继续比对下一个位置,但是如果不相等的话,那么,我们直接匹配到M[4]处 的操作也是没有用的,那么如何把这个操作也扔掉呢?
我们直接比对两位就好了嘛,在M字符串中,我们直接找zM在发生失配的位置前面,是否存在着M[0~1]也就是ab这种组合的字符组合,直接移到这里就行了嘛,我们在依次扩大一下 三位呢?四位呢?五位呢? 很多位呢?
可是我们怎么让电脑知道在发生失配之前到底应该移动M字符串几位呢?
假设我们不知道T字符串,只知道M字符串,所以我们对M字符串进行分析

a  b  c  d  a  b  d                                //M字符串
0  1  2  3  4  5  6                                //指针
  1. 如果在a的位置也就是M[0]的位置就发生失配,我们要右移一位,这个是无法避免的。我们用数组nextMove[]记录在这个位置发生失配时,应该右移几位,现在nextMove[0]=1
  2. 如果我们在b的位置,也就是M[1]的位置发生失配,因为在b之前有一个元素a,a无法与其他的位置进行比较,所以只能右移一位。nextMove[1]=1
  3. 如果我们在c的位置发生失配,也就是M[2]的地方发生失配,所以我们知道前面已经有两个元素匹配成功了,我们对比M[0]与M[1],如果相同,就右移一位,如果不相同,就右移两位。现在不相同,应该右移两位,nextMove[2]=2
  4. 如果我们在d的位置发生失配,也就是M[3]的位置发生失配,ab!=bc a!=c 也就是M[0~1]!=M[1~2],M[0]!=M[2],我们要先比较长的,在比较短的,应为如果长的能够相同,我们就不必比较短的了。此时nextMove[3]=3
  5. 如果我们在a的位置发生失配,也就是M[4]的位置发生失配,abc!=bcd ,ab!=cd ,a!=d,也就是M[0~2]!=M[1~3],M[0~1]!=M[2~3],M[0]!=M[3],所以nextMove[4]=4
  6. 如果我们在b的位置发生失配,也就是M[5]的位置发生失配,abcd!=bcda ,abc!=cda , ab!=da , a=a 也就是M[0~3]!=M[1~4] , M[0~2]!=M[2~4], M[0~1]!=M[3~4],M[0]==M[4],我们找到一个元素相同了,所以直接跳到这个元素就行了,所以nextMove[5]=4=已匹配的位数-元素相同的位数
  7. 如果我们在d的位置发生失配,也就是M[6]的位置发生失配,abcda!=bcdab, abcd!=cdab , abc!=dab , ab=ab,也就是M[0~4]!=M[1~5],M[0~3]!=M[2~5] , M[0~2]!=M[3~5],M[0~1]==M[4~5],所以直接跳到这个元素,nextMove[6]=4
1  1  2  3  4  4  4                                //nextMove[]
a  b  c  d  a  b  d                                //M字符串
0  1  2  3  4  5  6                                //指针

所以下一跳的表就出来了,当我们在M[n]处失配时,只需要取得nextMove[n]的值,将M字符串向右移nextMove[n]位 就好了。
下面我们在做一次匹配,

0  1  2  3  4  5  6  7  8  9  10 11 12 13 14 15 16 17 18 19 20 //指针
b  b  c  a  b  c  d  a  b  a  b  c  d  a  b  c  d  a  b  d  e  //T字符串
a  b  c  d  a  b  d                                            //M字符串
0  1  2  3  4  5  6                                            //指针

第一位不匹配,查表,我们需要向右移一位,变成如下

0  1  2  3  4  5  6  7  8  9  10 11 12 13 14 15 16 17 18 19 20 //指针
b  b  c  a  b  c  d  a  b  a  b  c  d  a  b  c  d  a  b  d  e  //T字符串a  b  c  d  a  b  d                                         //M字符串0  1  2  3  4  5  6                                         //指针

还是不同,查表,向右移一位

0  1  2  3  4  5  6  7  8  9  10 11 12 13 14 15 16 17 18 19 20 //指针
b  b  c  a  b  c  d  a  b  a  b  c  d  a  b  c  d  a  b  d  e  //T字符串a  b  c  d  a  b  d                                      //M字符串0  1  2  3  4  5  6                                      //指针

还是第一位不同,查表,向右移一位

0  1  2  3  4  5  6  7  8  9  10 11 12 13 14 15 16 17 18 19 20 //指针
b  b  c  a  b  c  d  a  b  a  b  c  d  a  b  c  d  a  b  d  e  //T字符串a  b  c  d  a  b  d                                   //M字符串0  1  2  3  4  5  6                                   //指针

我们发现到了这一步,只有M[6]不同,我们查表可知,需要右移四步,如下

0  1  2  3  4  5  6  7  8  9  10 11 12 13 14 15 16 17 18 19 20 //指针
b  b  c  a  b  c  d  a  b  a  b  c  d  a  b  c  d  a  b  d  e  //T字符串a  b  c  d  a  b  d                       //M字符串0  1  2  3  4  5  6                       //指针

这一步我们发现在M[2]处不同,查表,需要右移两位,如下

0  1  2  3  4  5  6  7  8  9  10 11 12 13 14 15 16 17 18 19 20 //指针
b  b  c  a  b  c  d  a  b  a  b  c  d  a  b  c  d  a  b  d  e  //T字符串a  b  c  d  a  b  d                 //M字符串0  1  2  3  4  5  6                 //指针

在M[6]处不同,查表,需要右移四位,如下

0  1  2  3  4  5  6  7  8  9  10 11 12 13 14 15 16 17 18 19 20 //指针
b  b  c  a  b  c  d  a  b  a  b  c  d  a  b  c  d  a  b  d  e  //T字符串a  b  c  d  a  b  d     //M字符串0  1  2  3  4  5  6     //指针

匹配成功!!!

得来 到这一步 你就已经掌握了KMP的原理了,哈哈哈哈哈。
下面是实现代码

public class Demo {public static void main(String[] args) {String text = "bbcabcdababcdabcdabde";String mode = "abcdabd";System.out.println(text.length() + "____>" + KMP(text, mode));}private static int KMP(String inText, String inMode) {char[] charText = inText.toCharArray();char[] charMode = inMode.toCharArray();if (inText.length() < inMode.length()) {return -1;}int[] arrNext = new int[inMode.length() + 1];Next(inMode, arrNext);int i, j; // i是主串游标 j是模式串游标for (i = j = 0; i < inText.length() && j < inMode.length();) {if (j == -1 || // 模式串游标已经回退到第一个位置charText[i] == charMode[j]) // 当前字符匹配成功{ // 满足以上两种情况时两个游标都要向前进一步++i;++j;} else // 匹配不成功,模式串游标回退到当前字符的arrNext值{j = arrNext[j];}}if (j >= inMode.length()) {return i - inMode.length();} else {return -1;}}private static void Next(String inMode, int[] arrNext) {char[] charMode = inMode.toCharArray();arrNext[0] = -1;for (int i = 0, j = -1; i < inMode.length();) { // i是主串游标 j是模式串的游标if (j == -1 || // 如果模式串游标已经回退到第一个字符charMode[i] == charMode[j]) // 如果匹配成功{ // 两个游标都向前走一步++i;++j;arrNext[i] = j; // 存放当前的arrNext值为此时模式串的游标值} else // 匹配不成功j就回退到上一个arrNext值{j = arrNext[j];}}}}

这篇关于手把手粗糙解析KMP算法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/738501

相关文章

Linux中shell解析脚本的通配符、元字符、转义符说明

《Linux中shell解析脚本的通配符、元字符、转义符说明》:本文主要介绍shell通配符、元字符、转义符以及shell解析脚本的过程,通配符用于路径扩展,元字符用于多命令分割,转义符用于将特殊... 目录一、linux shell通配符(wildcard)二、shell元字符(特殊字符 Meta)三、s

Python中的随机森林算法与实战

《Python中的随机森林算法与实战》本文详细介绍了随机森林算法,包括其原理、实现步骤、分类和回归案例,并讨论了其优点和缺点,通过面向对象编程实现了一个简单的随机森林模型,并应用于鸢尾花分类和波士顿房... 目录1、随机森林算法概述2、随机森林的原理3、实现步骤4、分类案例:使用随机森林预测鸢尾花品种4.1

使用Python实现批量访问URL并解析XML响应功能

《使用Python实现批量访问URL并解析XML响应功能》在现代Web开发和数据抓取中,批量访问URL并解析响应内容是一个常见的需求,本文将详细介绍如何使用Python实现批量访问URL并解析XML响... 目录引言1. 背景与需求2. 工具方法实现2.1 单URL访问与解析代码实现代码说明2.2 示例调用

SSID究竟是什么? WiFi网络名称及工作方式解析

《SSID究竟是什么?WiFi网络名称及工作方式解析》SID可以看作是无线网络的名称,类似于有线网络中的网络名称或者路由器的名称,在无线网络中,设备通过SSID来识别和连接到特定的无线网络... 当提到 Wi-Fi 网络时,就避不开「SSID」这个术语。简单来说,SSID 就是 Wi-Fi 网络的名称。比如

SpringCloud配置动态更新原理解析

《SpringCloud配置动态更新原理解析》在微服务架构的浩瀚星海中,服务配置的动态更新如同魔法一般,能够让应用在不重启的情况下,实时响应配置的变更,SpringCloud作为微服务架构中的佼佼者,... 目录一、SpringBoot、Cloud配置的读取二、SpringCloud配置动态刷新三、更新@R

使用Java解析JSON数据并提取特定字段的实现步骤(以提取mailNo为例)

《使用Java解析JSON数据并提取特定字段的实现步骤(以提取mailNo为例)》在现代软件开发中,处理JSON数据是一项非常常见的任务,无论是从API接口获取数据,还是将数据存储为JSON格式,解析... 目录1. 背景介绍1.1 jsON简介1.2 实际案例2. 准备工作2.1 环境搭建2.1.1 添加

在C#中合并和解析相对路径方式

《在C#中合并和解析相对路径方式》Path类提供了几个用于操作文件路径的静态方法,其中包括Combine方法和GetFullPath方法,Combine方法将两个路径合并在一起,但不会解析包含相对元素... 目录C#合并和解析相对路径System.IO.Path类幸运的是总结C#合并和解析相对路径对于 C

手把手教你idea中创建一个javaweb(webapp)项目详细图文教程

《手把手教你idea中创建一个javaweb(webapp)项目详细图文教程》:本文主要介绍如何使用IntelliJIDEA创建一个Maven项目,并配置Tomcat服务器进行运行,过程包括创建... 1.启动idea2.创建项目模板点击项目-新建项目-选择maven,显示如下页面输入项目名称,选择

Java解析JSON的六种方案

《Java解析JSON的六种方案》这篇文章介绍了6种JSON解析方案,包括Jackson、Gson、FastJSON、JsonPath、、手动解析,分别阐述了它们的功能特点、代码示例、高级功能、优缺点... 目录前言1. 使用 Jackson:业界标配功能特点代码示例高级功能优缺点2. 使用 Gson:轻量

Java如何接收并解析HL7协议数据

《Java如何接收并解析HL7协议数据》文章主要介绍了HL7协议及其在医疗行业中的应用,详细描述了如何配置环境、接收和解析数据,以及与前端进行交互的实现方法,文章还分享了使用7Edit工具进行调试的经... 目录一、前言二、正文1、环境配置2、数据接收:HL7Monitor3、数据解析:HL7Busines