手把手粗糙解析KMP算法

本文主要是介绍手把手粗糙解析KMP算法，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

在介绍KMP算法之前，要介绍另一个算法——BF(Brute Force)算法，也就是传说中的男朋友算法（Boy Friend）,这是对字符串是否匹配一种简单粗暴的算法，但是通常简单粗暴的算法的执行效率并不怎么样，KMP算法（看毛片）是对BF算法的基础上进行的一种优化，从而大大提升了执行效率，下面先讲一下BF算法是个什么东西。
假如此时，我们有一个字符串 T=bbcabcdababcdabcdabde 我们要查找的字符串是M=abcdabd
当我们用BF算法进行匹配时，我们一个一个的进行匹配也就是

0  1  2  3  4  5  6  7  8  9  10 11 12 13 14 15 16 17 18 19 20 //指针
b  b  c  a  b  c  d  a  b  a  b  c  d  a  b  c  d  a  b  d  e  //T字符串
a  b  c  d  a  b  d                                            //M字符串
0  1  2  3  4  5  6                                            //指针

T[0]!=M[0],不一样咋整来，不能懵逼啊，既然第一个不相等，那就继续往后移一位呗，M字符串后移一位，变成如下

0  1  2  3  4  5  6  7  8  9  10 11 12 13 14 15 16 17 18 19 20 //指针
b  b  c  a  b  c  d  a  b  a  b  c  d  a  b  c  d  a  b  d  e  //T字符串a  b  c  d  a  b  d                                         //M字符串0  1  2  3  4  5  6                                         //指针

wtf,T[1]!=M[0],继续后移吧，就这样一直移移到了下面这样

0  1  2  3  4  5  6  7  8  9  10 11 12 13 14 15 16 17 18 19 20 //指针
b  b  c  a  b  c  d  a  b  a  b  c  d  a  b  c  d  a  b  d  e  //T字符串a  b  c  d  a  b  d                                   //M字符串0  1  2  3  4  5  6                                   //指针

下面我们进行对比了啊T[3]==M[0],T[4]==M[1],T[5]==M[2],T[6]==M[3],T[7]==M[4],T[8]==M[5] (有点后悔选这么长的字符串了)，T[9]!=M[6],不一样，又要继续后移一位，变成如下

0  1  2  3  4  5  6  7  8  9  10 11 12 13 14 15 16 17 18 19 20 //指针
b  b  c  a  b  c  d  a  b  a  b  c  d  a  b  c  d  a  b  d  e  //T字符串a  b  c  d  a  b  d                                //M字符串0  1  2  3  4  5  6                                //指针

继续进行对比，如果不同就后移一位，直到匹配完成。如果你之前不知道BF算法，还是一步一步的对比完，不要跳，BF算法是KMP算法的基础，很关键。
我们先不看KMP算法，我们先自己想一下，BF算法究竟傻在哪里，用座山雕的话说就是：一个字，BF算法傻在累。当我们进行到这一步时，特别的突出

0  1  2  3  4  5  6  7  8  9  10 11 12 13 14 15 16 17 18 19 20 //指针
b  b  c  a  b  c  d  a  b  a  b  c  d  a  b  c  d  a  b  d  e  //T字符串a  b  c  d  a  b  d                                   //M字符串0  1  2  3  4  5  6                                   //指针

我们比较了好几位，我们从T[3]一直比到T[9]才发现不一样，在进行下一步的时候，

0  1  2  3  4  5  6  7  8  9  10 11 12 13 14 15 16 17 18 19 20 //指针
b  b  c  a  b  c  d  a  b  a  b  c  d  a  b  c  d  a  b  d  e  //T字符串a  b  c  d  a  b  d                                //M字符串0  1  2  3  4  5  6                                //指针

又从T[4]开始比较了，这就是浪费了啊，既然我们在上一个步骤已经比到T[9]了，说明T[3]~T[8]与我们的M字符串的M[0]~M[5]相同啊，我们一定要记住这一点
如果我们按照BF算法右移一位，对比M[0]与T[4],因为之前我们知道M[1]==T[4],所以我们直接就可以对比M字符串的M[1],M[0]与M[1]比较，找到这个规律了，我们思考在这上面能不能做点文章呢？
我们在观察一下M字符串

a  b  c  d  a  b  d                                //M字符串
0  1  2  3  4  5  6                                //指针

如果M[6]处发生了失配（不是适配），也就是说M[0]~M[5]与T字符串上的相等，按照上面的规律，M[0]!=M[1]!=M[2]!=M[3]==M[4],所以我们就可以直接将右移到bcd 处的步骤省掉，直接匹配到M[4]处（也就是直接匹配到T对应的的字符的地方）,哈哈，我们已经对BF算法进行了优化，我们再想想我们还能再进行优化嘛？
当我们直接匹配到M[4]处时（也就是直接匹配到T对应的的字符的地方），下一步该怎么做了，是不是应该比对M[1]与M[5]（也就是比对T对应的的字符的地方），如果相等，我们就继续比对下一个位置，但是如果不相等的话，那么，我们直接匹配到M[4]处的操作也是没有用的，那么如何把这个操作也扔掉呢？
我们直接比对两位就好了嘛，在M字符串中，我们直接找zM在发生失配的位置前面，是否存在着M[0~1]也就是ab这种组合的字符组合，直接移到这里就行了嘛，我们在依次扩大一下三位呢？四位呢？五位呢？很多位呢？
可是我们怎么让电脑知道在发生失配之前到底应该移动M字符串几位呢？
假设我们不知道T字符串，只知道M字符串，所以我们对M字符串进行分析

a  b  c  d  a  b  d                                //M字符串
0  1  2  3  4  5  6                                //指针

如果在a的位置也就是M[0]的位置就发生失配，我们要右移一位，这个是无法避免的。我们用数组nextMove[]记录在这个位置发生失配时，应该右移几位，现在nextMove[0]=1
如果我们在b的位置，也就是M[1]的位置发生失配，因为在b之前有一个元素a，a无法与其他的位置进行比较，所以只能右移一位。nextMove[1]=1
如果我们在c的位置发生失配，也就是M[2]的地方发生失配，所以我们知道前面已经有两个元素匹配成功了，我们对比M[0]与M[1],如果相同，就右移一位，如果不相同，就右移两位。现在不相同，应该右移两位，nextMove[2]=2
如果我们在d的位置发生失配，也就是M[3]的位置发生失配，ab!=bc a!=c 也就是M[0~1]!=M[1~2],M[0]!=M[2],我们要先比较长的，在比较短的，应为如果长的能够相同，我们就不必比较短的了。此时nextMove[3]=3
如果我们在a的位置发生失配，也就是M[4]的位置发生失配,abc!=bcd ,ab!=cd ,a!=d,也就是M[0~2]!=M[1~3],M[0~1]!=M[2~3],M[0]!=M[3],所以nextMove[4]=4
如果我们在b的位置发生失配，也就是M[5]的位置发生失配,abcd!=bcda ,abc!=cda , ab!=da , a=a 也就是M[0~3]!=M[1~4] , M[0~2]!=M[2~4], M[0~1]!=M[3~4],M[0]==M[4],我们找到一个元素相同了，所以直接跳到这个元素就行了，所以nextMove[5]=4=已匹配的位数-元素相同的位数
如果我们在d的位置发生失配，也就是M[6]的位置发生失配,abcda!=bcdab, abcd!=cdab , abc!=dab , ab=ab,也就是M[0~4]!=M[1~5],M[0~3]!=M[2~5] , M[0~2]!=M[3~5],M[0~1]==M[4~5],所以直接跳到这个元素，nextMove[6]=4

1  1  2  3  4  4  4                                //nextMove[]
a  b  c  d  a  b  d                                //M字符串
0  1  2  3  4  5  6                                //指针

所以下一跳的表就出来了，当我们在M[n]处失配时，只需要取得nextMove[n]的值，将M字符串向右移nextMove[n]位就好了。
下面我们在做一次匹配，

0  1  2  3  4  5  6  7  8  9  10 11 12 13 14 15 16 17 18 19 20 //指针
b  b  c  a  b  c  d  a  b  a  b  c  d  a  b  c  d  a  b  d  e  //T字符串
a  b  c  d  a  b  d                                            //M字符串
0  1  2  3  4  5  6                                            //指针

第一位不匹配，查表，我们需要向右移一位，变成如下

0  1  2  3  4  5  6  7  8  9  10 11 12 13 14 15 16 17 18 19 20 //指针
b  b  c  a  b  c  d  a  b  a  b  c  d  a  b  c  d  a  b  d  e  //T字符串a  b  c  d  a  b  d                                         //M字符串0  1  2  3  4  5  6                                         //指针

还是不同，查表，向右移一位

0  1  2  3  4  5  6  7  8  9  10 11 12 13 14 15 16 17 18 19 20 //指针
b  b  c  a  b  c  d  a  b  a  b  c  d  a  b  c  d  a  b  d  e  //T字符串a  b  c  d  a  b  d                                      //M字符串0  1  2  3  4  5  6                                      //指针

还是第一位不同，查表，向右移一位

0  1  2  3  4  5  6  7  8  9  10 11 12 13 14 15 16 17 18 19 20 //指针
b  b  c  a  b  c  d  a  b  a  b  c  d  a  b  c  d  a  b  d  e  //T字符串a  b  c  d  a  b  d                                   //M字符串0  1  2  3  4  5  6                                   //指针

我们发现到了这一步，只有M[6]不同，我们查表可知，需要右移四步，如下

0  1  2  3  4  5  6  7  8  9  10 11 12 13 14 15 16 17 18 19 20 //指针
b  b  c  a  b  c  d  a  b  a  b  c  d  a  b  c  d  a  b  d  e  //T字符串a  b  c  d  a  b  d                       //M字符串0  1  2  3  4  5  6                       //指针

这一步我们发现在M[2]处不同，查表，需要右移两位，如下

0  1  2  3  4  5  6  7  8  9  10 11 12 13 14 15 16 17 18 19 20 //指针
b  b  c  a  b  c  d  a  b  a  b  c  d  a  b  c  d  a  b  d  e  //T字符串a  b  c  d  a  b  d                 //M字符串0  1  2  3  4  5  6                 //指针

在M[6]处不同，查表，需要右移四位，如下

0  1  2  3  4  5  6  7  8  9  10 11 12 13 14 15 16 17 18 19 20 //指针
b  b  c  a  b  c  d  a  b  a  b  c  d  a  b  c  d  a  b  d  e  //T字符串a  b  c  d  a  b  d     //M字符串0  1  2  3  4  5  6     //指针

匹配成功！！！

得来到这一步你就已经掌握了KMP的原理了，哈哈哈哈哈。
下面是实现代码

public class Demo {public static void main(String[] args) {String text = "bbcabcdababcdabcdabde";String mode = "abcdabd";System.out.println(text.length() + "____>" + KMP(text, mode));}private static int KMP(String inText, String inMode) {char[] charText = inText.toCharArray();char[] charMode = inMode.toCharArray();if (inText.length() < inMode.length()) {return -1;}int[] arrNext = new int[inMode.length() + 1];Next(inMode, arrNext);int i, j; // i是主串游标 j是模式串游标for (i = j = 0; i < inText.length() && j < inMode.length();) {if (j == -1 || // 模式串游标已经回退到第一个位置charText[i] == charMode[j]) // 当前字符匹配成功{ // 满足以上两种情况时两个游标都要向前进一步++i;++j;} else // 匹配不成功,模式串游标回退到当前字符的arrNext值{j = arrNext[j];}}if (j >= inMode.length()) {return i - inMode.length();} else {return -1;}}private static void Next(String inMode, int[] arrNext) {char[] charMode = inMode.toCharArray();arrNext[0] = -1;for (int i = 0, j = -1; i < inMode.length();) { // i是主串游标 j是模式串的游标if (j == -1 || // 如果模式串游标已经回退到第一个字符charMode[i] == charMode[j]) // 如果匹配成功{ // 两个游标都向前走一步++i;++j;arrNext[i] = j; // 存放当前的arrNext值为此时模式串的游标值} else // 匹配不成功j就回退到上一个arrNext值{j = arrNext[j];}}}}