编码：KR字符串匹配，一个简单到领导都看得懂的算法

本文主要是介绍编码：KR字符串匹配，一个简单到领导都看得懂的算法，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

“ 常怀感恩，生活或许就不会处处深渊。”

这几天看了《柔性字符串匹配》，觉得很有意思。书是好书，只是这个脑子是不是猪脑就不知道了，于是秉着知之为知之，不知为不知的精神，我准备再次去请教一下我的领导，在一个月黑风高的夜晚，我给领导发了个消息，领导这么回复了我。

—

**KR算法
**

话说回来，我们今天要说的这个字符串匹配算法比之前讲过的kmp，horspool，sunday简单的多的字符串匹配算法，我们知道暴力匹配是通过对两个字符串进行每一个位置字符对比来查找匹配的上的子字符串。今天说的这个KR算法的思想和暴力匹配有些许类似，不过在实现上做了一些改进，这也是为什么说这个算法非常容易理解的原因，因为思路非常直接。

在计算机科学中，Rabin–Karp算法或Karp–Rabin算法（英文：Rabin–Karp algorithm或Karp–Rabin algorithm），是一种由理查德·卡普与迈克尔·拉宾于1987年提出的、使用散列函数以在文本中搜寻单个模式串的字符串搜索算法单次匹配。该算法先使用旋转哈希以快速筛出无法与给定串匹配的文本位置，此后对剩余位置能否成功匹配进行检验。此算法可推广到用于在文本搜寻单个模式串的所有匹配或在文本中搜寻多个模式串的匹配。

维基百科

按照惯例，对于被匹配的字符串称之为完全字符串，用于查找匹配的字符串称为为模式字符串。KR算法是通过计算散列值的方式从完全字符串中进行模式字符串的匹配，也就是我们经常说的哈希值。

KR从完全字符串的首位开始，计算和模式字符串长度一致的子字符串的哈希值，再通过哈希值与模式字符串计算得到的哈希值进行比较，如果哈希值不存在则字符串一定不相等。如果哈希值相等，两个字符串可能相等，这个时候就需要通过遍历对比两个字符串的每个字符，如果所有顺序字符都相等的话，则两个字符串相等。

为什么哈希值相等，但是值不一定相等，这里涉及到一个概念就是哈希碰撞，了解的童鞋直接跳过，不了解的童鞋听我举个例子，一年有365天，如果这个时候一个房间里有366个人，那么是不是一定会有两个人的生日的同一天，虽然生日相同，但是不是同一个人，其实哈希可以看成是固定长度的函数，而实际长度大于这个固定长度，所以值会重合，当然这个例子不是特别的准确，感兴趣的童鞋可以维基或者百度更准确的定义。

因此当两个长度一样的字符串计算出的哈希值一致的时候，还需要比对字符串对应位置上的所有字符，因此可以很简单的得出KR算法的实现代码。

func KarpRabinMatch(allString, modeString string) int {//计算模式字符串的哈希值hashMode := hash(modeString)//下标匹配结束end:= len(allString)-len(modeString)+1for i := 0; i < end ; i++ {//计算子字符串的哈希值hashKey := hash(allString[i : i+len(modeString)+1])if hashMode == hashKey {for j := 0; j < len(modeString); j++ {if allString[i+j] != modeString[j] {break}}return i}}return -1
}

可以看到代码中对模式字符串哈希值（hashMode）的计算只会处理一次，在循环中，从完全字符串的第一个字符开始的子字符串，计算对应哈希值，判断该哈希值与hashMode比较，如果不相等往后一位计算下一个子字符串的哈希值。

只要哈希值相等的情况下才会对比模式字符串的每一个字符，所以选择一个好的哈希函数，会使比较模式字符串每个字符的操作变得非常少，因此这个算法的时间复杂度在计算子字符串的哈希值上。如果子字符串的每个字符都要参与计算，完全字符串的所有字符需要计算长度n遍，每遍需要计算模式字符串的长度m个字符，因此时间复杂度为O(mn)。

—

旋转哈希

如上所说，如果每一次都要对子字符串的每个字符都进行计算，那么时间复杂度会达到O(mn),如果想要降低时间复杂度（提速），需要找到一种哈希方式，减少每次哈希计算的次数。于是针对这个字符串匹配算法，设计了一种简单的但是不优秀的哈希函数计算方式：旋转哈希。

旋转哈希（也称为滚动哈希、递归哈希、滚动校验和或滑动哈希）是一种哈希函数，输入的内容在一个窗口中进行移动哈希。

少数哈希函数允许快速计算滚动哈希值 — 只给出旧的哈希值，新的哈希值被快速计算出来，旧的值从窗口中移除，新的值添加到窗口中 — 类似于移动平均函数的计算方式，比其他低通滤波器更快。

维基百科

旋转哈希的想法很简单，有点类似窗口移动，每次向右移动窗口，把退出窗口的最左边字符的哈希值减掉，并且加上新加入窗口的最右边字符的哈希值，这样就达到了每次通过常数时间计算出哈希值。

如下所示，子字符串ABB的哈希值，hash1 = A + B + B，当窗口移动到BBE这个子字符串的时候，子字符串BBE的哈希值hash3 = hash1 - A + E即可。