初探KMP算法

数据结构上老师也没讲这个，平常ACM比赛时我也没怎么理解，只是背会了代码……前天在博客园上看见了一篇介绍KMP的，不经意间就勾起了我的回忆，写下来吧，记得更牢。

一.理论准备

KMP算法为什么比传统的字符串匹配算法快？KMP算法是通过分析模式串，预先计算每个位置发生不匹配的时候，可以省去重新匹配的的字符个数。整理出来发到一个next数组，然后进行比较，这样可以避免字串的回溯，模式串中部分结果还可以复用，减少了循环次数，提高匹配效率。通俗的说就是KMP算法主要利用模式串某些字符与模式串开头位置的字符一样避免这些位置的重复比较的。例如主串： abcabcabcabed ,模式串：abcabed。当比较到模式串'e'字符时不同的时候完全没有必要从模式串开始位置开始比较直接从模式串的'c'字符开始比较就可以了。并且主串也不用回溯了。

传统的匹配算法没有利用匹配过的信息(模式串是知道的，那么部分匹配主串也是知道的)，每次都从头开始比较，速度很慢。

先介绍前缀数组(我自己这么叫的，不知道对不对)是如何产生的。首先，要了解两个概念："前缀"和"后缀"。 "前缀"指除了最后一个字符以外，一个字符串的全部头部组合；"后缀"指除了第一个字符以外，一个字符串的全部尾部组合。

来看一个例子：chi表示模式串的前i个字符组成的前缀， next[i] = j表示chi中的开始j个字符和末尾j个字符是一样的(注意下标是字符数目)，而且对于前缀chi来说，这样的j是最大值。next[i] = j的另外一个定义是：有一个含有j个字符的串，它既是chi的真前缀，又是chi的真后缀。

规定：next[1] = next[0] = 0，这个规定不像0！=1那样，而是确实是这样子，不懂得看上面的前后缀概念。注意：next数组里并不是首尾回文串，而是前缀等于后缀，理解这个对于递推求next数组很重要哟。next[i]就是前缀数组，下面通过1个例子来看如何构造前缀数组。

例：cacca有5个前缀，求出其对应的next数组。前缀2为ca，显然首尾没有相同的字符，next[2] = 0，前缀3为cac，显然首尾有共同的字符c，故next[3] = 1，前缀4为cacc，首尾有共同的字符c，故next[4] = 1，前缀5为cacca，首尾有共同的字符ca，故next[5] = 2。如果仔细观察，可以发现构造next[i]的时候，可以利用next[i-1]的结果。比如abcdabc，模式已求得next[7] = 3，为求next[8]，可以直接比较第4个字符和第8个字符，如果它们相等，则next[8] = next[7]+1 = 4，这是因为next[7] = 3保证了前缀ch7的末尾4个字符的前3个字符是一样的。但如果这两个字符不想等呢？那就继续迭代，利用(k=3)k = next[k]的值来求,直到k=0(next[8] = 0)或者字符相等(next[8] = k+1)。

相信大家一定有所了解了……

部分资料来自网络，作者佚名，原文有删改。

二.算法实现

三.问题扩展

KMP算法的高效性往往是在模式串比较长的时候才能体现出来(看next数组的推导过程)，而实际上模式串往往很短，回想自己使用办公套件时查找的字符串长度，所以实践上大多使用BM算法来实现，感兴趣的读者可以自己查阅相关资料，或许可以再看看多模匹配(在主串中一次查找多个模式串)的AC自动机、dictmatch算法。

初探KMP算法

继续阅读

Codeforces 1417 D. Make Them Equal(思维+构造)

查找算法之二分查找查找算法之二分查找

查找算法学习之二分查找（Python版本）——BinarySearch

CQ V1.0分词bates(基于双数组tire树)—应该是目前最快的中文分词算法

Command Network(POJ 3164)---定根最小树形图模板题题目描述输入格式输出格式输入样例输出样例分析源程序

开源低带宽语音编解码器

241 Different Ways to Add Parentheses（C代码版）

【趋高机器视觉】机器视觉技术原理解析及解决方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制规程及特点4． CSMA/CD协议5． CSMA/CD的优点6．结束语

极大似然法(ML)与最大期望法(EM)

C++ 第十五周报告1--《冒泡法排序》

笔试面试题目：滑动窗口(二)

数据结构与算法（27）——排序（二）

Dijkstra--简易版（最短路径）

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

hdu7108哈希