KMP算法さんぽう

在ざい本文ほんぶん中ちゅう，将はた使用しよう始はじめ于零的てき数すう组来らい表示ひょうじ字じ符ふ串くし。比ひ如，若わか字じ符ふ串くしS = "ABC"，则S[2]表示ひょうじ字じ符ふ'C'。这种表示ひょうじ方法ほうほう与あずかC语言一致いっち。

在ざい计算机つくえ科学かがく中なか，克かつ努つとむ斯-莫里斯-普ひろし拉ひしげ特とく字じ符ふ串くし查找算法さんぽう（英語えいご：Knuth–Morris–Pratt algorithm，简称为KMP算法さんぽう）可か在ざい一いち个字じ符ふ串くしS内うち查找一いち个词W的まと出で现位置いち。一いち个词在ざい不ふ匹ひき配はい时本身ほんみ就包含ほうがん足あし够的信しん息いき来らい确定下か一个匹配可能的开始位置，此算法ほう利用りよう这一特性以避免重新检查先前配對的字じ符ふ。

这个算法さんぽう由ゆかり高德こうとく纳和わ沃恩·普ふ拉ひしげ特とく在ざい1974年ねん构思，同年どうねん詹姆斯·H·莫里斯也独立地りっち设计出で该算法ほう，最さい终三さん人にん于1977年ねん联合发表。

查找过程

以W="ABCDABD"，S="ABC ABCDAB ABCDABCDABDE"为例说明查找过程。查找过程同どう时使用しよう两个循环变量m和わi：

m代表だいひょう主ぬし文字もじ符ふ串くしS内うち匹ひき配はい字じ符ふ串くしW的てき当とう前ぜん查找位置いち，
i代表だいひょう匹ひき配はい字じ符ふ串くしW当とう前ぜん做比较的字じ符ふ位置いち。

图示如下：

             1         2  
m: 01234567890123456789012
S: ABC ABCDAB ABCDABCDABDE
W: ABCDABD
i: 0123456

從したがえW與あずかS的まと開ひらき頭あたま比較ひかく起おこり。比ひ對たい到いたS[3](=' ')時とき，發現はつげんW[3](='D')與あずか之これ不ふ符ふ。接せっ著ちょ並なみ不ふ是ぜ從したがえS[1]比較ひかく下か去さ。已やめ經けい知道ともみちS[1]~S[3]不ふ與あずかW[0]相合そうごう。因よし此，略ほぼ過か這些字じ元もと，令れいm = 4以及i = 0。

             1         2  
m: 01234567890123456789012
S: ABC ABCDAB ABCDABCDABDE
W:     ABCDABD
i:     0123456

如上じょじょう所しょ示しめせ，檢けん核かく了りょう"ABCDAB"這個字じ串くし。然しか而，下した一いち字じ符ふ便びん不ふ相合そうごう。可か以注意ちゅうい到いた，"AB"在ざい"ABCDAB"的てき頭あたま尾お處しょ均ひとし有ゆう出現しゅつげん。這意味あじ著ちょ尾端びたん的てき"AB"可か以作為さくい下か次じ比較的ひかくてき起おこり始點してん。因よし此，令れいm = 8, i = 2，繼續けいぞく比較ひかく。圖示ずし如下：

             1         2  
m: 01234567890123456789012
S: ABC ABCDAB ABCDABCDABDE
W:         ABCDABD
i:         0123456

於m = 10的てき地方ちほう，又また出現しゅつげん不ふ相あい符ふ的てき情況じょうきょう。類似るいじ地ち，令れいm = 11, i = 0繼續けいぞく比較ひかく：

             1         2  
m: 01234567890123456789012
S: ABC ABCDAB ABCDABCDABDE
W:            ABCDABD
i:            0123456

這時，S[17](='C')不ふ與あずかW[6]相あい同どう，但ただし是ぜ已やめ匹ひき配はい部分ぶぶん"ABCDAB"亦また为首尾しゅび均ひとし有ゆう"AB"，採取さいしゅ一貫いっかん的てき作法さほう，令れいm = 15和わi = 2，繼續けいぞく搜さがせ尋ひろ。

             1         2  
m: 01234567890123456789012
S: ABC ABCDAB ABCDABCDABDE
W:                ABCDABD
i:                0123456

找到完全かんぜん匹ひき配はい的てき字じ串くし了りょう，其起始はじめ位置いち於S[15]的てき地方ちほう。

部分ぶぶん匹ひき配はい表ひょう

部分ぶぶん匹ひき配はい表ひょう，又また称たたえ为失しつ配はい函数かんすう，作用さよう是ぜ让算法ほう无需多た次つぎ匹ひき配はいS中なか的てき任にん何なん字じ符ふ。能のう够实现线性せい时间搜索そうさく的てき关键是ぜ在ざい主しゅ串くし的てき一些字段中检查模式串的初はつ始はじめ字じ段だん，可か以确切地きれじ知道ともみち在ざい当とう前ぜん位置いち之の前まえ的てき一个潜在匹配的位置。换句话说，在ざい不ふ错过任にん何なん潜在せんざい匹ひき配はい的てき情じょう况下，"预搜索そうさく"这个模も式しき串くし本身ほんみ并将其译成なり一いち个包含ほうがん所有しょゆう可能かのう失しつ配はい的てき位置いち对应可か以绕过最多た无效字じ符ふ的てき列れつ表ひょう。

对于W中なか的てき任にん何なん位置いち，都と希望きぼう能のう够查询那个位置いち前まえ（不ふ包括ほうかつ那な个位置いち）有ゆう可能かのう的てきW的てき最さい长初始はじめ字じ段だん的てき长度，而不是重これしげ新しん从W[0]开始比ひ较整个字段だん，这长度ど就是查找下か一个匹配时回退的距离。因よし此T[i]是これW的てき可能かのう的てき适当初はつ始はじめ字じ段だん同どう时也是ぜ结束于W[i - 1]的てき子こ串くし的てき最大さいだい长度。使つかい空そら串くし长度是ぜ0。当とう一个失配出现在模式串的最开始，这是特殊とくしゅ情じょう况（无法回かい退すさ），设置T[0] = -1，在ざい下面かめん讨论。

创建表ひょう算法さんぽう示しめせ例れい

以W = "ABCDABD"为例。以下いか将はた看み到いた，部分ぶぶん匹ひき配はい表ひょう的てき生成せいせい过程与あずか前述ぜんじゅつ查找过程大同だいどう小しょう异，且出于类似に原因げんいん是ぜ高だか效こう的てき。

首くび先さき，设定T[0] = -1。为求出でT[1]，必须找到一いち个"A"的てき真ま后きさき缀（真ま后きさき缀指不等ふとう于原串くし的てき后きさき缀）兼けんW的てき前ぜん缀。但ただし"A"没ぼつ有ゆう真ま后きさき缀，所以ゆえん设定T[1] = 0。类似地ち，T[2] = 0。

继续到T[3]，注意ちゅうい到いた检查所有しょゆう后きさき缀有一いち个捷径しょうけい：假かり设存在そんざい符合ふごう条件じょうけん的てき前ぜん后きさき缀，两者分ぶん别为W[0..1] = W[1..2]，则必有ゆうW[0..0] = W[1..1]。由よし于W[0..0]亦また是これW的てき真前まんまえ缀，上うえ一步必然已经得到T[2] = 1（而有T[2] = 0，说明假かり设不成立せいりつ）。一般いっぱん地ち，遍へん历到每ごと个字符ふ时，只ただ有ゆう上じょう一步已经发现一个长为m的てき有效ゆうこう后きさき缀，才さい需要じゅよう判断はんだん有ゆう无长为m+1的てき后きさき缀，而毋需考虑长为m+2、m+3等とう的てき后きさき缀。

从而，不ふ必考虑长为2的てき后きさき缀，而唯独どく需要じゅよう考こう虑的长度1亦また不可ふか行ぎょう，故こ得え到いたT[3]=0。

接せっ下か来らい是ぜW[4] = 'A'。基もと于同样的理由りゆう，需要じゅよう考こう虑的最大さいだい长度为1，并且在ざい'A'这个情じょう况中有效ゆうこう，回かい退すさ到いた寻找的てき当とう前ぜん字じ符ふ之これ前まえ的てき字じ段だん，因いん此T[4] = 0。

现在考こう虑下一いち个字符ふW[5] = 'B'，使用しよう这样的てき逻辑：如果曾发现一个子模式在上一个字符W[4]之これ前出ぜんしゅつ现，继续到いた当とう前ぜん字じ符ふW[5]，那な么在它之前ぜん它本身ほんみ会かい拥有一个结束于W[4]合ごう适的初はつ始はじめ段だん，与あずか事こと实相反あいはん的てき是ぜ已やめ经找到'A'是ぜ最さい早出そうしゅつ现在结束于W[4]的てき合ごう适字段だん。因よし此为了りょう找到W[5]的てき终止串くし，不ふ需要じゅよう查看W[4]。因よし此T[5] = 1。

最さい后きさき到いたW[4] = 'A'。下した一いち个字符ふ是ぜ'B'，并且这也确实是ぜW[5]。此外，上面うわつら的てき相しょう同どう参さん数すう说明为了查找W[6]的てき字じ段だん，不ふ需要じゅよう向こう前ぜん查看W[4]，所以ゆえん得とく出でT[6] = 2。

于是得え到いた下面かめん的てき表ひょう：

`i`	0	1	2	3	4	5	6
`W[i]`	A	B	C	D	A	B	D
`T[i]`	-1	0	0	0	1	2	0

另一个更复杂和有趣的例子：

`i`	0	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20	21	22	23
`W[i]`	P	A	R	T	I	C	I	P	A	T	E		I	N		P	A	R	A	C	H	U	T	E
`T[i]`	-1	0	0	0	0	0	0	1	2	0	0	0	0	0	0	1	2	3	0	0	0	0	0	0

建立こんりゅう表ひょう算法さんぽう的てき伪代码的解かい释

上面うわつら的てき例れい子こ以最少さいしょう的てき复杂步ふ骤展示てんじ了りょう组织这个表ひょう格かく的てき一般いっぱん性せい方法ほうほう。这么做的原理げんり是ぜ对整体せいたい的てき搜索そうさく：大だい多数たすう工作こうさく已やめ经在检测到いた当とう前ぜん位置いち的てき时候做完了かんりょう，剩あま下しも需要じゅよう做的很少。略りゃく微ほろ复杂的てき一点是找到一个共同前后缀。这就需要じゅよう有ゆう一些初始化的代码。

algorithm kmp_table:
    input:
        an array of characters, W (the word to be analyzed)
        an array of integers, T (the table to be filled)
    output:
        nothing (but during operation, it populates the table)

    define variables:
        an integer, pos ← 2 (the current position we are computing in T)
        an integer, cnd ← 0 (the zero-based index in W of the next 
character of the current candidate substring)

    (the first few values are fixed but different from what the algorithm 
might suggest)
    let T[0] ← -1, T[1] ← 0

    while pos < length(W) do
        (first case: the substring continues)
        if W[pos - 1] = W[cnd] then
            let cnd ← cnd + 1, T[pos] ← cnd, pos ← pos + 1

        (second case: it doesn't, but we can fall back)
        else if cnd > 0 then
            let cnd ← T[cnd]

        (third case: we have run out of candidates.  Note cnd = 0)
        else
            let T[pos] ← 0, pos ← pos + 1

建立こんりゅう表ひょう的てき算法さんぽう的てき效率こうりつ

建立こんりゅう表ひょう的てき算法さんぽう的てき复杂度ど是ぜ $O(n)$ ，其中 $n$ 是これW的てき长度。

除去じょきょ一些初始化的工作，所有しょゆう工作こうさく都と在ざい循环中ちゅう完成かんせい。为说明あかり循环执行用よう了りょう $O(n)$ 的てき时间，考こう虑pos和わpos - cnd的てき大小だいしょう。

在ざい第だい一いち个分支ささえ里さと，pos - cnd不ふ变，而pos与あずかcnd同どう时自增ぞう，自然しぜん，pos增加ぞうか了りょう。
在ざい第だい二に个分支ささえ里さと，cnd被ひ更さら小しょう的てきT[cnd]所ところ替がえ代だい，从而增加ぞうか了りょうpos - cnd。
在ざい第だい三さん个分支ささえ里さと，pos增加ぞうか了りょう，而cnd不ふ变，所以ゆえんpos和わpos - cnd都と增加ぞうか了りょう。

因いん为pos ≥ pos - cnd，即そく在ざい每まい一个阶段要么pos增加ぞうか，要よう么pos的てき一いち个下界かい增加ぞうか。故こ既すんで然しか算法さんぽう在ざいpos = n时终止どめ，此循环必然しか在ざい最多さいた $2n$ 次じ迭代后きさき终止。因よし此建立こんりゅう表ひょう的てき算法さんぽう的てき复杂度ど是ぜ $O(n)$ 。

另见

Boyer-Moore字じ符ふ串くし搜索そうさく算法さんぽう

外部がいぶ連結れんけつ

（英文えいぶん）An explanation of the algorithm （页面存そん档备份，存そん于互联网档案あん馆） and sample C++ code （页面存そん档备份，存そん于互联网档案あん馆） by David Eppstein
（英文えいぶん）Knuth-Morris-Pratt algorithm （页面存そん档备份，存そん于互联网档案あん馆） description and C code by Christian Charras and Thierry Lecroq
（英文えいぶん）Interactive animation for Knuth-Morris-Pratt algorithm by Mike Goodrich
（英文えいぶん）Explanation of the algorithm from scratch （页面存そん档备份，存そん于互联网档案あん馆） by FH Flensburg.

引用いんよう

高德こうとく纳; James H. Morris, Jr, Vaughan Pratt. Fast pattern matching in strings. SIAM Journal on Computing. 1977, 6 (2): 323–350 [2006-07-27]. （原始げんし内容ないよう存そん档于2010-01-04）.

Thomas H. Cormen; Charles E. Leiserson, Ronald L. Rivest, Clifford Stein. Section 32.4: The Knuth-Morris-Pratt algorithm. Introduction to Algorithms Second edition. MIT Press and McGraw-Hill. 2001: 923-931. ISBN 978-0-262-03293-3.

查论编字じ符ふ串くし
String metric（英えい语：String metric）	字じ符ふ串くし近似きんじ匹ひき配はい Bitap算法さんぽう Damerau–Levenshtein距离编辑距离汉明距离 Jaro–Winkler距离李り距离莱文斯坦自じ动机莱文斯坦距离 Wagner–Fischer算法さんぽう
字じ符ふ串くし搜索そうさく算法さんぽう	Apostolico–Giancarlo算法さんぽう博ひろし耶-穆きよし尔字符ふ串くし搜索そうさく算法さんぽう Boyer–Moore–Horspool算法さんぽう KMP算法さんぽう拉ひしげ宾-卡普算法さんぽう
多た字じ符ふ串くし搜索そうさく	AC自じ动机 Commentz-Walter算法さんぽう拉ひしげ宾-卡普算法さんぽう
正せい则表达式	正せい则表达式引擎比ひ较 Regular tree grammar（英えい语：Regular tree grammar）汤普森もり构造法ほう非ひ确定有限ゆうげん状じょう态自动机
序列じょれつ比ひ对	Hirschberg's algorithm（英えい语：Hirschberg's algorithm）尼あま德とく曼-翁おう施ほどこせ算法さんぽう史し密みつ斯-沃特曼算法ほう
数かず据すえ结构	DAFSA（英えい语：Deterministic acyclic finite state automaton）后きさき缀数组后きさき缀自动机（英えい语：Suffix automaton）后きさき缀树 Generalized suffix tree（英えい语：Generalized suffix tree） Rope（英えい语：Rope (data structure)）三さん元もと搜索そうさく树
其它	语法分析ぶんせき模も式しき匹ひき配はい Compressed pattern matching（英えい语：Compressed pattern matching）最さい长公共子きょうこ序列じょれつ最さい长公共子きょうこ串くし Sequential pattern mining（英えい语：Sequential pattern mining）字じ符ふ串くし排はい序じょ算法さんぽう（英えい语：:Category:String sorting algorithms）

查论编高德こうとく纳
著作ちょさく	《计算机つくえ程ほど序じょ设计艺术》《歌曲かきょく的てき計算けいさん複雜ふくざつ度ど（英えい语：The Complexity of Songs）》《電腦でんのう與あずか排はい版ばん（英えい语：Computers and Typesetting）》《具體ぐたい數學すうがく》《超ちょう現實げんじつ數すう（英えい语：Surreal Numbers (book)）》《計算けいさん機き科學かがく家か很少談論だんろん的てき事情じじょう（英えい语：Things a Computer Scientist Rarely Talks About）》論文ろんぶん選集せんしゅう（英えい语：Selected papers series of Knuth）
软件	TeX METAFONT MIXAL MIX（英えい语：MIX (abstract machine)） MMIX（英えい语：MMIX）
字じ型がた	AMS Euler Computer Modern Concrete Roman
文学ぶんがく编程	WEB CWEB（英えい语：CWEB）
算法さんぽう	X算法さんぽう高德こうとく納おさめ-本もと迪すすむ克かつ斯補全ぜん算法さんぽう（英えい语：Knuth–Bendix completion algorithm） KMP算法さんぽう高德こうとく納おさめ洗あらい牌ぱい算法さんぽう（英えい语：Fisher–Yates shuffle） RSK 對應たいおう（英えい语：Robinson–Schensted–Knuth correspondence） TPK算法さんぽう（英えい语：TPK algorithm）概念がいねん化か戴克斯特拉ひしげ算法さんぽう Knuth's Simpath algorithm（英えい语：Knuth's Simpath algorithm）
相關そうかん	舞まい蹈链高德こうとく納おさめ獎勵支ささえ票ひょう（英えい语：Knuth reward check）高德こうとく納おさめ獎高德こうとく納おさめ箭や號ごう表示法ひょうじほう编译器き递归测试 2i進すすむ制せい -yllion（英えい语：-yllion）《普ひろし茨いばら比ひ度量衡どりょうこう体系たいけい（英えい语：Potrzebie#System of measurement）》