這篇文章主要介紹了KMP算法怎么用,具有一定借鑒價(jià)值,感興趣的朋友可以參考下,希望大家閱讀完這篇文章之后大有收獲,下面讓小編帶著大家一起了解一下。
超過10余年行業(yè)經(jīng)驗(yàn),技術(shù)領(lǐng)先,服務(wù)至上的經(jīng)營(yíng)模式,全靠網(wǎng)絡(luò)和口碑獲得客戶,為自己降低成本,也就是為客戶降低成本。到目前業(yè)務(wù)范圍包括了:成都網(wǎng)站設(shè)計(jì)、成都網(wǎng)站制作,成都網(wǎng)站推廣,成都網(wǎng)站優(yōu)化,整體網(wǎng)絡(luò)托管,微信小程序開發(fā),微信開發(fā),app軟件定制開發(fā),同時(shí)也可以讓客戶的網(wǎng)站和網(wǎng)絡(luò)營(yíng)銷和我們一樣獲得訂單和生意!說明
KMP算法看懂了覺得特別簡(jiǎn)單,思路很簡(jiǎn)單,看不懂之前,查各種資料,看的稀里糊涂,即使網(wǎng)上最簡(jiǎn)單的解釋,依然看的稀里糊涂。
我花了半天時(shí)間,爭(zhēng)取用最短的篇幅大致搞明白這玩意到底是啥。
這里不扯概念,只講算法過程和代碼理解:
KMP算法求解什么類型問題
字符串匹配。給你兩個(gè)字符串,尋找其中一個(gè)字符串是否包含另一個(gè)字符串,如果包含,返回包含的起始位置。
如下面兩個(gè)字符串:
char *str = "bacbababadababacambabacaddababacasdsd"; char *ptr = "ababaca";
str有兩處包含ptr
分別在str的下標(biāo)10,26處包含ptr。
“bacbababadababacambabacaddababacasdsd”;\
問題類型很簡(jiǎn)單,下面直接介紹算法
算法說明
一般匹配字符串時(shí),我們從目標(biāo)字符串str(假設(shè)長(zhǎng)度為n)的第一個(gè)下標(biāo)選取和ptr長(zhǎng)度(長(zhǎng)度為m)一樣的子字符串進(jìn)行比較,如果一樣,就返回開始處的下標(biāo)值,不一樣,選取str下一個(gè)下標(biāo),同樣選取長(zhǎng)度為n的字符串進(jìn)行比較,直到str的末尾(實(shí)際比較時(shí),下標(biāo)移動(dòng)到n-m)。這樣的時(shí)間復(fù)雜度是O(n*m)。
KMP算法:可以實(shí)現(xiàn)復(fù)雜度為O(m+n)
為何簡(jiǎn)化了時(shí)間復(fù)雜度:
充分利用了目標(biāo)字符串ptr的性質(zhì)(比如里面部分字符串的重復(fù)性,即使不存在重復(fù)字段,在比較時(shí),實(shí)現(xiàn)大的移動(dòng)量)。
上面理不理解無所謂,我說的其實(shí)也沒有深刻剖析里面的內(nèi)部原因。
考察目標(biāo)字符串ptr:
ababaca
這里我們要計(jì)算一個(gè)長(zhǎng)度為m的轉(zhuǎn)移函數(shù)next。
next數(shù)組的含義就是一個(gè)固定字符串的最長(zhǎng)前綴和最長(zhǎng)后綴相同的長(zhǎng)度。
比如:abcjkdabc,那么這個(gè)數(shù)組的最長(zhǎng)前綴和最長(zhǎng)后綴相同必然是abc。
cbcbc,最長(zhǎng)前綴和最長(zhǎng)后綴相同是cbc。
abcbc,最長(zhǎng)前綴和最長(zhǎng)后綴相同是不存在的。
**注意最長(zhǎng)前綴:是說以第一個(gè)字符開始,但是不包含最后一個(gè)字符。
比如aaaa相同的最長(zhǎng)前綴和最長(zhǎng)后綴是aaa。**
對(duì)于目標(biāo)字符串ptr,ababaca,長(zhǎng)度是7,所以next[0],next[1],next[2],next[3],next[4],next[5],next[6]分別計(jì)算的是
a,ab,aba,abab,ababa,ababac,ababaca的相同的最長(zhǎng)前綴和最長(zhǎng)后綴的長(zhǎng)度。由于a,ab,aba,abab,ababa,ababac,ababaca的相同的最長(zhǎng)前綴和最長(zhǎng)后綴是“”,“”,“a”,“ab”,“aba”,“”,“a”,所以next數(shù)組的值是[-1,-1,0,1,2,-1,0],這里-1表示不存在,0表示存在長(zhǎng)度為1,2表示存在長(zhǎng)度為3。這是為了和代碼相對(duì)應(yīng)。
下圖中的1,2,3,4是一樣的。1-2之間的和3-4之間的也是一樣的,我們發(fā)現(xiàn)A和B不一樣;之前的算法是我把下面的字符串往前移動(dòng)一個(gè)距離,重新從頭開始比較,那必然存在很多重復(fù)的比較。現(xiàn)在的做法是,我把下面的字符串往前移動(dòng),使3和2對(duì)其,直接比較C和A是否一樣。
代碼解析
void cal_next(char *str, int *next, int len) { next[0] = -1;//next[0]初始化為-1,-1表示不存在相同的大前綴和大后綴 int k = -1;//k初始化為-1 for (int q = 1; q <= len-1; q++) { while (k > -1 && str[k + 1] != str[q])//如果下一個(gè)不同,那么k就變成next[k],注意next[k]是小于k的,無論k取任何值。 { k = next[k];//往前回溯 } if (str[k + 1] == str[q])//如果相同,k++ { k = k + 1; } next[q] = k;//這個(gè)是把算的k的值(就是相同的大前綴和大后綴長(zhǎng))賦給next[q] } }
KMP
這個(gè)和next很像,具體就看代碼,其實(shí)上面已經(jīng)大概說完了整個(gè)匹配過程。
int KMP(char *str, int slen, char *ptr, int plen) { int *next = new int[plen]; cal_next(ptr, next, plen);//計(jì)算next數(shù)組 int k = -1; for (int i = 0; i < slen; i++) { while (k >-1&& ptr[k + 1] != str[i])//ptr和str不匹配,且k>-1(表示ptr和str有部分匹配) k = next[k];//往前回溯 if (ptr[k + 1] == str[i]) k = k + 1; if (k == plen-1)//說明k移動(dòng)到ptr的最末端 { //cout << "在位置" << i-plen+1<< endl; //k = -1;//重新初始化,尋找下一個(gè) //i = i - plen + 1;//i定位到該位置,外層for循環(huán)i++可以繼續(xù)找下一個(gè)(這里默認(rèn)存在兩個(gè)匹配字符串可以部分重疊),感謝評(píng)論中同學(xué)指出錯(cuò)誤。 return i-plen+1;//返回相應(yīng)的位置 } } return -1; }
測(cè)試
char *str = "bacbababadababacambabacaddababacasdsd"; char *ptr = "ababaca"; int a = KMP(str, 36, ptr, 7); return 0;
注意如果str里有多個(gè)匹配ptr的字符串,要想求出所有的滿足要求的下標(biāo)位置,在KMP算法需要稍微修改一下。見上面注釋掉的代碼。
復(fù)雜度分析
next函數(shù)計(jì)算復(fù)雜度是(m),開始以為是O(m^2),后來仔細(xì)想了想,cal__next里的while循環(huán),以及外層for循環(huán),利用均攤思想,其實(shí)是O(m),這個(gè)以后想好了再寫上。
………………………………………..分割線……………………………………..
其實(shí)本文已經(jīng)結(jié)束,后面的只是針對(duì)評(píng)論里的疑問,我嘗試著進(jìn)行解答的。
進(jìn)一步說明(2018-3-14)
看了評(píng)論,大家對(duì)cal_next(..)函數(shù)和KMP()函數(shù)里的
while (k > -1 && str[k + 1] != str[q]) { k = next[k]; }
和
while (k >-1&& ptr[k + 1] != str[i]) k = next[k];
這個(gè)while循環(huán)和k=next[k]很疑惑!
確實(shí)啊,我開始看這幾行代碼,相當(dāng)懵逼,這寫的啥啊,為啥這樣寫;后來上機(jī)跑了一下,慢慢了解到為何這樣寫了。這幾行代碼,可謂是對(duì)KMP算法本質(zhì)得了解非常清楚才能想到的。很牛逼!
直接看cal_next(..)函數(shù):
首先我們看第一個(gè)while循環(huán),它到底干了什么。
在此之前,我們先回到原程序。原程序里有一個(gè)大的for()循環(huán),那這個(gè)for()循環(huán)是干嘛的?
這個(gè)for循環(huán)就是計(jì)算next[0],next[1],…next[q]…的值。
里面最后一句next[q]=k就是說明每次循環(huán)結(jié)束,我們已經(jīng)計(jì)算了ptr的前(q+1)個(gè)字母組成的子串的“相同的最長(zhǎng)前綴和最長(zhǎng)后綴的長(zhǎng)度”。(這句話前面已經(jīng)解釋了!) 這個(gè)“長(zhǎng)度”就是k。
好,到此為止,假設(shè)循環(huán)進(jìn)行到 第 q 次,即已經(jīng)計(jì)算了next[q],我們是怎么計(jì)算next[q+1]呢?
比如我們已經(jīng)知道ababab,q=4時(shí),next[4]=2(k=2,表示該字符串的前5個(gè)字母組成的子串ababa存在相同的最長(zhǎng)前綴和最長(zhǎng)后綴的長(zhǎng)度是3,所以k=2,next[4]=2。這個(gè)結(jié)果可以理解成我們自己觀察算的,也可以理解成程序自己算的,這不是重點(diǎn),重點(diǎn)是程序根據(jù)目前的結(jié)果怎么算next[5]的).,那么對(duì)于字符串ababab,我們計(jì)算next[5]的時(shí)候,此時(shí)q=5, k=2(上一步循環(huán)結(jié)束后的結(jié)果)。那么我們需要比較的是str[k+1]和str[q]是否相等,其實(shí)就是str[1]和str[5]是否相等!,為啥從k+1比較呢,因?yàn)樯弦淮窝h(huán)中,我們已經(jīng)保證了str[k]和str[q](注意這個(gè)q是上次循環(huán)的q)是相等的(這句話自己想想,很容易理解),所以到本次循環(huán),我們直接比較str[k+1]和str[q]是否相等(這個(gè)q是本次循環(huán)的q)。
如果相等,那么跳出while(),進(jìn)入if(),k=k+1,接著next[q]=k。即對(duì)于ababab,我們會(huì)得出next[5]=3。 這是程序自己算的,和我們觀察的是一樣的。
如果不等,我們可以用”ababac“描述這種情況。 不等,進(jìn)入while()里面,進(jìn)行k=next[k],這句話是說,在str[k + 1] != str[q]的情況下,我們往前找一個(gè)k,使str[k + 1]==str[q],是往前一個(gè)一個(gè)找呢,還是有更快的找法呢? (一個(gè)一個(gè)找必然可以,即你把 k = next[k] 換成k- -也是完全能運(yùn)行的(更正:這句話不對(duì)啊,把k=next[k]換成k–是不行的,評(píng)論25樓舉了個(gè)反例)。但是程序給出了一種更快的找法,那就是 k = next[k]。 程序的意思是說,一旦str[k + 1] != str[q],即在后綴里面找不到時(shí),我是可以直接跳過中間一段,跑到前綴里面找,next[k]就是相同的最長(zhǎng)前綴和最長(zhǎng)后綴的長(zhǎng)度。所以,k=next[k]就變成,k=next[2],即k=0。此時(shí)再比較str[0+1]和str[5]是否相等,不等,則k=next[0]=-1。跳出循環(huán)。
(這個(gè)解釋能懂不?)
以上就是這個(gè)cal_next()函數(shù)里的
while (k > -1 && str[k + 1] != str[q]) { k = next[k]; }
最難理解的地方的一個(gè)我的理解,有不對(duì)的歡迎指出。
復(fù)雜度分析:
分析KMP復(fù)雜度,那就直接看KMP函數(shù)。
int KMP(char *str, int slen, char *ptr, int plen) { int *next = new int[plen]; cal_next(ptr, next, plen);//計(jì)算next數(shù)組 int k = -1; for (int i = 0; i < slen; i++) { while (k >-1&& ptr[k + 1] != str[i])//ptr和str不匹配,且k>-1(表示ptr和str有部分匹配) k = next[k];//往前回溯 if (ptr[k + 1] == str[i]) k = k + 1; if (k == plen-1)//說明k移動(dòng)到ptr的最末端 { //cout << "在位置" << i-plen+1<< endl; //k = -1;//重新初始化,尋找下一個(gè) //i = i - plen + 1;//i定位到該位置,外層for循環(huán)i++可以繼續(xù)找下一個(gè)(這里默認(rèn)存在兩個(gè)匹配字符串可以部分重疊),感謝評(píng)論中同學(xué)指出錯(cuò)誤。 return i-plen+1;//返回相應(yīng)的位置 } } return -1; }
這玩意真的不好解釋,簡(jiǎn)單說一下:
從代碼解釋復(fù)雜度是一件比較難的事情,我們從
這個(gè)圖來解釋。
我們可以看到,匹配串每次往前移動(dòng),都是一大段一大段移動(dòng),假設(shè)匹配串里不存在重復(fù)的前綴和后綴,即next的值都是-1,那么每次移動(dòng)其實(shí)就是一整個(gè)匹配串往前移動(dòng)m個(gè)距離。然后重新一一比較,這樣就比較m次,概括為,移動(dòng)m距離,比較m次,移到末尾,就是比較n次,O(n)復(fù)雜度。 假設(shè)匹配串里存在重復(fù)的前綴和后綴,我們移動(dòng)的距離相對(duì)小了點(diǎn),但是比較的次數(shù)也小了,整體代價(jià)也是O(n)。
所以復(fù)雜度是一個(gè)線性的復(fù)雜度。
感謝你能夠認(rèn)真閱讀完這篇文章,希望小編分享的“KMP算法怎么用”這篇文章對(duì)大家有幫助,同時(shí)也希望大家多多支持創(chuàng)新互聯(lián)建站,關(guān)注創(chuàng)新互聯(lián)網(wǎng)站建設(shè)公司行業(yè)資訊頻道,更多相關(guān)知識(shí)等著你來學(xué)習(xí)!
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)建站www.cdcxhl.com,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì),專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。