Python3.5+sklearn利用SVM自動識別字母驗證碼方法示例-創(chuàng)新互聯(lián)

前言

站在用戶的角度思考問題，與客戶深入溝通，找到康巴什網(wǎng)站設(shè)計與康巴什網(wǎng)站推廣的解決方案，憑借多年的經(jīng)驗，讓設(shè)計與互聯(lián)網(wǎng)技術(shù)結(jié)合，創(chuàng)造個性化、用戶體驗好的作品，建站類型包括：網(wǎng)站設(shè)計制作、網(wǎng)站建設(shè)、企業(yè)官網(wǎng)、英文網(wǎng)站、手機端網(wǎng)站、網(wǎng)站推廣、域名注冊、網(wǎng)站空間、企業(yè)郵箱。業(yè)務(wù)覆蓋康巴什地區(qū)。

最近正在研究人工智能，為了加深對算法的理解，決定寫個自動設(shè)別驗證碼的程序?？戳丝淳W(wǎng)上的demo，大部分都是python2的寫法，而且驗證碼的識別都是用的數(shù)字做例子，那我就寫個基于python3字母識別的程序，不過一路寫下來碰到不少坑，大家感興趣的話可以慢慢看。

圖片識別有幾個比較大的步驟是必須完成的：

1、有大量的驗證碼圖片作為樣本

2、圖片要進行處理流程是：灰度化==》二值化==》字符切割==》識別分類

3、圖像識別要提取特征值，然后把圖片二值化的數(shù)據(jù)當(dāng)做樣本做訓(xùn)練，最后基于樣本完成對新驗證碼的識別

一、大量驗證碼準備

因為要寫字母識別，所以需要大量的字母驗證碼，正好之前做過某電商的項目，印象中是純字母的查了下果然是的所以就用那個網(wǎng)站作為例子了。

Python3.5 + sklearn利用SVM自動識別字母驗證碼方法示例

獲取驗證碼方法很簡單，找到驗證碼動態(tài)生成的地址，

然后調(diào)用python的urllib.request獲得圖片然后保存就好了

Python3.5 + sklearn利用SVM自動識別字母驗證碼方法示例

二、圖片的灰度化和二值化

其實為了增強識別率，我們將彩色的圖片灰度化，

這樣就變成了黑白兩色，黑的是255白的是0，這樣更容易讓機器來識別。

灰度化和二值化之前、后的效果圖

Python3.5 + sklearn利用SVM自動識別字母驗證碼方法示例

三、圖片的分割

經(jīng)過觀察驗證碼可以發(fā)現(xiàn)，驗證碼是4位的字母，

同時驗證碼直接是有空白分隔的（后面的驗證碼有黏連的單獨講）

這里使用垂直投影法，根據(jù)投影進行圖片的切割。這個算法講起來太復(fù)雜，看代碼吧。。。

效果如下，反正就是切成了4個圖片

Python3.5 + sklearn利用SVM自動識別字母驗證碼方法示例

四、識別分類

這里因為圖片太多了，要對每個圖片分26個字母的哪一個太麻煩，所以借用Google的tesseract這個OCR的軟件，用它來幫我識別下圖片是哪個字母（當(dāng)然它識別的成功率不高，不然也不用人工智能了），然后識別錯誤的我再手動分類。

Python3.5 + sklearn利用SVM自動識別字母驗證碼方法示例

經(jīng)過ocr識別和人工分類后，我的temp目錄下就變成了這樣的，每個目錄下都是正確的字母圖片

Python3.5 + sklearn利用SVM自動識別字母驗證碼方法示例

五、提取特征值

將字母的文件夾圖片取出，提取特征值然后存儲到文本文件里

Python3.5 + sklearn利用SVM自動識別字母驗證碼方法示例

六、機器訓(xùn)練

這里使用sklearn.svm這個支持向量機的算法，來對數(shù)據(jù)進行分類。

SVM的算法是啥，可以看看知乎大神的講解https://www.zhihu.com/question/21094489 ，

通過fit進行訓(xùn)練后，將訓(xùn)練的結(jié)果保存到pkl文件里，其實里面都是0和1的特征值

Python3.5 + sklearn利用SVM自動識別字母驗證碼方法示例

七、最后的驗證就很簡單了

找個驗證碼圖片，調(diào)用之前的方法，變成二值化的數(shù)據(jù)，然后用SVM進行識別，就能得到正確的結(jié)果了

八、滴水算法（解決黏連問題）

這個驗證碼也不是完全都有空格分割好的，可能是長這樣的，字母直接黏在一起了

Python3.5 + sklearn利用SVM自動識別字母驗證碼方法示例

這樣的字母為了分割出來，就要用滴水算法，模擬水滴重力下落的過程，自動切分圖片。

可以看我的water.py文件里面是詳細的算法。

講講碰到的坑

1、python3不能用opencv了，尤其是cv2.cv方法只是python2用的，不用他換個python寫法一樣可以實現(xiàn)

2、原始圖片有藍色邊，剛開始老識別錯誤，后來發(fā)現(xiàn)問題后，要先進行切割，保證只有字母是有顏色的，其它區(qū)域是白色的。

這個是cutImg方法的作用

3、使用Google的ocr時，使用了python的pytesseract，這個要先在電腦安裝Tesseract-OCR,然后要在程序里指定路徑才行，

不然會報錯誤的。pytesseract.pytesseract.tesseract_cmd = 'E:/Program Files (x86)/Tesseract-OCR/tesseract'

4、pytesseract.image_to_string(cur_img, config='-psm 7 outputbase letters')

這個letters是我自己創(chuàng)建的，位置在E:\Program Files (x86)\Tesseract-OCR\tessdata\configs 這里的letters是用來

約束識別范圍的，比如我設(shè)置tessedit_char_whitelist abcdefghijklmnopqrstuvwxyz 這就表示只識別字母，這樣

就會把1，0之類的變成l和o了

最后附上github的源碼地址 https://github.com/zjy090/verifyCode （本地下載）

下次研究遺傳算法GA的實現(xiàn)等寫好了也寫個demo分享給大家

總結(jié)

以上就是這篇文章的全部內(nèi)容了，希望本文的內(nèi)容對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值，謝謝大家對創(chuàng)新互聯(lián)成都網(wǎng)站設(shè)計公司的支持。

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn，海內(nèi)外云服務(wù)器15元起步，三天無理由+7*72小時售后在線，公司持有idc許可證，提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機、免備案服務(wù)器”等云主機租用服務(wù)以及企業(yè)上云的綜合解決方案，具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點與優(yōu)勢，專為企業(yè)上云打造定制，能夠滿足用戶豐富、多元化的應(yīng)用場景需求。

分享名稱：Python3.5+sklearn利用SVM自動識別字母驗證碼方法示例-創(chuàng)新互聯(lián)
本文來源：http://weahome.cn/article/gphjd.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

Python3.5+sklearn利用SVM自動識別字母驗證碼方法示例-創(chuàng)新互聯(lián)

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管