Tesseract的安裝及配置
成都創(chuàng)新互聯(lián)長(zhǎng)期為上千客戶提供的網(wǎng)站建設(shè)服務(wù),團(tuán)隊(duì)從業(yè)經(jīng)驗(yàn)10年,關(guān)注不同地域、不同群體,并針對(duì)不同對(duì)象提供差異化的產(chǎn)品和服務(wù);打造開(kāi)放共贏平臺(tái),與合作伙伴共同營(yíng)造健康的互聯(lián)網(wǎng)生態(tài)環(huán)境。為湖里企業(yè)提供專業(yè)的網(wǎng)站設(shè)計(jì)制作、成都網(wǎng)站制作,湖里網(wǎng)站改版等技術(shù)服務(wù)。擁有十多年豐富建站經(jīng)驗(yàn)和眾多成功案例,為您定制開(kāi)發(fā)。在Python爬蟲(chóng)過(guò)程中,難免遇到各種各樣的驗(yàn)證碼問(wèn)題,最簡(jiǎn)單的就是這種驗(yàn)證碼了,那么在遇到驗(yàn)證碼的時(shí)候該怎么辦呢?我們就需要OCR技術(shù)了,OCR-即Optical Character Recognition光學(xué)字符識(shí)別,是指通過(guò)掃描字符,然后將其形狀翻譯成電子文本的過(guò)程。而tesserocr是Python的一個(gè)OCR識(shí)別庫(kù),所以在安裝tesserocr之前,我們需要安裝tesseract這個(gè)東西
下載地址:https://digi.bib.uni-mannheim.de/tesseract/可以選擇下載不帶dev的穩(wěn)定版本,我下載的是3.05.01版本的,不過(guò)這個(gè)版本的可能比較早了,識(shí)別能力不是很厲害,讀者可以選擇下載最新版本的3.05.02,識(shí)別能力應(yīng)該會(huì)好很多。
下載完就是一路雙擊,在最后的Additional Language data(download)選上這個(gè)選項(xiàng),是OCR支持各種語(yǔ)言的包,然后繼續(xù)安裝,直到安裝成功。
我的安裝路徑為:G:\Program Files (x86)\Tesseract-OCR
的設(shè)置,這樣tesseract就安裝成功并配置完成了、
tesserocr庫(kù)的安裝
剛開(kāi)始我直接在cmd下輸入 pip install tesserocr 很不幸報(bào)錯(cuò)了,報(bào)錯(cuò)類似于如下。。。因?yàn)橹拔业膱?bào)錯(cuò),沒(méi)有截圖。所以。。
就是類似于這種的截圖,這該怎么辦,難道要去下載visual C++嗎?我們有更好的解決方法,下載對(duì)應(yīng)的.whl文件
下載地址:https://github.com/simonflueckiger/tesserocr-windows_build/releases一定要下載對(duì)應(yīng)版本的
我的是3.5.1,所以我下載的是這個(gè)版本的。讀者可以自行選擇。
我的tesserocr-2.2.2-cp36-cp36m-win_amd64.whl文件下載在G盤(pán)根目錄下,然后在cmd里輸入 pip install G:\tesserocr-2.2.2-cp36-cp36m-win_amd64.whl 開(kāi)始安裝whl文件,發(fā)現(xiàn)報(bào)錯(cuò)了。提示不能安裝whl文件。。原來(lái)是沒(méi)有安裝wheel。
然后我就去安裝了wheel 直接 pip install wheel即可。
安裝成功 在輸入pip install G:\tesserocr-2.2.2-cp36-cp36m-win_amd64.whl 發(fā)現(xiàn)開(kāi)始安裝了。
哎心累啊,總算弄好了。但是,我在pycharm中調(diào)用tesserocr 這個(gè)庫(kù),他又提示報(bào)錯(cuò)了,這是為什么呢?百度了一下最終解決。
原來(lái)需要在pycharm下的terrminal下輸入如下圖:
如果報(bào)錯(cuò)了還得有一步操作。
將Tesseract-OCR下的tessdata文件復(fù)制到你的Python安裝路徑的scripts下:
這樣
這下應(yīng)該就徹底安裝成功了。。
這下在pycharm里總算不會(huì)報(bào)錯(cuò)了,我們來(lái)試一下識(shí)別這兩張圖片的效果
代碼:
from PIL import Image import tesserocr imag=Image.open('test.jpg') print(tesserocr.image_to_text(imag)) imag1=Image.open('image.png') print(tesserocr.image_to_text(imag1))