真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

如何安裝Python3爬蟲(chóng)利器tesserocr

小編給大家分享一下如何安裝Python3爬蟲(chóng)利器tesserocr,相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!

太平ssl適用于網(wǎng)站、小程序/APP、API接口等需要進(jìn)行數(shù)據(jù)傳輸應(yīng)用場(chǎng)景,ssl證書(shū)未來(lái)市場(chǎng)廣闊!成為成都創(chuàng)新互聯(lián)公司的ssl證書(shū)銷(xiāo)售渠道,可以享受市場(chǎng)價(jià)格4-6折優(yōu)惠!如果有意向歡迎電話聯(lián)系或者加微信:13518219792(備注:SSL證書(shū)合作)期待與您的合作!

在爬蟲(chóng)過(guò)程中,難免會(huì)遇到各種各樣的驗(yàn)證碼,而大多數(shù)驗(yàn)證碼還是圖形驗(yàn)證碼,這時(shí)候我們可以直接用OCR來(lái)識(shí)別。

1. OCR

OCR,即Optical Character Recognition,光學(xué)字符識(shí)別,是指通過(guò)掃描字符,然后通過(guò)其形狀將其翻譯成電子文本的過(guò)程。對(duì)于圖形驗(yàn)證碼來(lái)說(shuō),它們都是一些不規(guī)則的字符,這些字符確實(shí)是由字符稍加扭曲變換得到的內(nèi)容。

例如,對(duì)于如圖1-22和圖1-23所示的驗(yàn)證碼,我們可以使用OCR技術(shù)來(lái)將其轉(zhuǎn)化為電子文本,然后爬蟲(chóng)將識(shí)別結(jié)果提交給服務(wù)器,便可以達(dá)到自動(dòng)識(shí)別驗(yàn)證碼的過(guò)程。

如何安裝Python3爬蟲(chóng)利器tesserocr

圖1-22 驗(yàn)證碼

如何安裝Python3爬蟲(chóng)利器tesserocr

圖1-23 驗(yàn)證碼

tesserocr是Python的一個(gè)OCR識(shí)別庫(kù),但其實(shí)是對(duì)tesseract做的一層Python API封裝,所以它的核心是tesseract。因此,在安裝tesserocr之前,我們需要先安裝tesseract。

2. 相關(guān)鏈接

tesserocr GitHub:https://github.com/sirfz/tesserocr

tesserocr PyPI:https://pypi.python.org/pypi/tesserocr

tesseract下載地址:http://digi.bib.uni-mannheim.de/tesseract

tesseract GitHub:https://github.com/tesseract-ocr/tesseract

tesseract語(yǔ)言包:https://github.com/tesseract-ocr/tessdata

tesseract文檔:https://github.com/tesseract-ocr/tesseract/wiki/Documentation

3. Windows下的安裝

在Windows下,首先需要下載tesseract,它為tesserocr提供了支持。

進(jìn)入下載頁(yè)面,可以看到有各種.exe文件的下載列表,這里可以選擇下載3.0版本。圖1-24所示為3.05版本。

如何安裝Python3爬蟲(chóng)利器tesserocr

圖1-24 下載頁(yè)面

其中文件名中帶有dev的為開(kāi)發(fā)版本,不帶dev的為穩(wěn)定版本,可以選擇下載不帶dev的版本,例如可以選擇下載tesseract-ocr-setup-3.05.01.exe。

下載完成后雙擊,此時(shí)會(huì)出現(xiàn)如圖1-25所示的頁(yè)面。

如何安裝Python3爬蟲(chóng)利器tesserocr

圖1-25 安裝頁(yè)面

此時(shí)可以勾選Additional language data(download)選項(xiàng)來(lái)安裝OCR識(shí)別支持的語(yǔ)言包,這樣OCR便可以識(shí)別多國(guó)語(yǔ)言。然后一路點(diǎn)擊Next按鈕即可。

接下來(lái),再安裝tesserocr即可,此時(shí)直接使用pip安裝:

pip3 install tesserocr pillow

4. Linux下的安裝

對(duì)于Linux來(lái)說(shuō),不同系統(tǒng)已經(jīng)有了不同的發(fā)行包了,它可能叫作tesseract-ocr或者tesseract,直接用對(duì)應(yīng)的命令安裝即可。

Ubuntu、Debian和Deepin

在Ubuntu、Debian和Deepin系統(tǒng)下,安裝命令如下:

sudo apt-get install -y tesseract-ocr libtesseract-dev libleptonica-dev

CentOS、Red Hat

在CentOS和Red Hat系統(tǒng)下,安裝命令如下:

yum install -y tesseract

在不同發(fā)行版本運(yùn)行如上命令,即可完成tesseract的安裝。

安裝完成后,便可以調(diào)用tesseract命令了。

接著,我們查看一下其支持的語(yǔ)言:

tesseract --list-langs

運(yùn)行結(jié)果示例:

List of available languages (3):
eng
osd
equ

結(jié)果顯示它只支持幾種語(yǔ)言,如果想要安裝多國(guó)語(yǔ)言,還需要安裝語(yǔ)言包,官方叫作tessdata(其下載鏈接為:https://github.com/tesseract-ocr/tessdata)。

利用Git命令將其下載下來(lái)并遷移到相關(guān)目錄即可,不同版本的遷移命令如下所示。

在Ubuntu、Debian和Deepin系統(tǒng)下的遷移命令如下:

git clone https://github.com/tesseract-ocr/tessdata.git
sudo mv tessdata/* /usr/share/tesseract-ocr/tessdata

在CentOS和Red Hat系統(tǒng)下的遷移命令如下:

git clone https://github.com/tesseract-ocr/tessdata.git
sudo mv tessdata/* /usr/share/tesseract/tessdata

這樣就可以將下載下來(lái)的語(yǔ)言包全部安裝了。

這時(shí)我們重新運(yùn)行列出所有語(yǔ)言的命令:

tesseract --list-langs

結(jié)果如下:

List of available languages (107):
afr
amh
ara
asm
aze
aze_cyrl
bel
ben
bod
bos
bul
cat
ceb
ces
chi_sim
chi_tra
...

可以發(fā)現(xiàn),這里列出的語(yǔ)言就多了很多,比如chi_sim就代表簡(jiǎn)體中文,這就證明語(yǔ)言包安裝成功了。

接下來(lái)再安裝tesserocr即可,這里直接使用pip安裝:

pip3 install tesserocr pillow

5. Mac下的安裝

在Mac下,我們首先使用Homebrew安裝ImageMagick和tesseract庫(kù):

brew install imagemagick 
brew install tesseract --all-languages

接下來(lái)再安裝tesserocr即可:

pip3 install tesserocr pillow

這樣我們便完成了tesserocr的安裝。

6. 驗(yàn)證安裝

接下來(lái),我們可以使用tesseract和tesserocr來(lái)分別進(jìn)行測(cè)試。

下面我們以如圖1-26所示的圖片為樣例進(jìn)行測(cè)試。

如何安裝Python3爬蟲(chóng)利器tesserocr

圖1-26 測(cè)試樣例

該圖片的鏈接為https://raw.githubusercontent.com/Python3WebSpider/TestTess/master/image.png,可以直接保存或下載。 

首先用命令行進(jìn)行測(cè)試,將圖片下載下來(lái)并保存為image.png,然后用tesseract命令測(cè)試:

tesseract image.png result -l eng && cat result.txt

運(yùn)行結(jié)果如下:

Tesseract Open Source OCR Engine v3.05.01 with Leptonica
Python3WebSpider

這里我們調(diào)用了tesseract命令,其中第一個(gè)參數(shù)為圖片名稱(chēng),第二個(gè)參數(shù)result為結(jié)果保存的目標(biāo)文件名稱(chēng),-l指定使用的語(yǔ)言包,在此使用英文(eng)。然后,再用cat命令將結(jié)果輸出。

運(yùn)行結(jié)果便是圖片的識(shí)別結(jié)果:Python3WebSpider??梢钥吹剑@時(shí)已經(jīng)成功將圖片文字轉(zhuǎn)為電子文本了。

然后還可以利用Python代碼來(lái)測(cè)試,這里就需要借助于tesserocr庫(kù)了,測(cè)試代碼如下:

import tesserocr
from PIL import Image
image = Image.open('image.png')
print(tesserocr.image_to_text(image))

我們首先利用Image讀取了圖片文件,然后調(diào)用了tesserocr的image_to_text()方法,再將其識(shí)別結(jié)果輸出。

運(yùn)行結(jié)果如下:

Python3WebSpider

另外,我們還可以直接調(diào)用file_to_text()方法,這可以達(dá)到同樣的效果:

import tesserocr
print(tesserocr.file_to_text('image.png'))

運(yùn)行結(jié)果:

Python3WebSpider

如果成功輸出結(jié)果,則證明tesseract和tesserocr都已經(jīng)安裝成功。

以上是如何安裝Python3爬蟲(chóng)利器tesserocr的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對(duì)大家有所幫助,如果還想學(xué)習(xí)更多知識(shí),歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道!


當(dāng)前題目:如何安裝Python3爬蟲(chóng)利器tesserocr
轉(zhuǎn)載來(lái)于:http://weahome.cn/article/gdhegi.html

其他資訊

在線咨詢(xún)

微信咨詢(xún)

電話咨詢(xún)

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部