這篇文章將為大家詳細講解有關Python3如何實現(xiàn)圖片文字識別,小編覺得挺實用的,因此分享給大家做個參考,希望大家閱讀完這篇文章后可以有所收獲。
站在用戶的角度思考問題,與客戶深入溝通,找到萊蕪網(wǎng)站設計與萊蕪網(wǎng)站推廣的解決方案,憑借多年的經(jīng)驗,讓設計與互聯(lián)網(wǎng)技術結合,創(chuàng)造個性化、用戶體驗好的作品,建站類型包括:成都做網(wǎng)站、網(wǎng)站建設、企業(yè)官網(wǎng)、英文網(wǎng)站、手機端網(wǎng)站、網(wǎng)站推廣、域名注冊、網(wǎng)絡空間、企業(yè)郵箱。業(yè)務覆蓋萊蕪地區(qū)。沒想到Python實現(xiàn)圖片文字識別這么簡單,只需要一行代碼就能搞定
from PIL import Image import pytesseract #上面都是導包,只需要下面這一行就能實現(xiàn)圖片文字識別 text=pytesseract.image_to_string(Image.open('denggao.jpeg'),lang='chi_sim') print(text)
我們以識別詩詞為例
下面是我們要識別的圖片
先看下效果圖
我們運行代碼后識別的結果,有幾個字沒有正確識別,但是大多數(shù)字都能識別出來。
風急天高猿嘯哀 渚蕓胄芳少白鳥飛鳳 無邊落木蕭蕭下, 不盡長量工盲袞宕袞來 萬里悲秋常1乍窨, 百年多病獨登氤 艱難苦恨擎霜量 漂倒新停澍酉帆
一行代碼就能識別圖片,我們背后要做些準備工作的
這里我們需要用到兩個庫:pytesseract和PIL
同時我們還需要安裝識別引擎tesseract-ocr
下面就來講講這幾個庫的安裝,因為只有這幾個庫安裝好以后Python才能實現(xiàn)一行代碼實現(xiàn)圖片文字識別
一,pytesseract和PIL的安裝
安裝這兩個包可以借助pip
- 1,命令行安裝
pip install PIL pip install pytesseract
- 2,如果你用的pycharm編輯器,就可以直接借助pycharm實現(xiàn)快速安裝。
在pycharm的Settings設置頁按照下面步驟操作
這樣就能成功安裝pytesseract,安裝PIL只需要在上面第三步里搜索PIL并點擊安裝即可
這時我們安轉好了庫,運行下面代碼
from PIL import Image import pytesseract text=pytesseract.image_to_string(Image.open('denggao.jpeg'),lang='chi_sim') print(text)
會報下面錯誤,錯誤原因是:沒有安裝識別引擎tesseract-ocr
二,安裝識別引擎tesseract-ocr
1.下載下面的安裝包,然后直接點擊安裝即可
tesseract-ocr安裝包和中文語言包
解壓安裝tesseract-ocr后做如下操作,就可以支持中文識別了。因為tesseract-ocr默認不支持中文識別。
2,安裝完成tesseract-ocr后,我們還需要做一下配置
在C:\Users\huxiu\AppData\Local\Programs\Python\Python35\Lib\site-packages\pytesseract找到pytesseract.py打開后做如下操作
# CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY #tesseract_cmd = 'tesseract' tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'
也可以通過pycharm快速打開pytesseract.py
至此我們所有的配置就完成了,運行下面代碼就可以把杜甫的登高這首圖片詩解析成文字了
關于“Python3如何實現(xiàn)圖片文字識別”這篇文章就分享到這里了,希望以上內容可以對大家有一定的幫助,使各位可以學到更多知識,如果覺得文章不錯,請把它分享出去讓更多的人看到。
另外有需要云服務器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內外云服務器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務器、裸金屬服務器、高防服務器、香港服務器、美國服務器、虛擬主機、免備案服務器”等云主機租用服務以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應用場景需求。