python抓取網(wǎng)頁時(shí)處理驗(yàn)證碼的方法

這篇文章主要介紹python抓取網(wǎng)頁時(shí)處理驗(yàn)證碼的方法，文中介紹的非常詳細(xì)，具有一定的參考價(jià)值，感興趣的小伙伴們一定要看完！

成都創(chuàng)新互聯(lián)公司是專業(yè)的高陵網(wǎng)站建設(shè)公司，高陵接單;提供成都網(wǎng)站設(shè)計(jì)、做網(wǎng)站、成都外貿(mào)網(wǎng)站建設(shè)公司,網(wǎng)頁設(shè)計(jì),網(wǎng)站設(shè)計(jì),建網(wǎng)站,PHP網(wǎng)站建設(shè)等專業(yè)做網(wǎng)站服務(wù);采用PHP框架,可快速的進(jìn)行高陵網(wǎng)站開發(fā)網(wǎng)頁制作和功能擴(kuò)展;專業(yè)做搜索引擎喜愛的網(wǎng)站,專業(yè)的做網(wǎng)站團(tuán)隊(duì),希望更多企業(yè)前來合作!

python抓取網(wǎng)頁時(shí)是如何處理驗(yàn)證碼的？下面給大家介紹幾種方法：

1、輸入式驗(yàn)證碼

這種驗(yàn)證碼主要是通過用戶輸入圖片中的字母、數(shù)字、漢字等進(jìn)行驗(yàn)證。如下圖：

python抓取網(wǎng)頁時(shí)處理驗(yàn)證碼的方法

解決思路：這種是最簡(jiǎn)單的一種，只要識(shí)別出里面的內(nèi)容，然后填入到輸入框中即可。這種識(shí)別技術(shù)叫OCR，這里我們推薦使用Python的第三方庫，tesserocr。對(duì)于沒有什么背影影響的驗(yàn)證碼如圖2，直接通過這個(gè)庫來識(shí)別就可以。但是對(duì)于有嘈雜的背景的驗(yàn)證碼這種，直接識(shí)別識(shí)別率會(huì)很低，遇到這種我們就得需要先處理一下圖片，先對(duì)圖片進(jìn)行灰度化，然后再進(jìn)行二值化，再去識(shí)別，這樣識(shí)別率會(huì)大大提高。

2、滑動(dòng)式驗(yàn)證碼

這種是將備選碎片直線滑動(dòng)到正確的位置，如下圖：

python抓取網(wǎng)頁時(shí)處理驗(yàn)證碼的方法

解決思路：對(duì)于這種驗(yàn)證碼就比較復(fù)雜一點(diǎn)，但也是有相應(yīng)的辦法。我們直接想到的就是模擬人去拖動(dòng)驗(yàn)證碼的行為，點(diǎn)擊按鈕，然后看到了缺口的位置，最后把拼圖拖到缺口位置處完成驗(yàn)證。

第一步：點(diǎn)擊按鈕。然后我們發(fā)現(xiàn)，在你沒有點(diǎn)擊按鈕的時(shí)候那個(gè)缺口和拼圖是沒有出現(xiàn)的，點(diǎn)擊后才出現(xiàn)，這為我們找到缺口的位置提供了靈感。

第二步：拖到缺口位置。

我們知道拼圖應(yīng)該拖到缺口處，但是這個(gè)距離如果用數(shù)值來表示？

通過我們第一步觀察到的現(xiàn)象，我們可以找到缺口的位置。這里我們可以比較兩張圖的像素，設(shè)置一個(gè)基準(zhǔn)值，如果某個(gè)位置的差值超過了基準(zhǔn)值，那我們就找到了這兩張圖片不一樣的位置，當(dāng)然我們是從那塊拼圖的右側(cè)開始并且從左到右，找到第一個(gè)不一樣的位置時(shí)就結(jié)束，這是的位置應(yīng)該是缺口的left，所以我們使用selenium拖到這個(gè)位置即可。

這里還有個(gè)疑問就是如何能自動(dòng)的保存這兩張圖？

這里我們可以先找到這個(gè)標(biāo)簽，然后獲取它的location和size，然后 top，bottom，left，right = location['y'] ,location['y']+size['height']+ location['x'] + size['width'] ,然后截圖，最后摳圖填入這四個(gè)位置就行。

具體的使用可以查看selenium文檔，點(diǎn)擊按鈕前摳張圖，點(diǎn)擊后再摳張圖。最后拖動(dòng)的時(shí)候要需要模擬人的行為，先加速然后減速。因?yàn)檫@種驗(yàn)證碼有行為特征檢測(cè)，人是不可能做到一直勻速的，否則它就判定為是機(jī)器在拖動(dòng)，這樣就無法通過驗(yàn)證了。

3、點(diǎn)擊式的圖文驗(yàn)證和圖標(biāo)選擇

圖文驗(yàn)證：通過文字提醒用戶點(diǎn)擊圖中相同字的位置進(jìn)行驗(yàn)證。

圖標(biāo)選擇：給出一組圖片，按要求點(diǎn)擊其中一張或者多張。借用萬物識(shí)別的難度阻擋機(jī)器。

這兩種原理相似，只不過是一個(gè)是給出文字，點(diǎn)擊圖片中的文字，一個(gè)是給出圖片，點(diǎn)出內(nèi)容相同的圖片。

這兩種沒有特別好的方法，只能借助第三方識(shí)別接口來識(shí)別出相同的內(nèi)容，推薦一個(gè)超級(jí)鷹，把驗(yàn)證碼發(fā)過去，會(huì)返回相應(yīng)的點(diǎn)擊坐標(biāo)。

然后再使用selenium模擬點(diǎn)擊即可。具體怎么獲取圖片和上面方法一樣。

4、宮格驗(yàn)證碼

python抓取網(wǎng)頁時(shí)處理驗(yàn)證碼的方法

這種就很棘手，每一次出現(xiàn)的都不一樣，但是也會(huì)出現(xiàn)一樣的。而且拖動(dòng)順序都不一樣。

但是我們發(fā)現(xiàn)不一樣的驗(yàn)證碼個(gè)數(shù)是有限的，這里采用模版匹配的方法。我覺得就好像暴力枚舉，把所有出現(xiàn)的驗(yàn)證碼保存下來，然后挑出不一樣的驗(yàn)證碼，按照拖動(dòng)順序命名，我們從左到右上下到下，設(shè)為1，2，3，4。上圖的滑動(dòng)順序?yàn)?，3，2，1，所以我們命名4_3_2_1.png，這里得手動(dòng)搞。當(dāng)驗(yàn)證碼出現(xiàn)的時(shí)候，用我們保存的圖片一一枚舉，與出現(xiàn)這種比較像素，方法見上面。如果匹配上了，拖動(dòng)順序就為4，3，2，1。然后使用selenium模擬即可。

以上是python抓取網(wǎng)頁時(shí)處理驗(yàn)證碼的方法的所有內(nèi)容，感謝各位的閱讀！希望分享的內(nèi)容對(duì)大家有幫助，更多相關(guān)知識(shí)，歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道！

本文題目：python抓取網(wǎng)頁時(shí)處理驗(yàn)證碼的方法
標(biāo)題URL：http://weahome.cn/article/jhjogh.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

python抓取網(wǎng)頁時(shí)處理驗(yàn)證碼的方法

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管