真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

Python3如何利用urllib進(jìn)行簡單的網(wǎng)頁抓取

這篇文章主要為大家展示了“Python3如何利用urllib進(jìn)行簡單的網(wǎng)頁抓取”,內(nèi)容簡而易懂,條理清晰,希望能夠幫助大家解決疑惑,下面讓小編帶領(lǐng)大家一起研究并學(xué)習(xí)一下“Python3如何利用urllib進(jìn)行簡單的網(wǎng)頁抓取”這篇文章吧。

成都創(chuàng)新互聯(lián)公司是一家專業(yè)提供沙灣企業(yè)網(wǎng)站建設(shè),專注與網(wǎng)站設(shè)計(jì)制作、成都網(wǎng)站建設(shè)、H5場景定制、小程序制作等業(yè)務(wù)。10年已為沙灣眾多企業(yè)、政府機(jī)構(gòu)等服務(wù)。創(chuàng)新互聯(lián)專業(yè)的建站公司優(yōu)惠進(jìn)行中。

運(yùn)行平臺:Windows
Python版本:Python3.x
IDE:Sublime text3

轉(zhuǎn)載請注明作者和出處:http://blog.csdn.net/c406495762/article/details/58716886

    一直想學(xué)習(xí)Python爬蟲的知識,在網(wǎng)上搜索了一下,大部分都是基于Python2.x的。因此打算寫一個Python3.x的爬蟲筆記,以便后續(xù)回顧,歡迎一起交流、共同進(jìn)步。

一、預(yù)備知識

1.Python3.x基礎(chǔ)知識學(xué)習(xí):

    可以在通過如下方式進(jìn)行學(xué)習(xí):

    (1)廖雪峰Python3教程(文檔):

    URL:http://www.liaoxuefeng.com/

    (2)菜鳥教程Python3教程(文檔):

    URL:http://www.runoob.com/python3/python3-tutorial.html

    (3)魚C工作室Python教程(視頻):

    小甲魚老師很厲害,講課風(fēng)格幽默詼諧,如果時間充??梢钥紤]看視頻。

    URL:http://www.fishc.com/

2.開發(fā)環(huán)境搭建:

    Sublime text3搭建Pyhthon IDE可以查看博客:

    URL:http://www.cnblogs.com/nx520zj/p/5787393.html

    URL:http://blog.csdn.net/c406495762/article/details/56489253

二、網(wǎng)絡(luò)爬蟲的定義

    網(wǎng)絡(luò)爬蟲,也叫網(wǎng)絡(luò)蜘蛛(Web Spider),如果把互聯(lián)網(wǎng)比喻成一個蜘蛛網(wǎng),Spider就是一只在網(wǎng)上爬來爬去的蜘蛛。網(wǎng)絡(luò)爬蟲就是根據(jù)網(wǎng)頁的地址來尋找網(wǎng)頁的,也就是URL。舉一個簡單的例子,我們在瀏覽器的地址欄中輸入的字符串就是URL,例如:https://www.baidu.com/

    URL就是同意資源定位符(Uniform Resource Locator),它的一般格式如下(帶方括號[]的為可選項(xiàng)):

    protocol :// hostname[:port] / path / [;parameters][?query]#fragment

    URL的格式由三部分組成:

    (1)protocol:第一部分就是協(xié)議,例如百度使用的就是https協(xié)議;

    (2)hostname[:port]:第二部分就是主機(jī)名(還有端口號為可選參數(shù)),一般網(wǎng)站默認(rèn)的端口號為80,例如百度的主機(jī)名就是www.baidu.com,這個就是服務(wù)器的地址;

    (3)path:第三部分就是主機(jī)資源的具體地址,如目錄和文件名等。

    網(wǎng)絡(luò)爬蟲就是根據(jù)這個URL來獲取網(wǎng)頁信息的。

三、簡單爬蟲實(shí)例

    在Python3.x中,我們可以使用urlib這個組件抓取網(wǎng)頁,urllib是一個URL處理包,這個包中集合了一些處理URL的模塊,如下:

Python3如何利用urllib進(jìn)行簡單的網(wǎng)頁抓取

1.urllib.request模塊是用來打開和讀取URLs的;

2.urllib.error模塊包含一些有urllib.request產(chǎn)生的錯誤,可以使用try進(jìn)行捕捉處理;

3.urllib.parse模塊包含了一些解析URLs的方法;

4.urllib.robotparser模塊用來解析robots.txt文本文件.它提供了一個單獨(dú)的RobotFileParser類,通過該類提供的can_fetch()方法測試爬蟲是否可以下載一個頁面。

    我們使用urllib.request.urlopen()這個接口函數(shù)就可以很輕松的打開一個網(wǎng)站,讀取并打印信息。

Python3如何利用urllib進(jìn)行簡單的網(wǎng)頁抓取

    urlopen有一些可選參數(shù),具體信息可以查閱Python自帶的documentation。

    了解到這些,我們就可以寫一個最簡單的程序,文件名為urllib_test01.py,感受一個urllib庫的魅力:

# -*- coding: UTF-8 -*-from urllib import requestif __name__ == "__main__":
    response = request.urlopen("http://fanyi.baidu.com")
    html = response.read()
    print(html)

    urllib使用使用request.urlopen()打開和讀取URLs信息,返回的對象response如同一個文本對象,我們可以調(diào)用read(),進(jìn)行讀取。再通過print(),將讀到的信息打印出來。

    運(yùn)行程序ctrl+b,可以在Sublime中查看運(yùn)行結(jié)果,如下:

Python3如何利用urllib進(jìn)行簡單的網(wǎng)頁抓取

    也可以在cmd(控制臺)中輸入指令:

python urllib_test01.py

    運(yùn)行py文件,輸出信息是一樣的,如下:

Python3如何利用urllib進(jìn)行簡單的網(wǎng)頁抓取

    其實(shí)這就是瀏覽器接收到的信息,只不過我們在使用瀏覽器的時候,瀏覽器已經(jīng)將這些信息轉(zhuǎn)化成了界面信息供我們?yōu)g覽。當(dāng)然這些代碼我們也可以從瀏覽器中查看到。例如,使用谷歌瀏覽器,在任意界面單擊右鍵選擇檢查,也就是審查元素(不是所有頁面都可以審查元素的,例如起點(diǎn)中文網(wǎng)付費(fèi)章節(jié)就不行.),以百度界面為例,截圖如下:

Python3如何利用urllib進(jìn)行簡單的網(wǎng)頁抓取

    可以看到,右邊就是我們的審查結(jié)果。我們可以在本地,也就是瀏覽器(客戶端)更改元素,但是這個不會上傳到服務(wù)器端。例如我可以修改自己的支付寶余額裝一裝,比如這樣:

Python3如何利用urllib進(jìn)行簡單的網(wǎng)頁抓取

    我實(shí)際有這些錢嗎?顯然苦逼的我,是不會有這些錢的,我只不過是修改了下審查元素的信息而已。

    有些跑偏,不過說的道理就是,瀏覽器就是作為客戶端從服務(wù)器端獲取信息,然后將信息解析,再展示給我們的。

    回歸正題,雖然我們已經(jīng)成功獲取了信息,但是顯然他們都是二進(jìn)制的亂碼,看起來很不方便。我們怎么辦呢?

    我們可以通過簡單的decode()命令將網(wǎng)頁的信息進(jìn)行解碼,并顯示出來,我們新創(chuàng)建一個文件,命名為urllib_test02.py,編寫如下代碼(還是以百度翻譯網(wǎng)站fanyi.baidu.com為例):

# -*- coding: UTF-8 -*-from urllib import requestif __name__ == "__main__":
    response = request.urlopen("http://www.fanyi.baidu.com/")
    html = response.read()
    html = html.decode("utf-8")
    print(html)

    這樣我們就可以得到這樣的結(jié)果,顯然解碼后的信息看起來工整和舒服多了:

Python3如何利用urllib進(jìn)行簡單的網(wǎng)頁抓取

    當(dāng)然這個前提是我們已經(jīng)知道了這個網(wǎng)頁是使用utf-8編碼的,怎么查看網(wǎng)頁的編碼方式呢?需要人為操作,且非常簡單的方法是使用使用瀏覽器審查元素,只需要找到head標(biāo)簽開始位置的chareset,就知道網(wǎng)頁是采用何種編碼的了。如下:

Python3如何利用urllib進(jìn)行簡單的網(wǎng)頁抓取

    這樣我們就知道了這個網(wǎng)站的編碼方式,但是這需要我們每次都打開瀏覽器,并找下編碼方式,顯然有些費(fèi)事,使用幾行代碼解決更加省事并且顯得酷一些。

四、自動獲取網(wǎng)頁編碼方式的方法

    獲取網(wǎng)頁編碼的方式有很多,個人更喜歡用第三方庫的方式。

    首先我們需要安裝第三方庫chardet,它是用來判斷編碼的模塊,安裝方法如下圖所示,只需要輸入指令:

pip install chardet

Python3如何利用urllib進(jìn)行簡單的網(wǎng)頁抓取

    安裝好后,我們就可以使用chardet.detect()方法,判斷網(wǎng)頁的編碼方式了。至此,我們就可以編寫一個小程序判斷網(wǎng)頁的編碼方式了,新建文件名為chardet_test01.py:

# -*- coding: UTF-8 -*-from urllib import requestimport chardetif __name__ == "__main__":
    response = request.urlopen("http://fanyi.baidu.com/")
    html = response.read()
    charset = chardet.detect(html)
    print(charset)

    運(yùn)行程序,查看輸出結(jié)果如下:

Python3如何利用urllib進(jìn)行簡單的網(wǎng)頁抓取

    瞧,返回的是一個字典,這樣我們就知道網(wǎng)頁的編碼方式了,通過獲得的信息,采用不同的解碼方式即可。

以上是“Python3如何利用urllib進(jìn)行簡單的網(wǎng)頁抓取”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對大家有所幫助,如果還想學(xué)習(xí)更多知識,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道!


名稱欄目:Python3如何利用urllib進(jìn)行簡單的網(wǎng)頁抓取
鏈接分享:http://weahome.cn/article/ippjsd.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部