這篇文章主要講解了用python寫爬蟲難嗎,內(nèi)容清晰明了,對(duì)此有興趣的小伙伴可以學(xué)習(xí)一下,相信大家閱讀完之后會(huì)有幫助。
創(chuàng)新互聯(lián)是一家集網(wǎng)站建設(shè),荊門企業(yè)網(wǎng)站建設(shè),荊門品牌網(wǎng)站建設(shè),網(wǎng)站定制,荊門網(wǎng)站建設(shè)報(bào)價(jià),網(wǎng)絡(luò)營(yíng)銷,網(wǎng)絡(luò)優(yōu)化,荊門網(wǎng)站推廣為一體的創(chuàng)新建站企業(yè),幫助傳統(tǒng)企業(yè)提升企業(yè)形象加強(qiáng)企業(yè)競(jìng)爭(zhēng)力??沙浞譂M足這一群體相比中小企業(yè)更為豐富、高端、多元的互聯(lián)網(wǎng)需求。同時(shí)我們時(shí)刻保持專業(yè)、時(shí)尚、前沿,時(shí)刻以成就客戶成長(zhǎng)自我,堅(jiān)持不斷學(xué)習(xí)、思考、沉淀、凈化自己,讓我們?yōu)楦嗟钠髽I(yè)打造出實(shí)用型網(wǎng)站。所謂網(wǎng)絡(luò)爬蟲,通俗的講,就是通過向我們需要的URL發(fā)出http請(qǐng)求,獲取該URL對(duì)應(yīng)的http報(bào)文主體內(nèi)容,之后提取該報(bào)文主體中我們所需要的信息。
下面是一個(gè)簡(jiǎn)單的爬蟲程序
http基本知識(shí)
當(dāng)我們通過瀏覽器訪問指定的URL時(shí),需要遵守http協(xié)議。本節(jié)將介紹一些關(guān)于http的基礎(chǔ)知識(shí)。
http基本流程
我們打開一個(gè)網(wǎng)頁(yè)的過程,就是一次http請(qǐng)求的過程。這個(gè)過程中,我們自己的主機(jī)充當(dāng)著客戶機(jī)的作用,而充當(dāng)客戶端的是瀏覽器。我們輸入的URL對(duì)應(yīng)著網(wǎng)絡(luò)中某臺(tái)服務(wù)器上面的資源,服務(wù)器接收到客戶端發(fā)出的http請(qǐng)求之后,會(huì)給客戶端一個(gè)響應(yīng),響應(yīng)的內(nèi)容就是請(qǐng)求的URL對(duì)應(yīng)的內(nèi)容,當(dāng)客戶端接收到服務(wù)器的響應(yīng)時(shí),我們就可以在瀏覽器上看見請(qǐng)求的信息了。
我們可以通過python的requests模塊很方便的發(fā)起http請(qǐng)求。requests模塊是第三方模塊,安裝完成之后直接import就能使用。下面介紹一些簡(jiǎn)單的用法
發(fā)起請(qǐng)求
import requests # 請(qǐng)求的首部信息 headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36' } # 例子的url url = 'https://voice.hupu.com/nba' # 虎撲nba新聞 # 利用requests對(duì)象的get方法,對(duì)指定的url發(fā)起請(qǐng)求 # 該方法會(huì)返回一個(gè)Response對(duì)象 res = requests.get(url, headers=headers) # 通過Response對(duì)象的text方法獲取網(wǎng)頁(yè)的文本信息 print(res.text)