真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

Python中怎么實(shí)現(xiàn)一個網(wǎng)頁采集器

本篇文章為大家展示了Python中怎么實(shí)現(xiàn)一個網(wǎng)頁采集器,內(nèi)容簡明扼要并且容易理解,絕對能使你眼前一亮,通過這篇文章的詳細(xì)介紹希望你能有所收獲。

創(chuàng)新互聯(lián)建站于2013年創(chuàng)立,先為虎林等服務(wù)建站,虎林等地企業(yè),進(jìn)行企業(yè)商務(wù)咨詢服務(wù)。為虎林企業(yè)網(wǎng)站制作PC+手機(jī)+微官網(wǎng)三網(wǎng)同步一站式服務(wù)解決您的所有建站問題。

requests模塊

python中封裝好的一個基于網(wǎng)絡(luò)請求的模塊。用來模擬瀏覽器發(fā)請求。安裝:pip install requests

requests模塊的編碼流程

  1. 指定url

  2. 發(fā)起請求

  3. 獲取相應(yīng)數(shù)據(jù)

  4. 持久化儲存

# 爬取搜狗首頁的頁面源碼數(shù)據(jù)

import requests

# 1. 指定url
url = "https://www.sogou.com"
# 2.發(fā)送請求 get
response = requests.get(url=url)  # get返回值是Response對象
# 獲取響應(yīng)數(shù)據(jù),響應(yīng)數(shù)據(jù)在Response對象里
page_text = response.text   # text返回字符串形式的響應(yīng)數(shù)據(jù)
# 4.持久化儲存
with open("sogou.html","w",encoding='utf-8') as fp:
    fp.write(page_text)

項(xiàng)目:實(shí)現(xiàn)一個簡易的網(wǎng)頁采集器

要求:程序基于搜狗錄入任意的關(guān)鍵字然后獲取關(guān)鍵字對應(yīng)的相關(guān)的整個頁面。

# 1.指定url,需要讓url攜帶的參數(shù)動態(tài)化

url = "https://www.sogou.com/web"
# 實(shí)現(xiàn)參數(shù)動態(tài)化,不推薦參數(shù)的拼接,參數(shù)如果太多就相當(dāng)麻煩。
# requests模塊實(shí)現(xiàn)了更為簡便的方法
ky = input("enter a key")
params = {
    'query':ky
}
# 將需要的請求參數(shù)對應(yīng)的字典作用到get方法的params參數(shù)中,params參數(shù)接受一個字典
response = requests.get(url=url,params=params)
page_text = response.text

with open(f"{ky}.html","w",encoding='utf-8') as fp:
    fp.write(page_text)

上述代碼執(zhí)行后:

  1. 出現(xiàn)了亂碼

  2. 數(shù)據(jù)量級不對

# 解決亂碼

url = "https://www.sogou.com/web"

ky = input("enter a key")
params = {
    'query':ky
}
response = requests.get(url=url,params=params)
# print(response.encoding) 會打印原來response的編碼格式
response.encoding = 'utf-8'  # 修改響應(yīng)數(shù)據(jù)的編碼格式
page_text = response.text
with open(f"{ky}.html","w",encoding='utf-8') as fp:
    fp.write(page_text)

上述代碼執(zhí)行后:

收到了錯誤頁面(搜狗的反爬機(jī)制)

UA檢測

  • 絕大多數(shù)網(wǎng)站都有UA檢查反爬機(jī)制

  • 門戶網(wǎng)站通過檢測請求載體的身份標(biāo)識判定該請求是否為爬蟲發(fā)出的請求

反反爬策略:UA偽裝 請求頭增加User-Agent

打開瀏覽器請求搜狗頁面,右鍵點(diǎn)擊檢查進(jìn)入Network,點(diǎn)擊Headers找到瀏覽器的User-Agent
注意:任意瀏覽器的身份標(biāo)識都可以。

# 反反爬策略:請求頭增加User-Agent
url = "https://www.sogou.com/web"

ky = input("enter a key")
params = {
    'query':ky
}
# 請求頭中增加User-Agent ,注意請求頭的數(shù)據(jù)格式是鍵值對,且都是字符串。
headers = {
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36"
}
response = requests.get(url=url,params=params,headers=headers)
response.encoding = 'utf-8'  
page_text = response.text
with open(f"{ky}.html","w",encoding='utf-8') as fp:
    fp.write(page_text)

上述內(nèi)容就是Python中怎么實(shí)現(xiàn)一個網(wǎng)頁采集器,你們學(xué)到知識或技能了嗎?如果還想學(xué)到更多技能或者豐富自己的知識儲備,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。


新聞標(biāo)題:Python中怎么實(shí)現(xiàn)一個網(wǎng)頁采集器
文章網(wǎng)址:http://weahome.cn/article/ppeiph.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部