Python爬蟲之GET和POST的區(qū)別

今天就跟大家聊聊有關(guān)Python爬蟲之GET和POST的區(qū)別，可能很多人都不太了解，為了讓大家更加了解，小編給大家總結(jié)了以下內(nèi)容，希望大家根據(jù)這篇文章可以有所收獲。

成都創(chuàng)新互聯(lián)公司專注于企業(yè)全網(wǎng)營(yíng)銷推廣、網(wǎng)站重做改版、河西網(wǎng)站定制設(shè)計(jì)、自適應(yīng)品牌網(wǎng)站建設(shè)、HTML5、商城建設(shè)、集團(tuán)公司官網(wǎng)建設(shè)、成都外貿(mào)網(wǎng)站建設(shè)、高端網(wǎng)站制作、響應(yīng)式網(wǎng)頁(yè)設(shè)計(jì)等建站業(yè)務(wù)，價(jià)格優(yōu)惠性價(jià)比高，為河西等各大城市提供網(wǎng)站開(kāi)發(fā)制作服務(wù)。

爬蟲——GET請(qǐng)求和POST請(qǐng)求

urllib.parse.urlencode()和urllib.parse.unquote()

編碼工作使用urllib.parse的urlencode()函數(shù)，幫我們將key:value這樣的鍵值對(duì)轉(zhuǎn)換成"key=value"這樣的字符串，解碼工作可以使用urllib的unquote()函數(shù)。

# python3.5控制臺(tái)中測(cè)試結(jié)果
>>> import urllib
>>> word = {"wd":"爬蟲"}
# 通過(guò)urllib.parse.urlencode()方法，將字典鍵值對(duì)按URL編碼轉(zhuǎn)換，從而能被wed服務(wù)器接受。
>>> urllib.parse.urlencode(word)
'wd=%E7%88%AC%E8%99%AB'
# 通過(guò)urllib.parse.unquote()方法，把URL編碼字符串，轉(zhuǎn)換回原先的字符串。
>>> urllib.parse.unquote(word)
'wd=爬蟲'

一般HTTP請(qǐng)求提交數(shù)據(jù)，需要編碼成URL編碼格式，然后做為URL的一部分，或者作為參數(shù)傳到Request對(duì)象中。

GET方式

GET請(qǐng)求一般用于我們向服務(wù)器獲取數(shù)據(jù)，比如說(shuō)，我們用百度搜索爬蟲：https://www.baidu.com/s?wd=爬蟲（https://www.baidu.com/s?wd=%E7%88%AC%E8%99%AB）

我們可以看到在請(qǐng)求部分里，http://www.baidu.com/s? 之后出現(xiàn)一個(gè)長(zhǎng)長(zhǎng)的字符串，其中就包含我們要查詢的關(guān)鍵詞“爬蟲”，于是我們可以嘗試用默認(rèn)的GET方式來(lái)發(fā)送請(qǐng)求。

#!/usr/bin/python3
# -*- coding:utf-8 -*-
 
# 導(dǎo)入庫(kù)
import urllib.request
import urllib
 
url = "http://www.baidu.com/s?"
word = {"wd":"爬蟲"}
# 轉(zhuǎn)換成url編碼格式
word = urllib.parse.urlencode(word)
# 拼接成完整的url
full_url = url + word
# chrome 的 User-Agent，包含在 header里
header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36'}
# url 連同 headers，一起構(gòu)造Request請(qǐng)求，這個(gè)請(qǐng)求將附帶 chrome 瀏覽器的User-Agent
request = urllib.request.Request(full_url, headers = header)
# 向服務(wù)器發(fā)送這個(gè)請(qǐng)求
response = urllib.request.urlopen(request)
 
html = response.read()
fo = open("baidu.html", "wb")
fo.write(html)
fo.close()

批量爬取貼吧頁(yè)面數(shù)據(jù)

首先我們創(chuàng)建一個(gè)python文件：tiebaSpider.py，我們要完成的功能是，輸入一個(gè)百度貼吧的地址，比如：百度貼吧LOL吧

第一頁(yè)：http://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=0

第二頁(yè)：http://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=50

第三頁(yè)：http://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=100

……

爬取以上頁(yè)面的內(nèi)容

#!/usr/bin/python3
# -*- coding:utf-8 -*-
 
"""
功能：批量爬取貼吧頁(yè)面數(shù)據(jù)
目標(biāo)地址：百度貼吧LOL吧
分析：
    第一頁(yè)：https://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=0
    第二頁(yè)：http://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=50
    第三頁(yè)：http://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=100
    ……
規(guī)律：
    貼吧中每個(gè)頁(yè)面URL不同之處，就是最后的pn值，其余的都是一樣的。其pn = (page - 1) * 50
    url = "https://tieba.baidu.com/f?kw=lol&ie=utf-8&pn="
    pn = (page - 1) * 50
    full_url = url + str(pn)
"""
 
# 導(dǎo)入庫(kù)
import urllib
import urllib.request
 
# 根據(jù)url地址，獲取服務(wù)器響應(yīng)文件
def loadPage(url):
    """
    功能：根據(jù)url地址，獲取服務(wù)器響應(yīng)文件
    :param url: url地址
    :return: 獲取的服務(wù)器響應(yīng)文件信息
    """
    # chrome 的User-Agent 頭
    header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36'}
    # url 連同 headers，一起構(gòu)造Request請(qǐng)求，這個(gè)請(qǐng)求將附帶 chrome 瀏覽器的User-Agent
    request = urllib.request.Request(url, headers = header)
    # 向服務(wù)器發(fā)送這個(gè)請(qǐng)求
    reponse = urllib.request.urlopen(request)
    # 獲取響應(yīng)文件中的全部?jī)?nèi)容
    html = reponse.read()
 
    return html
 
# 存儲(chǔ)文件
def writeFile(html, file_name):
    """
    功能：存服務(wù)器響應(yīng)文件到本地磁盤文件里
    :param html: 服務(wù)器響應(yīng)文件內(nèi)容
    :param file_name: 本地磁盤文件名
    :return: None
    """
    with open(file_name, "wb") as f:
        f.write(html)
 
 
# 貼吧爬蟲函數(shù)
def tiebaSpider(url, begin_page, end_page):
    """
    功能：處理從begin_page到end_page的url頁(yè)面
    :param url: url地址
    :param begin_page: 需爬取的起始頁(yè)
    :param end_page: 需爬取的終止頁(yè)
    :return:
    """
    for page in range(begin_page, end_page + 1):
        pn = (page - 1) * 50
        full_url = url + str(pn)
        file_name = "第" + str(page) + "頁(yè).html"
        print("正在爬取" + file_name)
        # 獲取full_url對(duì)應(yīng)的html文件信息
        html = loadPage(full_url)
        print("正在存儲(chǔ)" + file_name)
        # 存儲(chǔ)full_url對(duì)應(yīng)的html文件信息
        writeFile(html, file_name)
 
# 主函數(shù)
if __name__ == '__main__':
    url = "https://tieba.baidu.com/f?"
    # 輸入需爬取的貼吧
    kw = input("請(qǐng)輸入需要爬取的貼吧：")
    # 輸入需爬取的起始頁(yè)和終止頁(yè)
    begin_page = int(input("請(qǐng)輸入起始頁(yè)："))
    end_page = int(input("請(qǐng)輸入終止頁(yè)："))
    key = urllib.parse.urlencode({"kw":kw})
    # 組合的的url示例：https://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=
    url = url + key + "&ie=utf-8&pn="
    # 調(diào)用貼吧爬蟲函數(shù)，爬取數(shù)據(jù)
    tiebaSpider(url, begin_page, end_page)

POST方式

Request請(qǐng)求對(duì)象里有data參數(shù)，這就是用在POST里的，我們要傳送的數(shù)據(jù)就是這個(gè)參數(shù)data，data是一個(gè)字典，里面要有匹配鍵值對(duì)。

以下以有道詞典翻譯網(wǎng)站為例為模擬POST請(qǐng)求。

#!/usr/bin/python3
# -*- coding:utf-8 -*-
  
"""
POST方式：以有道詞典翻譯網(wǎng)站為例
url = "http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=null"
"""
 
# 導(dǎo)入庫(kù)
import urllib.request
import urllib
url = "http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=null"
# chrome 的 User-Agent，包含在 header里
header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36'}
 
word = input("請(qǐng)輸入需要翻譯的詞條：")
 
from_data = {
    "i":word,
    "from":"AUTO",
    "to":"AUTO",
    "smartresult":"dict",
    "doctype":"json",
    "version":"2.1",
    "keyfrom":"fanyi.wed"
}
data = urllib.parse.urlencode(from_data)
data = data.encode(encoding="utf-8")  # str轉(zhuǎn)bytes
 
request = urllib.request.Request(url, data = data, headers = header)
 
response = urllib.request.urlopen(request)
 
html = response.read().decode(encoding = "utf-8").strip()
 
print(html)

獲取AJAX加載的內(nèi)容

有些網(wǎng)頁(yè)內(nèi)容是使用AJAX加載的，AJAX一般返回的是JSON，直接對(duì)AJAX地址進(jìn)行POST或GET，就能返回JSON數(shù)據(jù)。

#!/usr/bin/python3
# -*- coding:utf-8 -*-
  
"""
獲取AJAX加載的數(shù)據(jù)
有些網(wǎng)頁(yè)內(nèi)容使用AJAX加載，只要記得，AJAX一般返回的是JSON,直接對(duì)AJAX地址進(jìn)行post或get，就返回JSON數(shù)據(jù)了。
以豆瓣為例：
url = "https://movie.douban.com/j/chart/top_list?type=11&interval_id=100:90&action&start=0&limit=100"
"""
 
# 導(dǎo)入庫(kù)
import urllib
import urllib.request
 
url = "https://movie.douban.com/j/chart/top_list?"
# chrome 的 User-Agent，包含在 header里
header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36'}
from_data = {
    'type':'11',
    'interval_id':'100:90',
    'action':'',
    'start':'0',
    'limit':'100'
}
data = urllib.parse.urlencode(from_data)
data = data.encode(encoding="utf-8")  # str轉(zhuǎn)bytes
 
request = urllib.request.Request(url, data = data, headers = header)
 
response = urllib.request.urlopen(request)
 
html = response.read().decode(encoding = "utf-8")
 
print(html)

看完上述內(nèi)容，你們對(duì)Python爬蟲之GET和POST的區(qū)別有進(jìn)一步的了解嗎？如果還想了解更多知識(shí)或者相關(guān)內(nèi)容，請(qǐng)關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道，感謝大家的支持。

網(wǎng)頁(yè)標(biāo)題：Python爬蟲之GET和POST的區(qū)別
網(wǎng)頁(yè)地址：http://weahome.cn/article/ipescc.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

Python爬蟲之GET和POST的區(qū)別

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管