前段時(shí)間喜歡用python去抓一些頁(yè)面玩,但都基本上都是用get請(qǐng)求一些頁(yè)面,再通過(guò)正則去過(guò)濾。
目前創(chuàng)新互聯(lián)公司已為上千多家的企業(yè)提供了網(wǎng)站建設(shè)、域名、虛擬主機(jī)、網(wǎng)站運(yùn)營(yíng)、企業(yè)網(wǎng)站設(shè)計(jì)、六盤(pán)水網(wǎng)站維護(hù)等服務(wù),公司將堅(jiān)持客戶導(dǎo)向、應(yīng)用為本的策略,正道將秉承"和諧、參與、激情"的文化,與客戶和合作伙伴齊心協(xié)力一起成長(zhǎng),共同發(fā)展。今天試了一下,模擬登陸個(gè)人網(wǎng)站。發(fā)現(xiàn)也比較簡(jiǎn)單。讀懂本文需要對(duì)http協(xié)議和http會(huì)話有一定的理解。
注明:因?yàn)槟M登陸的是我的個(gè)人網(wǎng)站,所以以下代碼對(duì)個(gè)人網(wǎng)站和賬號(hào)密碼做了處理。
網(wǎng)站分析
爬蟲(chóng)的必備第一步,分析目標(biāo)網(wǎng)站。這里使用谷歌瀏覽器的開(kāi)發(fā)者者工具分析。
通過(guò)登陸抓取,看到這樣一個(gè)請(qǐng)求。
上方部分為請(qǐng)求頭,下面部分為請(qǐng)求是傳的參數(shù)。由圖片可以看出,頁(yè)面通過(guò)表單提交了三個(gè)參數(shù)。分別為_(kāi)csrf,usermane,password。
其中csrf是為了預(yù)防跨域腳本偽造。原理很簡(jiǎn)單,就是每一次請(qǐng)求,服務(wù)器生成一串加密字符串。放在隱藏的input表單中。再一次請(qǐng)求的時(shí)候,把這個(gè)字符串一起傳過(guò)去,為了驗(yàn)證是否為同一個(gè)用戶的請(qǐng)求。
因此,我們的代碼邏輯就有了。首先請(qǐng)求一次登錄頁(yè)面。然后分析頁(yè)面,拿到csrf字符串。最后把這個(gè)字符串和賬號(hào)密碼一起傳給服務(wù)器用來(lái)登錄。
第一份代碼
#!/usr/bin/env python2.7 # -*- coding: utf-8 -*- import requests import re # 頭部信息 headers = { 'Host':"localhost", 'Accept-Language':"zh-CN,zh;q=0.8", 'Accept-Encoding':"gzip, deflate", 'Content-Type':"application/x-www-form-urlencoded", 'Connection':"keep-alive", 'Referer':"http://localhost/login", 'User-Agent':"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36" } # 登陸方法 def login(url,csrf): data = { "_csrf" : csrf, "username": "xiedj", "password": "***" } response = requests.post(url, data=data, headers=headers) return response.content # 第一次訪問(wèn)獲取csrf值 def get_login_web(url): page = requests.get('http://localhost/login') reg = r'' csrf = re.findall(reg,page.content)[0] login_page = login(url,csrf) print login_page if __name__ == "__main__": url = "http://localhost/login/checklogin" get_login_web(url)