如何用python登錄主流 24 個(gè)網(wǎng)站,很多新手對(duì)此不是很清楚,為了幫助大家解決這個(gè)難題,下面小編將為大家詳細(xì)講解,有這方面需求的人可以來(lái)學(xué)習(xí)下,希望你能有所收獲。
呂梁網(wǎng)站建設(shè)公司創(chuàng)新互聯(lián),呂梁網(wǎng)站設(shè)計(jì)制作,有大型網(wǎng)站制作公司豐富經(jīng)驗(yàn)。已為呂梁超過(guò)千家提供企業(yè)網(wǎng)站建設(shè)服務(wù)。企業(yè)網(wǎng)站搭建\外貿(mào)網(wǎng)站制作要多少錢,請(qǐng)找那個(gè)售后服務(wù)好的呂梁做網(wǎng)站的公司定做!
爬蟲(chóng)腳本是大家經(jīng)常用到的,那就避開(kāi)不了登錄 這一關(guān)。
使用Python一般需要request庫(kù),補(bǔ)充 header 中的 post 要素,有些還會(huì)有 隱藏的 hidden 參數(shù),可以通過(guò)瀏覽器 F12 或者元素審查來(lái)發(fā)現(xiàn),對(duì)于初學(xué)者來(lái)說(shuō)都是一個(gè)坑。
還有需要解決驗(yàn)證碼的問(wèn)題,一種方法是下載驗(yàn)證碼圖片識(shí)別驗(yàn)證碼再次post,或者使用云打碼平臺(tái)。當(dāng)然,有些驗(yàn)證碼及其變態(tài)就不那么容易解決了,比如選字順序、滑塊、12306那種人為都會(huì)選錯(cuò)的。
上面是作者已經(jīng)完成的一些主流網(wǎng)站了,其中有的是通過(guò) selenium登錄,有的是通過(guò) 抓包直接模擬登錄,有的是利用 scrapy框架。
這個(gè)很容易理解,因?yàn)橛械?a target="_blank">網(wǎng)站設(shè)計(jì)比較復(fù)雜,通過(guò)抓包很難實(shí)現(xiàn)模擬登錄,這樣用 selenium+webdriver 就會(huì)相對(duì)輕松一些。
雖然在登錄的時(shí)候采用的是selenium,為了效率,我們可以在登錄過(guò)后得到的cookie維護(hù)起來(lái),然后調(diào)用requests或者scrapy等進(jìn)行數(shù)據(jù)采集,這樣數(shù)據(jù)采集的速度可以得到保證。
這里給大家展示一個(gè)模擬登錄GitHub的代碼。
"""
github第二種登錄方式
info:
author:CriseLYJ
github:https://github.com/CriseLYJ/
update_time:2019-3-7
"""
import re
import requests
from lxml import etree
class Login(object):
class GithubLogin(object):
def __init__(self, email, password):
# 初始化信息
self.headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36',
'Referer': 'https://github.com/',
'Host': 'github.com'
}
self.session = requests.Session()
self.login_url = 'https://github.com/login'
self.post_url = 'https://github.com/session'
self.session = requests.Session()
self.email = email
self.password = password
# 模擬登錄
def login_GitHub(self):
# 登錄入口
post_data = {
'commit': 'Sign in',
'utf8': '?',
'authenticity_token': self.get_token(),
'login': self.email,
'password': self.password
}
resp = self.session.post(
self.post_url, data=post_data, headers=self.headers)
print('StatusCode:', resp.status_code)
if resp.status_code != 200:
print('Login Fail')
match = re.search(r'"user-login" content="(.*?)"', resp.text)
user_name = match.group(1)
print('UserName:', user_name)
response = self.session.post(self.post_url, data=post_data, headers=self.headers)
print(response.status_code)
print(post_data)
if response.status_code == 200:
print("登錄成功!")
else:
print("登錄失??!")
# 獲取token信息
# Get login token
def get_token(self):
response = self.session.get(self.login_url, headers=self.headers)
html = etree.HTML(response.content.decode())
token = html.xpath('//input[@name="authenticity_token"]/@value')[0]
return token
if response.status_code != 200:
print('Get token fail')
return None
match = re.search(
r'name="authenticity_token" value="(.*?)"', response.text)
if not match:
print('Get Token Fail')
return None
return match.group(1)
if __name__ == '__main__':
email = input('請(qǐng)輸入您的賬號(hào): ')
password = input('請(qǐng)輸入您的密碼: ')
email = input('Account:')
password = input('Password:')
login = Login(email, password)
login = GithubLogin(email, password)
login.login_GitHub()
相信這對(duì)初學(xué)爬蟲(chóng)的朋友是一個(gè)很好的教程。
但提示一下,模擬登錄的代碼隨時(shí)都有可能失效,因?yàn)榍岸说木W(wǎng)頁(yè)HTML、CSS、JS等結(jié)構(gòu)可能會(huì)根據(jù)公司業(yè)務(wù)調(diào)整之類的發(fā)生變化。
所以,重點(diǎn)是掌握了各種技巧,學(xué)會(huì)這些完全可以自己調(diào)試完成登錄,那時(shí)候你也可以成為 contributor 了!
看完上述內(nèi)容是否對(duì)您有幫助呢?如果還想對(duì)相關(guān)知識(shí)有進(jìn)一步的了解或閱讀更多相關(guān)文章,請(qǐng)關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝您對(duì)創(chuàng)新互聯(lián)的支持。