這篇文章主要講解了“網(wǎng)頁(yè)Cookie如何獲取”,文中的講解內(nèi)容簡(jiǎn)單清晰,易于學(xué)習(xí)與理解,下面請(qǐng)大家跟著小編的思路慢慢深入,一起來研究和學(xué)習(xí)“網(wǎng)頁(yè)Cookie如何獲取”吧!
成都創(chuàng)新互聯(lián)是一家集網(wǎng)站建設(shè),互助企業(yè)網(wǎng)站建設(shè),互助品牌網(wǎng)站建設(shè),網(wǎng)站定制,互助網(wǎng)站建設(shè)報(bào)價(jià),網(wǎng)絡(luò)營(yíng)銷,網(wǎng)絡(luò)優(yōu)化,互助網(wǎng)站推廣為一體的創(chuàng)新建站企業(yè),幫助傳統(tǒng)企業(yè)提升企業(yè)形象加強(qiáng)企業(yè)競(jìng)爭(zhēng)力??沙浞譂M足這一群體相比中小企業(yè)更為豐富、高端、多元的互聯(lián)網(wǎng)需求。同時(shí)我們時(shí)刻保持專業(yè)、時(shí)尚、前沿,時(shí)刻以成就客戶成長(zhǎng)自我,堅(jiān)持不斷學(xué)習(xí)、思考、沉淀、凈化自己,讓我們?yōu)楦嗟钠髽I(yè)打造出實(shí)用型網(wǎng)站。
這里采用python2.7
第一種:mechanize
首先我們要使用mechanize,第一步:
pip install mechanize
第二步編寫獲取cookie代碼:
import osimport mechanizeimport cookielib,re br = mechanize.Browser() cj = cookielib.LWPCookieJar() br.set_cookiejar(cj) br.set_handle_equiv(True) br.set_handle_gzip(True) br.set_handle_redirect(True) br.set_handle_referer(True) br.set_handle_robots(False) br.set_handle_refresh(mechanize._http.HTTPRefreshProcessor(), max_time=1) br.set_debug_http(True) br.addheaders = [('User-agent', '用戶ua')] br.set_proxies({"http": "代理"}) response = br.open('https://www.amazon.com') cj = br._ua_handlers['_cookies'].cookiejarfor cookie in cj: print("cookieName:"+cookie.name) print("cookieValue:"+cookie.value) cookie = [item.name + ":" + item.value for item in cj] cookiestr={}for item in cookie: name,value = item.split(":") cookiestr[name]=value
運(yùn)行結(jié)果:
第二種:urllib
import urllib2import cookielibfrom http import cookiejarfrom bs4 import BeautifulSoup User_Agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'header = {} header['User-Agent'] = User_Agent cookie = cookiejar.CookieJar() cookie_handle=urllib2.HTTPCookieProcessor(cookie) cookie_opener = urllib2.build_opener(cookie_handle)# proxy_support = urllib2.ProxyHandler({"http":"5.62.157.47:8085"})# proxy_opener = urllib2.build_opener(proxy_support)urllib2.install_opener(cookie_opener)# urllib2.install_opener(proxy_opener)request = urllib2.Request("https://www.amazon.com",headers=header) response = urllib2.urlopen(request)for item in cookie: print('Name = ' +item.name) print('Value =' +item.value)
運(yùn)行結(jié)果:
第三種:requests
import requests headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'} r = requests.get('https://www.amazon.com', headers = headers)for cookie in r.cookies: print(cookie.name) print(cookie.value) print("=========")
運(yùn)行結(jié)果:
第四種:selenium(個(gè)人感覺這個(gè)雖然加載比較慢,但是獲取cookie最全)
pip install selenium
代碼:
from selenium import webdriver driver = webdriver.Chrome(executable_path='d:/seop/chromedriver.exe') driver.get("https://www.amazon.com")#for c in cookiestr.keys():# driver.add_cookie({'name':c,'value':cookiestr[c]})#driver.get("https://www.amazon.com")cookie = [item["name"] + "=" + item["value"] for item in driver.get_cookies()] cookiestr = ';'.join(item for item in cookie)
運(yùn)行結(jié)果:
第五種:總覺得selenium比較慢,打開還要加載瀏覽器,于是嘗試了 htmlunit以及phantomjs
htmlunit
phantomjs
from selenium import webdriver browser = webdriver.PhantomJS() browser.get("https://www.amazon.com") cookie = [item["name"] + "=" + item["value"] for item in browser.get_cookies()] cookiestr = ';'.join(item for item in cookie)
運(yùn)行結(jié)果:
第六種:scrapy
這邊我們簡(jiǎn)單測(cè)試一下,首先你電腦已經(jīng)要安裝了scrapy,如果沒有安裝,pip install scrapy
然后我們輸入要獲取地址的cookie
scrapy shell "https://www.amazon.com"
cookie結(jié)果:
最后一種:chrome headless 使用無頭瀏覽器來獲取
這個(gè)目前我是在centos上面進(jìn)行操作:
第一步:肯定你要安裝chrome啦
第二步:運(yùn)行安裝腳本
curl https://intoli.com/install-google-chrome.sh | bash
測(cè)試是否成功: 運(yùn)行以下命令,如果成功會(huì)在當(dāng)前目錄下面保存百度的截圖
google-chrome-stable --no-sandbox --headless --disable-gpu --screenshot https://www.baidu.com
這里我們開始獲取cookie信息
first:
google-chrome-stable --no-sandbox --headless --disable-gpu --user-data-dir="$HOME/Library/Application Support/Google/Chrome/" --remote-debugging-port=9222 https://www.amazon.com
second: 這里我們主要是獲取websocket的url
curl -s localhost:9222/json
third: 這邊要注意哦,要安裝wsc,安裝wsc之前記得要安裝npm哦,然后在執(zhí)行npm install -g wsc,然后在執(zhí)行以下命令
wsc ws://localhost:9222/devtools/page/D42AFC3C9AF9C8A1511ADC60850BD5A8
然后輸入:
{"id": 1, "method": "Network.getAllCookies"}
最后cookie結(jié)果:
目前嘗試了mechanize、urllib、selenium、headless chrome、requests、htmlunit、phantomjs、scrapy
目前已經(jīng)嘗試了以上八種,覺得還是selenium獲取cookie比較全,信息比較完整,獲取cookie的字段也是比較穩(wěn)定的,經(jīng)過研究cookie,就是selenium獲取cookie的速度比較慢,看看還有沒啥辦法優(yōu)化速度,繼續(xù)查閱別的方式來獲取cookie。
感謝各位的閱讀,以上就是“網(wǎng)頁(yè)Cookie如何獲取”的內(nèi)容了,經(jīng)過本文的學(xué)習(xí)后,相信大家對(duì)網(wǎng)頁(yè)Cookie如何獲取這一問題有了更深刻的體會(huì),具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是創(chuàng)新互聯(lián),小編將為大家推送更多相關(guān)知識(shí)點(diǎn)的文章,歡迎關(guān)注!