怎么用python3urllib破解有道翻譯反爬蟲機(jī)制-創(chuàng)新互聯(lián)

這篇文章給大家分享的是有關(guān)怎么用python3 urllib破解有道翻譯反爬蟲機(jī)制的內(nèi)容。小編覺得挺實(shí)用的，因此分享給大家做個(gè)參考，一起跟隨小編過來看看吧。

創(chuàng)新互聯(lián)客戶idc服務(wù)中心，提供棕樹數(shù)據(jù)中心、成都服務(wù)器、成都主機(jī)托管、成都雙線服務(wù)器等業(yè)務(wù)的一站式服務(wù)。通過各地的服務(wù)中心，我們向成都用戶提供優(yōu)質(zhì)廉價(jià)的產(chǎn)品以及開放、透明、穩(wěn)定、高性價(jià)比的服務(wù)，資深網(wǎng)絡(luò)工程師在機(jī)房提供7*24小時(shí)標(biāo)準(zhǔn)級(jí)技術(shù)保障。Python的優(yōu)點(diǎn)有哪些

1、簡(jiǎn)單易用，與C/C++、Java、C# 等傳統(tǒng)語言相比，Python對(duì)代碼格式的要求沒有那么嚴(yán)格；2、Python屬于開源的，所有人都可以看到源代碼，并且可以被移植在許多平臺(tái)上使用；3、Python面向?qū)ο?，能夠支持面向過程編程,也支持面向?qū)ο缶幊蹋?、Python是一種解釋性語言，Python寫的程序不需要編譯成二進(jìn)制代碼，可以直接從源代碼運(yùn)行程序；5、Python功能強(qiáng)大，擁有的模塊眾多，基本能夠?qū)崿F(xiàn)所有的常見功能。

前言

最近在學(xué)習(xí)python 爬蟲方面的知識(shí)，網(wǎng)上有一博客專欄專門寫爬蟲方面的，看到用urllib請(qǐng)求有道翻譯接口獲取翻譯結(jié)果。發(fā)現(xiàn)接口變化很大，用md5加了密，于是自己開始破解。加上網(wǎng)上的其他文章找源碼方式并不是通用的，所有重新寫一篇記錄下。

爬取條件

要實(shí)現(xiàn)爬取的目標(biāo)，首先要知道它的地址，請(qǐng)求參數(shù)，請(qǐng)求頭，響應(yīng)結(jié)果。

進(jìn)行抓包分析

打開有道翻譯的鏈接：http://fanyi.youdao.com/。然后在按f12 點(diǎn)擊Network項(xiàng)。這時(shí)候就來到了網(wǎng)絡(luò)監(jiān)聽窗口，在這個(gè)頁面中發(fā)送的所有網(wǎng)絡(luò)請(qǐng)求，都會(huì)在Network這個(gè)地方顯示出來，如果是空白的，點(diǎn)擊XHR。接著我們?cè)诜g的窗口輸入我們需要翻譯的文字，比如輸入hell。然后點(diǎn)擊自動(dòng)翻譯按鈕，那么接下來在下面就可以看到瀏覽器給有道發(fā)送的請(qǐng)求，這里截個(gè)圖看看：

怎么用python3 urllib破解有道翻譯反爬蟲機(jī)制

點(diǎn)擊鏈接，就可以看到整個(gè)請(qǐng)求的信息。包括請(qǐng)求頭，請(qǐng)求參數(shù)，響應(yīng)結(jié)果。

這里面有一個(gè)問題就是參數(shù)進(jìn)行了加密。我們需要知道這些參數(shù)是如何加密的。

破解加密難題

要想知道如何加密的，需要查看源碼。于是我們需要知道發(fā)起這個(gè)請(qǐng)求的js文件。在文件查找這個(gè)相關(guān)代碼。剛才我們監(jiān)聽了網(wǎng)絡(luò)請(qǐng)求，可以看到發(fā)起請(qǐng)求的js文件。那么接下來查找發(fā)起請(qǐng)求的鏈路，鼠標(biāo)浮到請(qǐng)求文件上，顯示了一系列執(zhí)行方法，我們點(diǎn)擊跟業(yè)務(wù)相關(guān)的那個(gè)方法對(duì)應(yīng)的文件鏈接，這里是t.translate 對(duì)應(yīng)的連接。

怎么用python3 urllib破解有道翻譯反爬蟲機(jī)制

點(diǎn)擊進(jìn)入查看對(duì)應(yīng)的源碼

怎么用python3 urllib破解有道翻譯反爬蟲機(jī)制

我們可以看到i,salt,sign是變量，其他的請(qǐng)求參數(shù)是常量。i是需要翻譯的字符串，salt是時(shí)間戳生成的13位，sign是S+n+r+D
也就S是client的值，也就是fanyideskweb. 我們查找D 這個(gè)常量，在底欄輸入框輸入 D = （空格D空格=空格；格式化后的代碼規(guī)范）點(diǎn)擊右邊的Aa讓搜索時(shí)大小寫敏感?；剀嚥檎业较乱粋€(gè)，直到找到對(duì)應(yīng)的值。

怎么用python3 urllib破解有道翻譯反爬蟲機(jī)制

在上圖我們看到了_,C，S,D等常量。

于是你以為構(gòu)建一個(gè)請(qǐng)求，傳好這些參數(shù)就ok了。別忘了，為了反爬蟲，都是會(huì)校驗(yàn)請(qǐng)求頭。于是要模擬瀏覽器的請(qǐng)求頭。經(jīng)過驗(yàn)證只需要User-Agent，Referer，Cookie 三個(gè)請(qǐng)求頭。

實(shí)現(xiàn)代碼：

# -*- coding: utf-8 -*-
from urllib import request,parse
import json
import time
from hashlib import md5
'''
def dicToSortedStrParam(dic={}):
  keyList = sorted(dic)
  str =""
  for i,key in enumerate(keyList):
    if i==len(keyList)-1:
      str += key +"="+ dic[key]
    else:
      str += key +"="+ dic[key] + "&"
    pass
  return str
'''


def create_md5(data):
  md5_obj = md5()
  md5_obj.update(data.encode("utf-8"))
  return md5_obj.hexdigest()

if __name__ == "__main__":
  request_url = "http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule"
  translate = "hell"
  c = "fanyideskweb"
  data = {}
  data["i"] = translate
  data["from"] = "AUTO"
  data["to"] = "AUTO"
  data["smartresult"] = "dict"
  data["client"] = c
  data["doctype"] = "json"
  data["version"] = "2.1"
  data["keyfrom"] = "fanyi.web"
  data["action"] = "FY_BY_REALTIME"
  data["typoResult"] = "false"
  salt = str(int(round(time.time(),3)*1000))
  # 加密
  data["salt"] = salt
  # a = "rY0D^0'nM0}g5Mm1z%1G4"  網(wǎng)上別人的 也可以
  a = "ebSeFb%=XZ%T[KZ)c(sy!"
  sign = create_md5(c+translate+salt+a)
  data["sign"] = sign
  headers = {}
  headers["User-Agent"] = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
  # headers["Content-Type"] = "application/x-www-form-urlencoded; charset=UTF-8"
  headers["Referer"] = "http://fanyi.youdao.com/"
  # headers["Host"] = "fanyi.youdao.com"
  # headers["Origin"]="http://fanyi.youdao.com"
  headers["Cookie"]="OUTFOX_SEARCH_USER_ID=-948455480@10.169.0.83; " \
           "JSESSIONID=aaajvZPcjhFWbgtIBPuiw; " \
           "OUTFOX_SEARCH_USER_ID_NCOO=1148682548.6241577;" \
           " fanyi-ad-id=41685; fanyi-ad-closed=1; ___rl__test__cookies="+salt

  data = parse.urlencode(data).encode('utf-8')
  request1 = request.Request(request_url,data,headers = headers)

  response = request.urlopen(request1)
  print(response.info())
  #讀取信息并解碼
  html = response.read().decode('utf-8')
  print(html)
  #使用JSON
  translate_results = json.loads(html)
  # 找到翻譯結(jié)果
  translate_results = translate_results['translateResult'][0][0]['tgt']
  # 打印翻譯信息
  print("翻譯的結(jié)果是：%s" % translate_results)

翻譯結(jié)果：

{"translateResult":[[{"tgt":"地獄","src":"hell"}]],"errorCode":0,"type":"en2zh-CHS","smartResult":{"entries":["","n. 地獄；究竟（作加強(qiáng)語氣詞）；訓(xùn)斥；黑暗勢(shì)力\r\n","vi. 過放蕩生活；飛馳\r\n","int. 該死；見鬼（表示驚奇、煩惱、厭惡、惱怒、失望等）\r\n"],"type":1}}
翻譯的結(jié)果是：地獄

感謝各位的閱讀！關(guān)于“怎么用python3 urllib破解有道翻譯反爬蟲機(jī)制”這篇文章就分享到這里了，希望以上內(nèi)容可以對(duì)大家有一定的幫助，讓大家可以學(xué)到更多知識(shí)，如果覺得文章不錯(cuò)，可以把它分享出去讓更多的人看到吧！

分享名稱：怎么用python3urllib破解有道翻譯反爬蟲機(jī)制-創(chuàng)新互聯(lián)
路徑分享：http://weahome.cn/article/dpichj.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

怎么用python3urllib破解有道翻譯反爬蟲機(jī)制-創(chuàng)新互聯(lián)

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管