最近在抓取一些js代碼產(chǎn)生的動(dòng)態(tài)數(shù)據(jù),需要模擬js請(qǐng)求獲得所需用的數(shù)據(jù),遇到對(duì)url進(jìn)行編碼和解碼的問(wèn)題,就把遇到的問(wèn)題總結(jié)一下,有總結(jié)才有進(jìn)步,才能使學(xué)到的知識(shí)更加清晰。對(duì)url進(jìn)行編碼和解碼,python提供了很方便的接口進(jìn)行調(diào)用。
創(chuàng)新互聯(lián)專(zhuān)注為客戶(hù)提供全方位的互聯(lián)網(wǎng)綜合服務(wù),包含不限于網(wǎng)站建設(shè)、成都網(wǎng)站建設(shè)、江西網(wǎng)絡(luò)推廣、微信小程序、江西網(wǎng)絡(luò)營(yíng)銷(xiāo)、江西企業(yè)策劃、江西品牌公關(guān)、搜索引擎seo、人物專(zhuān)訪、企業(yè)宣傳片、企業(yè)代運(yùn)營(yíng)等,從售前售中售后,我們都將竭誠(chéng)為您服務(wù),您的肯定,是我們最大的嘉獎(jiǎng);創(chuàng)新互聯(lián)為所有大學(xué)生創(chuàng)業(yè)者提供江西建站搭建服務(wù),24小時(shí)服務(wù)熱線:13518219792,官方網(wǎng)址:www.cdcxhl.com
url中的query帶有特殊字符(不是url的保留字)時(shí)需要進(jìn)行編碼。當(dāng)url中帶有漢字時(shí),需要特殊的處理才能正確編碼,以下都只針對(duì)這種情形,當(dāng)然也適用于純英文字符的url。
(1) url編碼:
import urllib
url = 'wd=哈哈' ? #如果此網(wǎng)站編碼是gbk的話,需要進(jìn)行解碼,從gbk解碼成unicode,再?gòu)腢nicode編碼編碼為utf-8格式。
url = url.decode('gbk', 'replace')
print urllib.quote(url.encode('utf-8', 'replace'))
結(jié)果: 3a%2f%2ftest.com%2fs%3fwd%3d%e5%93%88%e5%93%88
(2) url解碼:
import urllib
encoded_url = est.com%2fs%3fwd%3d%e5%93%88%e5%93%88'
print urllib.unquote(encoded_url).decode('utf-8', 'replace').encode('gbk', 'replace') ?#反過(guò)來(lái)
函數(shù)調(diào)用的參數(shù)以及結(jié)果都是utf-8編碼的,所以在對(duì)url編碼時(shí),需要將參數(shù)串的編碼從原始編碼轉(zhuǎn)換成utf-8,
對(duì)url解碼時(shí),需要將解碼結(jié)果從utf-8轉(zhuǎn)換成原始編碼格式。
依據(jù)網(wǎng)站采用的編碼不同,或是gbk或是utf-8,賦賦予不同的編碼,進(jìn)行不同的url轉(zhuǎn)碼。GBK格式,一個(gè)中文字符轉(zhuǎn)為%xx%xx,共兩組;utf-8格式,一個(gè)中文字符轉(zhuǎn)為%xx%xx%xx,共三組。
import?sys,urllib?
s?=?'杭州'
urllib.quote(s.decode(sys.stdin.encoding).encode('gbk'))
%BA%BC%D6%DD
urllib.quote(s.decode(sys.stdin.encoding).encode('utf8'))
'%E6%9D%AD%E5%B7%9E'
[python]?view plain?copy
a?=?"墨西哥女孩被拐4年接客4萬(wàn)次?生的孩子成為人質(zhì)-搜狐新聞"
print?urllib.quote(urllib.quote(a))
進(jìn)行兩次編碼轉(zhuǎn)換后,會(huì)變?yōu)椋?25E5%25A2%25A8%25E8%25A5%25BF%25E5%2593%25A5%25E5%25A5%25B3%25E5%25AD%25A9%25E8%25A2%25AB%25E6%258B%25904%25E5%25B9.................................................................................這樣的形式。
同樣需要兩次解碼后才能得到中文。
最近用python寫(xiě)了個(gè)小爬蟲(chóng)自動(dòng)下點(diǎn)東西,但是url 是含中文的,而且中文似乎是 gbk 編碼然后轉(zhuǎn)成 url的。舉個(gè)例子吧,我如果有個(gè)unicode字符串“歷史上那些牛人們.pdf”,那么我轉(zhuǎn)換成url之后是,?
t="%20%E5%8E%86%E5%8F%B2%E4%B8%8A%E9%82%A3%E4%BA%9B%E7%89%9B%E4%BA%BA%E4%BB%AC.pdf",?
但是對(duì)方網(wǎng)站給的是 s="%C0%FA%CA%B7%C9%CF%C4%C7%D0%A9%C5%A3%C8%CB%C3%C7.PDF"
print urllib.unquote("%C0%FA%CA%B7%C9%CF%C4%C7%D0%A9%C5%A3%C8%CB%C3%C7.PDF").decode('gbk').encode('utf-8')
歷史上那些牛人們.PDF
首先我們可以先獲取要下載圖片的整個(gè)頁(yè)面信息。
getjpg.py
#coding=utf-8
import urllib
def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
return html
print html
Urllib 模塊提供了讀取web頁(yè)面數(shù)據(jù)的接口,我們可以像讀取本地文件一樣讀取www和ftp上的數(shù)據(jù)。首先,我們定義了一個(gè)getHtml()函數(shù):
urllib.urlopen()方法用于打開(kāi)一個(gè)URL地址。
read()方法用于讀取URL上的數(shù)據(jù),向getHtml()函數(shù)傳遞一個(gè)網(wǎng)址,并把整個(gè)頁(yè)面下載下來(lái)。執(zhí)行程序就會(huì)把整個(gè)網(wǎng)頁(yè)打印輸出。
Python中函數(shù)參數(shù)的傳遞是通過(guò)“賦值”來(lái)傳遞的,函數(shù)參數(shù)的接收傳遞有四種形式:
1. F(arg1,arg2,...)
2. F(arg2=,arg3=...)
3. F(*arg1)
4. F(**arg1)
第1
種方式是最“傳統(tǒng)”的方式:一個(gè)函數(shù)可以定義不限個(gè)數(shù)參數(shù),參數(shù)(形式參數(shù))放在跟在函數(shù)名后面的小括號(hào)中,各個(gè)參數(shù)之間以逗號(hào)隔開(kāi)。用這種方式定義的函數(shù)在調(diào)用的時(shí)候也必須在函數(shù)名后的小括號(hào)中提供相等個(gè)數(shù)的值(實(shí)際參數(shù)),不能多也不能少,而且順序還必須相同。也就是說(shuō)形參和實(shí)參的個(gè)數(shù)必須一致,而且想給形參1的值必須是實(shí)參中的第一位,形參與實(shí)參之間是一一對(duì)應(yīng)的關(guān)系,即“形參1=實(shí)參1
形參2=實(shí)參2...”。很明顯這是一種非常不靈活的形式。比如:"def addOn(x,y): return x +
y",這里定義的函數(shù)addOn,可以用addOn(1,2)的形式調(diào)用,意味著形參x將取值1,主將取值2。addOn(1,2,3)和addOn
(1)都是錯(cuò)誤的形式。
第2種方式比第1種方式好一點(diǎn),在定義的時(shí)候已經(jīng)給各個(gè)形參定義了默認(rèn)值。因此,在調(diào)用這種函數(shù)時(shí),如果沒(méi)有給對(duì)應(yīng)的形式參數(shù)傳遞實(shí)參,那么這個(gè)形參就將使用默認(rèn)值。比如:“def
addOn(x=3,y=5): return x +
y”,那么addOn(6,5)的調(diào)用形式表示形參x取值6,y取值5。此外,addOn(7)這個(gè)形式也是可以的,表示形參x取值7,y取默認(rèn)值5。這時(shí)候會(huì)出現(xiàn)一個(gè)問(wèn)題,如果想讓x取默認(rèn)值,用實(shí)參給y賦值怎么辦?前面兩種調(diào)用形式明顯就不行了,這時(shí)就要用到Python中函數(shù)調(diào)用方法的另一大絕招
──關(guān)健字賦值法??梢杂胊ddOn(y=6),這時(shí)表示x取默認(rèn)值3,而y取值6。這種方式通過(guò)指定形式參數(shù)可以實(shí)現(xiàn)可以對(duì)形式參數(shù)進(jìn)行“精確攻擊”,一個(gè)副帶的功能是可以不必遵守形式參數(shù)的前后順序,比如:addOn(y=4,x=6),這也是可以的。這種通過(guò)形式參數(shù)進(jìn)行定點(diǎn)賦值的方式對(duì)于用第1種方式定義的函數(shù)也是適用的。
上面兩種方式定義的形式參數(shù)的個(gè)數(shù)都是固定的,比如定義函數(shù)的時(shí)候如果定義了5個(gè)形參,那么在調(diào)用的時(shí)候最多也只能給它傳遞5個(gè)實(shí)參。但是在實(shí)際編程中并不能總是確定一個(gè)函數(shù)會(huì)有多少個(gè)參數(shù)。第3種方式就是用來(lái)應(yīng)對(duì)這種情況的。它以一個(gè)*加上形參名的方式表示,這個(gè)函數(shù)實(shí)際參數(shù)是不一定的,可以是零個(gè),也可以是N個(gè)。不管是多少個(gè),在函數(shù)內(nèi)部都被存放在以形參名為標(biāo)識(shí)符的tuple中。比如:
對(duì)這個(gè)函數(shù)的調(diào)用addOn() addOn(2) addOn(3,4,5,6)等等都是可以的。
與第3種方式類(lèi)似,形參名前面加了兩個(gè)*表示,參數(shù)在函數(shù)內(nèi)部將被存放在以形式名為標(biāo)識(shí)符的dictionary中。這時(shí)候調(diào)用函數(shù)必須采用key1=value1、key2=value2...的形式。比如:
1. def addOn(**arg):
2. sum = 0
3. if len(arg) == 0: return 0
4. else:
5. for x in arg.itervalues():
6. sum += x
7. return sum
那么對(duì)這個(gè)函數(shù)的調(diào)用可以用addOn()或諸如addOn(x=4,y=5,k=6)等的方式調(diào)用。
上面說(shuō)了四種函數(shù)形式定義的方式以及他們的調(diào)用方式,是分開(kāi)說(shuō)的,其實(shí)這四種方式可以組合在一起形成復(fù)雜多樣的形參定義形式。在定義或調(diào)用這種函數(shù)時(shí),要遵循以下規(guī)則:
1. arg=必須在arg后
2. *arg必須在arg=后
3. **arg必須在*arg后
在函數(shù)調(diào)用過(guò)程中,形參賦值的過(guò)程是這樣的:
首先按順序把“arg”這種形式的實(shí)參給對(duì)應(yīng)的形參
第二,把“arg=”這種形式的實(shí)參賦值給形式
第三,把多出來(lái)的“arg”這種形式的實(shí)參組成一個(gè)tuple給帶一個(gè)星號(hào)的形參
第四,把多出來(lái)的“key=value”這種形式的實(shí)參轉(zhuǎn)為一個(gè)dictionary給帶兩個(gè)星號(hào)的形參。
聽(tīng)起來(lái)好復(fù)雜,實(shí)際是是很簡(jiǎn)單的。很直觀,來(lái)看例子:
1. def test(x,y=5,*a,**b):
2. print x,y,a,b
就這么一個(gè)簡(jiǎn)單函數(shù),來(lái)看看下面對(duì)這個(gè)函數(shù)調(diào)用會(huì)產(chǎn)生什么結(jié)果:
test(1) === 1 5 () {}
test(1,2) === 1 2 () {}
test(1,2,3) === 1 2 (3,) {}
test(1,2,3,4) === 1 2 (3,4)
test(x=1) === 1 5 () {}
test(x=1,y=1) === 1 1 () {}
test(x=1,y=1,a=1) === 1 1 () {'a':1}
test(x=1,y=1,a=1,b=1) === 1 1 () {'a':1,'b':1}
test(1,y=1) === 1 1 () {}
test(1,2,y=1) === 出錯(cuò),說(shuō)y給賦了多個(gè)值
test(1,2,3,4,a=1) === 1 2 (3,4) {'a':1}
test(1,2,3,4,k=1,t=2,o=3) === 1 2 (3,4) {'k':1,'t':2,'o':3}
regex。用于篩選過(guò)濾url
view:用于指定特定的處理方法。就是你在view.py中定義方法
kwargs:可選參數(shù)
name:此條規(guī)則的別名。用于url 逆向查詢(xún)。
另外,建議樓主自己照著官方的tutorial完整練習(xí)一遍。會(huì)比在這里問(wèn),有收獲。
大數(shù)據(jù)
【python教程入門(mén)學(xué)習(xí)】用python制作url短鏈
?
夢(mèng)魘java
原創(chuàng)
關(guān)注
0點(diǎn)贊·595人閱讀
Hi,伙計(jì)們!今天這篇文章中我要向你展示我們?nèi)绾卫胮ython來(lái)使復(fù)雜的url變得苗條。首先明確一下,我們并不是自己做一個(gè)url縮址服務(wù),而是要利用tinyurl api(Tinyurl可以提供縮略網(wǎng)址服務(wù))。tinyurl沒(méi)有發(fā)布過(guò)任何官方的的python api,所以我們從此開(kāi)始:
第一步:
首先我們要進(jìn)行一些調(diào)用。我們需要調(diào)用七個(gè)庫(kù)來(lái)完成這項(xiàng)工作。
也許我們僅導(dǎo)入一個(gè)庫(kù)就可以完成這項(xiàng)工作,但是為了做一個(gè)更好的url縮址,最好還是導(dǎo)入七個(gè)。
第二步:
現(xiàn)在我們開(kāi)始用一種方法處理url縮址。請(qǐng)仔細(xì)看代碼,代碼很簡(jiǎn)單不言而喻。但我接下來(lái)還是會(huì)說(shuō)明一下。
你理解了嗎?我來(lái)給新手解釋一下。首先我們定義了一個(gè)make_tiny函數(shù),它可以把一個(gè)url作為輸入。然后我們開(kāi)始定義函數(shù)如何工作。url_code把一個(gè)url作為輸入然后將其編碼,也就是將其加密。然后我們將這個(gè)加密的url添加到tinyurl api的url尾部。我們打開(kāi)request_url,使用urlopen函數(shù)。最后我們將返回值轉(zhuǎn)化為utf-8,并閱讀它。為什么要轉(zhuǎn)化?因?yàn)閡rlopen函數(shù)返回的是比特流而不是字符串。所以為了打印或者修改,我們需要將其轉(zhuǎn)換成字符串。很簡(jiǎn)單對(duì)吧?
下一步是從用戶(hù)那里獲取輸入。我們使用sys庫(kù)。
第三步:
讓我們?yōu)槲覀兊拇a敲上main()函數(shù)。代碼如下:
我們要做什么?我們?cè)诶胹ys.argv來(lái)獲取用戶(hù)輸入。我們沒(méi)有限制自己只能輸入一個(gè)url,而是想輸入多少u(mài)rl就可以輸入多少,然后可以把它們都縮短。sys.argv[1:]做的是除最開(kāi)始兩個(gè)參數(shù)(從0開(kāi)始)外,將剩余的參數(shù)產(chǎn)生一個(gè)list。舉個(gè)例子,如果你這樣輸入:
然后sys.argv[1:]會(huì)跳過(guò)python 和.py,然后產(chǎn)生下面這個(gè)list:
等等!那這個(gè)map()函數(shù)在這里做什么呢?大多數(shù)新手會(huì)感到困惑,是因?yàn)樗麄兇蠖鄶?shù)從來(lái)沒(méi)使用過(guò)map。map()是一個(gè)循環(huán)list的簡(jiǎn)單方式,把其中內(nèi)容一個(gè)接一個(gè)傳遞給函數(shù)。上面的map()函數(shù)等價(jià)如下:
我希望上述代碼已經(jīng)解釋清楚了關(guān)于map()函數(shù)的任何疑惑。
第四步:
現(xiàn)在讓我們來(lái)包裝我們的代碼。剩下的唯一一件事就是:
把這個(gè)加到你代碼的末尾。這會(huì)告訴我們什么時(shí)候腳本會(huì)被獨(dú)立于shell執(zhí)行,什么時(shí)候會(huì)被另一個(gè)腳本調(diào)用。如果你想在其他項(xiàng)目中使用這個(gè)腳本,這樣做會(huì)非常方便。
最后,這是完整的代碼:
如果你已經(jīng)保存了這個(gè)腳本為url_shortener.py,你可以在shell中這樣運(yùn)行它:
如果你想保存這些tinyurls在txt文檔里,就執(zhí)行這行命令:
今天簡(jiǎn)單使用了一下python的re模塊和lxml模塊,分別利用的它們提供的正則表達(dá)式和xpath來(lái)解析頁(yè)面源碼從中提取所需的title,xpath在完成這樣的小任務(wù)上效率非常好,在這里之所以又使用了一下正則表達(dá)式是因?yàn)閤path在處理一些特殊的頁(yè)面的時(shí)候會(huì)出現(xiàn)亂碼的情況,當(dāng)然這不是xpath的原因,而是頁(yè)面本身編碼,跟utf-8轉(zhuǎn)碼之間有沖突所致,這里看代碼:
python抽取指定url頁(yè)面的title方法(python獲取當(dāng)前頁(yè)面的url) python 抽取 url title 腳本之家 第1張
# !/usr/bin/python
#-*-coding:utf-8-*-
'''
功能:抽取指定url的頁(yè)面內(nèi)容中的title
'''
import re
import chardet
import urllib
from lxml import etree
def utf8_transfer(strs):
'''
utf8編碼轉(zhuǎn)換
'''
try:
if isinstance(strs, unicode):
strs = strs.encode('utf-8')
elif chardet.detect(strs)['encoding'] == 'GB2312':
strs = strs.decode("gb2312", 'ignore').encode('utf-8')
elif chardet.detect(strs)['encoding'] == 'utf-8':
strs = strs.decode('utf-8', 'ignore').encode('utf-8')
except Exception, e:
print 'utf8_transfer error', strs, e
return strs
def get_title_xpath(Html):
'''
用xpath抽取網(wǎng)頁(yè)Title
'''
Html = utf8_transfer(Html)
Html_encoding = chardet.detect(Html)['encoding']
page = etree.HTML(Html, parser=etree.HTMLParser(encoding=Html_encoding