url函數(shù)python web_url函數(shù)

url編碼問(wèn)題在python中怎么解決

最近在抓取一些js代碼產(chǎn)生的動(dòng)態(tài)數(shù)據(jù)，需要模擬js請(qǐng)求獲得所需用的數(shù)據(jù)，遇到對(duì)url進(jìn)行編碼和解碼的問(wèn)題，就把遇到的問(wèn)題總結(jié)一下，有總結(jié)才有進(jìn)步，才能使學(xué)到的知識(shí)更加清晰。對(duì)url進(jìn)行編碼和解碼，python提供了很方便的接口進(jìn)行調(diào)用。

創(chuàng)新互聯(lián)專(zhuān)注為客戶(hù)提供全方位的互聯(lián)網(wǎng)綜合服務(wù)，包含不限于網(wǎng)站建設(shè)、成都網(wǎng)站建設(shè)、江西網(wǎng)絡(luò)推廣、微信小程序、江西網(wǎng)絡(luò)營(yíng)銷(xiāo)、江西企業(yè)策劃、江西品牌公關(guān)、搜索引擎seo、人物專(zhuān)訪、企業(yè)宣傳片、企業(yè)代運(yùn)營(yíng)等，從售前售中售后，我們都將竭誠(chéng)為您服務(wù)，您的肯定，是我們最大的嘉獎(jiǎng)；創(chuàng)新互聯(lián)為所有大學(xué)生創(chuàng)業(yè)者提供江西建站搭建服務(wù)，24小時(shí)服務(wù)熱線：13518219792，官方網(wǎng)址：www.cdcxhl.com

url中的query帶有特殊字符（不是url的保留字）時(shí)需要進(jìn)行編碼。當(dāng)url中帶有漢字時(shí)，需要特殊的處理才能正確編碼，以下都只針對(duì)這種情形，當(dāng)然也適用于純英文字符的url。

(1) url編碼：

import urllib

url = 'wd=哈哈' ? #如果此網(wǎng)站編碼是gbk的話，需要進(jìn)行解碼，從gbk解碼成unicode，再?gòu)腢nicode編碼編碼為utf-8格式。

url = url.decode('gbk', 'replace')

print urllib.quote(url.encode('utf-8', 'replace'))

結(jié)果: 3a%2f%2ftest.com%2fs%3fwd%3d%e5%93%88%e5%93%88

(2) url解碼:

import urllib

encoded_url = est.com%2fs%3fwd%3d%e5%93%88%e5%93%88'

print urllib.unquote(encoded_url).decode('utf-8', 'replace').encode('gbk', 'replace') ?#反過(guò)來(lái)

函數(shù)調(diào)用的參數(shù)以及結(jié)果都是utf-8編碼的，所以在對(duì)url編碼時(shí)，需要將參數(shù)串的編碼從原始編碼轉(zhuǎn)換成utf-8，

對(duì)url解碼時(shí)，需要將解碼結(jié)果從utf-8轉(zhuǎn)換成原始編碼格式。

依據(jù)網(wǎng)站采用的編碼不同，或是gbk或是utf-8，賦賦予不同的編碼，進(jìn)行不同的url轉(zhuǎn)碼。GBK格式，一個(gè)中文字符轉(zhuǎn)為%xx%xx，共兩組；utf-8格式，一個(gè)中文字符轉(zhuǎn)為%xx%xx%xx，共三組。

import?sys,urllib?

s?=?'杭州'

urllib.quote(s.decode(sys.stdin.encoding).encode('gbk'))

%BA%BC%D6%DD

urllib.quote(s.decode(sys.stdin.encoding).encode('utf8'))

'%E6%9D%AD%E5%B7%9E'

[python]?view plain?copy

a?=?"墨西哥女孩被拐4年接客4萬(wàn)次?生的孩子成為人質(zhì)-搜狐新聞"

print?urllib.quote(urllib.quote(a))

進(jìn)行兩次編碼轉(zhuǎn)換后，會(huì)變?yōu)椋?25E5%25A2%25A8%25E8%25A5%25BF%25E5%2593%25A5%25E5%25A5%25B3%25E5%25AD%25A9%25E8%25A2%25AB%25E6%258B%25904%25E5%25B9.................................................................................這樣的形式。

同樣需要兩次解碼后才能得到中文。

最近用python寫(xiě)了個(gè)小爬蟲(chóng)自動(dòng)下點(diǎn)東西，但是url 是含中文的，而且中文似乎是 gbk 編碼然后轉(zhuǎn)成 url的。舉個(gè)例子吧，我如果有個(gè)unicode字符串“歷史上那些牛人們.pdf”，那么我轉(zhuǎn)換成url之后是，?

t="%20%E5%8E%86%E5%8F%B2%E4%B8%8A%E9%82%A3%E4%BA%9B%E7%89%9B%E4%BA%BA%E4%BB%AC.pdf"，?

但是對(duì)方網(wǎng)站給的是 s="%C0%FA%CA%B7%C9%CF%C4%C7%D0%A9%C5%A3%C8%CB%C3%C7.PDF"

print urllib.unquote("%C0%FA%CA%B7%C9%CF%C4%C7%D0%A9%C5%A3%C8%CB%C3%C7.PDF").decode('gbk').encode('utf-8')

歷史上那些牛人們.PDF

python爬蟲(chóng)怎么獲取到的網(wǎng)站的所有url

首先我們可以先獲取要下載圖片的整個(gè)頁(yè)面信息。

getjpg.py

#coding=utf-8

import urllib

def getHtml(url):

page = urllib.urlopen(url)

html = page.read()

return html

print html

Urllib 模塊提供了讀取web頁(yè)面數(shù)據(jù)的接口，我們可以像讀取本地文件一樣讀取www和ftp上的數(shù)據(jù)。首先，我們定義了一個(gè)getHtml()函數(shù):

urllib.urlopen()方法用于打開(kāi)一個(gè)URL地址。

read()方法用于讀取URL上的數(shù)據(jù)，向getHtml()函數(shù)傳遞一個(gè)網(wǎng)址，并把整個(gè)頁(yè)面下載下來(lái)。執(zhí)行程序就會(huì)把整個(gè)網(wǎng)頁(yè)打印輸出。

如何在python%的編碼URL參數(shù)

Python中函數(shù)參數(shù)的傳遞是通過(guò)“賦值”來(lái)傳遞的,函數(shù)參數(shù)的接收傳遞有四種形式：

1. F(arg1,arg2,...)

2. F(arg2=,arg3=...)

3. F(*arg1)

4. F(**arg1)

第1

種方式是最“傳統(tǒng)”的方式：一個(gè)函數(shù)可以定義不限個(gè)數(shù)參數(shù)，參數(shù)(形式參數(shù))放在跟在函數(shù)名后面的小括號(hào)中，各個(gè)參數(shù)之間以逗號(hào)隔開(kāi)。用這種方式定義的函數(shù)在調(diào)用的時(shí)候也必須在函數(shù)名后的小括號(hào)中提供相等個(gè)數(shù)的值(實(shí)際參數(shù))，不能多也不能少，而且順序還必須相同。也就是說(shuō)形參和實(shí)參的個(gè)數(shù)必須一致，而且想給形參1的值必須是實(shí)參中的第一位，形參與實(shí)參之間是一一對(duì)應(yīng)的關(guān)系，即“形參1=實(shí)參1

形參2=實(shí)參2...”。很明顯這是一種非常不靈活的形式。比如："def addOn(x,y): return x +

y"，這里定義的函數(shù)addOn，可以用addOn(1,2)的形式調(diào)用，意味著形參x將取值1,主將取值2。addOn(1,2,3)和addOn

(1)都是錯(cuò)誤的形式。

第2種方式比第1種方式好一點(diǎn)，在定義的時(shí)候已經(jīng)給各個(gè)形參定義了默認(rèn)值。因此，在調(diào)用這種函數(shù)時(shí)，如果沒(méi)有給對(duì)應(yīng)的形式參數(shù)傳遞實(shí)參，那么這個(gè)形參就將使用默認(rèn)值。比如：“def

addOn(x=3,y=5): return x +

y”，那么addOn(6,5)的調(diào)用形式表示形參x取值6，y取值5。此外，addOn(7)這個(gè)形式也是可以的，表示形參x取值7，y取默認(rèn)值5。這時(shí)候會(huì)出現(xiàn)一個(gè)問(wèn)題，如果想讓x取默認(rèn)值，用實(shí)參給y賦值怎么辦?前面兩種調(diào)用形式明顯就不行了，這時(shí)就要用到Python中函數(shù)調(diào)用方法的另一大絕招

──關(guān)健字賦值法?？梢杂胊ddOn(y=6)，這時(shí)表示x取默認(rèn)值3，而y取值6。這種方式通過(guò)指定形式參數(shù)可以實(shí)現(xiàn)可以對(duì)形式參數(shù)進(jìn)行“精確攻擊”，一個(gè)副帶的功能是可以不必遵守形式參數(shù)的前后順序，比如：addOn(y=4,x=6)，這也是可以的。這種通過(guò)形式參數(shù)進(jìn)行定點(diǎn)賦值的方式對(duì)于用第1種方式定義的函數(shù)也是適用的。

上面兩種方式定義的形式參數(shù)的個(gè)數(shù)都是固定的，比如定義函數(shù)的時(shí)候如果定義了5個(gè)形參，那么在調(diào)用的時(shí)候最多也只能給它傳遞5個(gè)實(shí)參。但是在實(shí)際編程中并不能總是確定一個(gè)函數(shù)會(huì)有多少個(gè)參數(shù)。第3種方式就是用來(lái)應(yīng)對(duì)這種情況的。它以一個(gè)*加上形參名的方式表示，這個(gè)函數(shù)實(shí)際參數(shù)是不一定的，可以是零個(gè)，也可以是N個(gè)。不管是多少個(gè)，在函數(shù)內(nèi)部都被存放在以形參名為標(biāo)識(shí)符的tuple中。比如：

對(duì)這個(gè)函數(shù)的調(diào)用addOn() addOn(2) addOn(3,4,5,6)等等都是可以的。

與第3種方式類(lèi)似，形參名前面加了兩個(gè)*表示，參數(shù)在函數(shù)內(nèi)部將被存放在以形式名為標(biāo)識(shí)符的dictionary中。這時(shí)候調(diào)用函數(shù)必須采用key1=value1、key2=value2...的形式。比如：

1. def addOn(**arg):

2. sum = 0

3. if len(arg) == 0: return 0

4. else:

5. for x in arg.itervalues():

6. sum += x

7. return sum

那么對(duì)這個(gè)函數(shù)的調(diào)用可以用addOn()或諸如addOn(x=4,y=5,k=6)等的方式調(diào)用。

上面說(shuō)了四種函數(shù)形式定義的方式以及他們的調(diào)用方式，是分開(kāi)說(shuō)的，其實(shí)這四種方式可以組合在一起形成復(fù)雜多樣的形參定義形式。在定義或調(diào)用這種函數(shù)時(shí)，要遵循以下規(guī)則：

1. arg=必須在arg后

2. *arg必須在arg=后

3. **arg必須在*arg后

在函數(shù)調(diào)用過(guò)程中，形參賦值的過(guò)程是這樣的：

首先按順序把“arg”這種形式的實(shí)參給對(duì)應(yīng)的形參

第二，把“arg=”這種形式的實(shí)參賦值給形式

第三，把多出來(lái)的“arg”這種形式的實(shí)參組成一個(gè)tuple給帶一個(gè)星號(hào)的形參

第四，把多出來(lái)的“key=value”這種形式的實(shí)參轉(zhuǎn)為一個(gè)dictionary給帶兩個(gè)星號(hào)的形參。

聽(tīng)起來(lái)好復(fù)雜，實(shí)際是是很簡(jiǎn)單的。很直觀，來(lái)看例子：

1. def test(x,y=5,*a,**b):

2. print x,y,a,b

就這么一個(gè)簡(jiǎn)單函數(shù)，來(lái)看看下面對(duì)這個(gè)函數(shù)調(diào)用會(huì)產(chǎn)生什么結(jié)果：

test(1) === 1 5 () {}

test(1,2) === 1 2 () {}

test(1,2,3) === 1 2 (3,) {}

test(1,2,3,4) === 1 2 (3,4)

test(x=1) === 1 5 () {}

test(x=1,y=1) === 1 1 () {}

test(x=1,y=1,a=1) === 1 1 () {'a':1}

test(x=1,y=1,a=1,b=1) === 1 1 () {'a':1,'b':1}

test(1,y=1) === 1 1 () {}

test(1,2,y=1) === 出錯(cuò)，說(shuō)y給賦了多個(gè)值

test(1,2,3,4,a=1) === 1 2 (3,4) {'a':1}

test(1,2,3,4,k=1,t=2,o=3) === 1 2 (3,4) {'k':1,'t':2,'o':3}

Python的urls的參數(shù)意義是什么？

regex。用于篩選過(guò)濾url

view：用于指定特定的處理方法。就是你在view.py中定義方法

kwargs:可選參數(shù)

name:此條規(guī)則的別名。用于url 逆向查詢(xún)。

另外，建議樓主自己照著官方的tutorial完整練習(xí)一遍。會(huì)比在這里問(wèn)，有收獲。

python怎么實(shí)現(xiàn)leturl=newurl

大數(shù)據(jù)

【python教程入門(mén)學(xué)習(xí)】用python制作url短鏈

夢(mèng)魘java

原創(chuàng)

關(guān)注

0點(diǎn)贊·595人閱讀

Hi，伙計(jì)們！今天這篇文章中我要向你展示我們?nèi)绾卫胮ython來(lái)使復(fù)雜的url變得苗條。首先明確一下，我們并不是自己做一個(gè)url縮址服務(wù)，而是要利用tinyurl api（Tinyurl可以提供縮略網(wǎng)址服務(wù)）。tinyurl沒(méi)有發(fā)布過(guò)任何官方的的python api，所以我們從此開(kāi)始：

第一步：

首先我們要進(jìn)行一些調(diào)用。我們需要調(diào)用七個(gè)庫(kù)來(lái)完成這項(xiàng)工作。

也許我們僅導(dǎo)入一個(gè)庫(kù)就可以完成這項(xiàng)工作，但是為了做一個(gè)更好的url縮址，最好還是導(dǎo)入七個(gè)。

第二步：

現(xiàn)在我們開(kāi)始用一種方法處理url縮址。請(qǐng)仔細(xì)看代碼，代碼很簡(jiǎn)單不言而喻。但我接下來(lái)還是會(huì)說(shuō)明一下。

你理解了嗎？我來(lái)給新手解釋一下。首先我們定義了一個(gè)make_tiny函數(shù)，它可以把一個(gè)url作為輸入。然后我們開(kāi)始定義函數(shù)如何工作。url_code把一個(gè)url作為輸入然后將其編碼，也就是將其加密。然后我們將這個(gè)加密的url添加到tinyurl api的url尾部。我們打開(kāi)request_url，使用urlopen函數(shù)。最后我們將返回值轉(zhuǎn)化為utf-8，并閱讀它。為什么要轉(zhuǎn)化？因?yàn)閡rlopen函數(shù)返回的是比特流而不是字符串。所以為了打印或者修改，我們需要將其轉(zhuǎn)換成字符串。很簡(jiǎn)單對(duì)吧？

下一步是從用戶(hù)那里獲取輸入。我們使用sys庫(kù)。

第三步：

讓我們?yōu)槲覀兊拇a敲上main()函數(shù)。代碼如下：

我們要做什么？我們?cè)诶胹ys.argv來(lái)獲取用戶(hù)輸入。我們沒(méi)有限制自己只能輸入一個(gè)url，而是想輸入多少u(mài)rl就可以輸入多少，然后可以把它們都縮短。sys.argv[1:]做的是除最開(kāi)始兩個(gè)參數(shù)（從0開(kāi)始）外，將剩余的參數(shù)產(chǎn)生一個(gè)list。舉個(gè)例子，如果你這樣輸入：

然后sys.argv[1:]會(huì)跳過(guò)python 和.py，然后產(chǎn)生下面這個(gè)list：

等等！那這個(gè)map()函數(shù)在這里做什么呢？大多數(shù)新手會(huì)感到困惑，是因?yàn)樗麄兇蠖鄶?shù)從來(lái)沒(méi)使用過(guò)map。map()是一個(gè)循環(huán)list的簡(jiǎn)單方式，把其中內(nèi)容一個(gè)接一個(gè)傳遞給函數(shù)。上面的map()函數(shù)等價(jià)如下：

我希望上述代碼已經(jīng)解釋清楚了關(guān)于map()函數(shù)的任何疑惑。

第四步：

現(xiàn)在讓我們來(lái)包裝我們的代碼。剩下的唯一一件事就是：

把這個(gè)加到你代碼的末尾。這會(huì)告訴我們什么時(shí)候腳本會(huì)被獨(dú)立于shell執(zhí)行，什么時(shí)候會(huì)被另一個(gè)腳本調(diào)用。如果你想在其他項(xiàng)目中使用這個(gè)腳本，這樣做會(huì)非常方便。

最后，這是完整的代碼：

如果你已經(jīng)保存了這個(gè)腳本為url_shortener.py，你可以在shell中這樣運(yùn)行它：

如果你想保存這些tinyurls在txt文檔里，就執(zhí)行這行命令：

python指定url

今天簡(jiǎn)單使用了一下python的re模塊和lxml模塊，分別利用的它們提供的正則表達(dá)式和xpath來(lái)解析頁(yè)面源碼從中提取所需的title，xpath在完成這樣的小任務(wù)上效率非常好，在這里之所以又使用了一下正則表達(dá)式是因?yàn)閤path在處理一些特殊的頁(yè)面的時(shí)候會(huì)出現(xiàn)亂碼的情況，當(dāng)然這不是xpath的原因，而是頁(yè)面本身編碼，跟utf-8轉(zhuǎn)碼之間有沖突所致，這里看代碼：

python抽取指定url頁(yè)面的title方法（python獲取當(dāng)前頁(yè)面的url） python 抽取 url title 腳本之家第1張

# !/usr/bin/python

#-*-coding:utf-8-*-

'''

功能：抽取指定url的頁(yè)面內(nèi)容中的title

'''

import re

import chardet

import urllib

from lxml import etree

def utf8_transfer(strs):

'''

utf8編碼轉(zhuǎn)換

'''

try:

if isinstance(strs, unicode):

strs = strs.encode('utf-8')

elif chardet.detect(strs)['encoding'] == 'GB2312':

strs = strs.decode("gb2312", 'ignore').encode('utf-8')

elif chardet.detect(strs)['encoding'] == 'utf-8':

strs = strs.decode('utf-8', 'ignore').encode('utf-8')

except Exception, e:

print 'utf8_transfer error', strs, e

return strs

def get_title_xpath(Html):

'''

用xpath抽取網(wǎng)頁(yè)Title

'''

Html = utf8_transfer(Html)

Html_encoding = chardet.detect(Html)['encoding']

page = etree.HTML(Html, parser=etree.HTMLParser(encoding=Html_encoding

網(wǎng)頁(yè)題目：url函數(shù)python web_url函數(shù)
本文地址：http://weahome.cn/article/hhghje.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

url函數(shù)python web_url函數(shù)

url編碼問(wèn)題在python中怎么解決

python爬蟲(chóng)怎么獲取到的網(wǎng)站的所有url

如何在python%的編碼URL參數(shù)

Python的urls的參數(shù)意義是什么？

python怎么實(shí)現(xiàn)leturl=newurl

python指定url

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

url函數(shù)python web_url函數(shù)

url編碼問(wèn)題在python中怎么解決

python爬蟲(chóng)怎么獲取到的網(wǎng)站的所有url

如何在python%的編碼URL參數(shù)

Python的urls的參數(shù)意義是什么？

python怎么實(shí)現(xiàn)leturl=newurl

python指定url

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管

Python的urls的參數(shù)意義是什么？