這篇文章主要介紹了python爬蟲urllib庫中parse模塊urlparse的使用方法,具有一定借鑒價(jià)值,感興趣的朋友可以參考下,希望大家閱讀完這篇文章之后大有收獲,下面讓小編帶著大家一起了解一下。
成都創(chuàng)新互聯(lián)是一家朝氣蓬勃的網(wǎng)站建設(shè)公司。公司專注于為企業(yè)提供信息化建設(shè)解決方案。從事網(wǎng)站開發(fā),網(wǎng)站制作,網(wǎng)站設(shè)計(jì),網(wǎng)站模板,微信公眾號開發(fā),軟件開發(fā),小程序設(shè)計(jì),十余年建站對成都房屋鑒定等多個(gè)方面,擁有豐富的網(wǎng)站建設(shè)經(jīng)驗(yàn)。
在python爬蟲urllib庫中,urllib.parse是url解析模塊,提供了很多解析和組建 URL 的方法,其中urlunparse() 方法通過長度為6的可迭代對象,組建URL。
一、urlparse() 方法
可以將 URL 解析成 ParseResult 對象,實(shí)現(xiàn)url的識別和分段。
標(biāo)準(zhǔn)鏈接格式為:scheme://netloc/path;params?query#fragment
二、urlparse將url拆分為六個(gè)部分
urlparse(url, scheme='', allow_fragments=True)
三、參數(shù)說明
urlstring:必填,待解析的url;
scheme:默認(rèn)的協(xié)議,如http,https。鏈接沒有協(xié)議信息時(shí)生效;
allow_fragments:是否忽略fragment,如果設(shè)置False,fragment部分會(huì)被忽略,解析為path、params或者query的一部分,而fragment部分為空。當(dāng)URL不包含params和query時(shí)候,fragment會(huì)被解析為path一部分;
四、拆分六個(gè)部分為:
1、協(xié)議(scheme)
2、域名(netloc)
3、路徑(path)
4、路徑參數(shù)(params)
5、查詢參數(shù)(query)
6、片段(fragment)
五、使用實(shí)例
from urllib.parse import urlparse # 該方法可以實(shí)現(xiàn)URL的識別和分段 result = urlparse('http://www.baidu.com/index.html;user?id=5#comment') # 這里我們利用urlparse()方法進(jìn)行了一個(gè)URL的解析。首先,輸出了解析結(jié)果的類型,然后將結(jié)果也輸出出來。 print(type(result), result)
輸出
E:\WebSpider\venv\Scripts\python.exe E:/WebSpider/3_1_3.pyParseResult(scheme='http', netloc='www.baidu.com', path=' /index.html', params='user', query='id=5', fragment='comment')
感謝你能夠認(rèn)真閱讀完這篇文章,希望小編分享的“python爬蟲urllib庫中parse模塊urlparse的使用方法”這篇文章對大家有幫助,同時(shí)也希望大家多多支持創(chuàng)新互聯(lián),關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,更多相關(guān)知識等著你來學(xué)習(xí)!