真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

爬蟲urllib庫的使用方法-創(chuàng)新互聯(lián)

創(chuàng)新互聯(lián)www.cdcxhl.cn八線動(dòng)態(tài)BGP香港云服務(wù)器提供商,新人活動(dòng)買多久送多久,劃算不套路!

成都創(chuàng)新互聯(lián)公司是專業(yè)的曹縣網(wǎng)站建設(shè)公司,曹縣接單;提供網(wǎng)站設(shè)計(jì)制作、做網(wǎng)站,網(wǎng)頁設(shè)計(jì),網(wǎng)站設(shè)計(jì),建網(wǎng)站,PHP網(wǎng)站建設(shè)等專業(yè)做網(wǎng)站服務(wù);采用PHP框架,可快速的進(jìn)行曹縣網(wǎng)站開發(fā)網(wǎng)頁制作和功能擴(kuò)展;專業(yè)做搜索引擎喜愛的網(wǎng)站,專業(yè)的做網(wǎng)站團(tuán)隊(duì),希望更多企業(yè)前來合作!

這篇文章給大家分享的是有關(guān)爬蟲urllib庫的使用方法的內(nèi)容。小編覺得挺實(shí)用的,因此分享給大家做個(gè)參考。一起跟隨小編過來看看吧。

URL(Uniform Resource Locator)對(duì)象代表統(tǒng)一資源定位器,它是指向互聯(lián)網(wǎng)“資源”的指針。資源可以是簡單的文件或目錄,也可以是對(duì)復(fù)雜對(duì)象的引用,例如對(duì)數(shù)據(jù)庫或搜索引擎的查詢。在通常情況下,URL 可以由協(xié)議名、主機(jī)、端口和資源路徑組成,即滿足如下格式:

protocol://host:port/path

例如如下的 URL 地址:

http://www.crazyit.org/index.php

urllib 模塊則包含了多個(gè)用于處理 URL 的子模塊:

urllib.request:這是最核心的子模塊,它包含了打開和讀取 URL 的各種函數(shù)。
urllib.error:主要包含由 urllib.request 子模塊所引發(fā)的各種異常。
urllib.parse:用于解析 URL。
urllib.robotparser:主要用于解析 robots.txt 文件。

通過使用 urllib 模塊可以打開任意 URL 所指向的資源,就像打開本地文件一樣,這樣程序就能完整地下載遠(yuǎn)程頁面。如果再與 re 模塊結(jié)合使用,那么程序完全可以提取頁面中各種信息,這就是所謂的“網(wǎng)絡(luò)爬蟲”的初步原理。

下面先介紹 urllib.parse 子模塊中用于解析 URL 地址和查詢字符串的函數(shù):

urllib.parse.urlparse(urlstring, scheme='', allow_fragments=True):該函數(shù)用于解析 URL 字符串。程序返回一個(gè) ParseResult 對(duì)象,可以獲取解析出來的數(shù)據(jù)。

urllib.parse.urlunparse(parts):該函數(shù)是上一個(gè)函數(shù)的反向操作,用于將解析結(jié)果反向拼接成 URL 地址。

urllib.parse.parse_qs(qs, keep_blank_values=False, strict_parsing=False, encoding='utf-8', errors='replace'):該該函數(shù)用于解析查詢字符串(application/x-www-form-urlencoded 類型的數(shù)據(jù)),并以 dict 形式返回解析結(jié)果。

urllib.parse.parse_qsl(qs, keep_blank_values=False, strict_parsing=False, encoding='utf-8', errors='replace'):該函數(shù)用于解析查詢字符串(application/x-www-form-urlencoded 類型的數(shù)據(jù)),并以列表形式返回解析結(jié)果。

urllib.parse.urlencode(query, doseq=False, safe='', encoding=None, errors=None, quote_via=quote_plus):將字典形式或列表形式的請(qǐng)求參數(shù)恢復(fù)成請(qǐng)求字符串。該函數(shù)相當(dāng)于 parse_qs()、parse_qsl() 的逆函數(shù)。

urllib.parse.urljoin(base, url, allow_fragments=True):該函數(shù)用于將一個(gè) base_URL 和另一個(gè)資源 URL 連接成代表絕對(duì)地址的 URL。

例如,如下程序使用 urlparse() 函數(shù)來解析 URL 字符串:

from urllib.parse import *

# 解析URL字符串
result = urlparse('http://www.crazyit.org:80/index.php;yeeku?name=fkit#frag')
print(result)
# 通過屬性名和索引來獲取URL的各部分
print('scheme:', result.scheme, result[0])
print('主機(jī)和端口:', result.netloc, result[1])
print('主機(jī):', result.hostname)
print('端口:', result.port)
print('資源路徑:', result.path, result[2])
print('參數(shù):', result.params, result[3])
print('查詢字符串:', result.query, result[4])
print('fragment:', result.fragment, result[5])
print(result.geturl())

上面程序中使用 urlparse() 函數(shù)解析 URL 字符串,解析結(jié)果是一個(gè) ParseResult 對(duì)象,該對(duì)象實(shí)際上是 tuple 的子類。因此,程序既可通過屬性名來獲取 URL 的各部分,也可通過索引來獲取 URL 的各部分。

感謝各位的閱讀!關(guān)于爬蟲urllib庫的使用方法就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,讓大家可以學(xué)到更多知識(shí)。如果覺得文章不錯(cuò),可以把它分享出去讓更多的人看到吧!


當(dāng)前文章:爬蟲urllib庫的使用方法-創(chuàng)新互聯(lián)
文章起源:http://weahome.cn/article/hhpse.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部