如何通過Python爬蟲實(shí)現(xiàn)文件下載-創(chuàng)新互聯(lián)

這篇文章給大家分享的是有關(guān)如何通過Python爬蟲實(shí)現(xiàn)文件下載的內(nèi)容。小編覺得挺實(shí)用的，因此分享給大家做個(gè)參考，一起跟隨小編過來看看吧。

為浦口等地區(qū)用戶提供了全套網(wǎng)頁設(shè)計(jì)制作服務(wù)，及浦口網(wǎng)站建設(shè)行業(yè)解決方案。主營業(yè)務(wù)為成都做網(wǎng)站、網(wǎng)站建設(shè)、浦口網(wǎng)站設(shè)計(jì)，以傳統(tǒng)方式定制建設(shè)網(wǎng)站，并提供域名空間備案等一條龍服務(wù)，秉承以專業(yè)、用心的態(tài)度為用戶提供真誠的服務(wù)。我們深信只要達(dá)到每一位用戶的要求，就會(huì)得到認(rèn)可，從而選擇與我們長期合作。這樣，我們也可以走得更遠(yuǎn)！

1、怎樣在網(wǎng)上找資源：

就是百度圖片為例，當(dāng)你如下圖在百度圖片里搜索一個(gè)主題時(shí)，會(huì)為你跳出一大堆相關(guān)的圖片。

還有如果你想學(xué)英語，找到一個(gè)網(wǎng)站有很多mp3的聽力資源，這些可能都是你想獲取的內(nèi)容。

現(xiàn)在是一個(gè)互聯(lián)網(wǎng)的時(shí)代，只要你去找，基本上能找到你想要的任何資源。

如何通過Python爬蟲實(shí)現(xiàn)文件下載

2、怎樣識(shí)別網(wǎng)頁中的資源：

以上面搜索到的百度圖片為例。找到了這么多的內(nèi)容，當(dāng)然你可以通過手動(dòng)一張張的去保存，但這樣做既費(fèi)力又費(fèi)事。你當(dāng)然更希望通過程序自動(dòng)去下載所找到的資源。要想代碼識(shí)別這些資源，就要告訴代碼這些資源有哪些特征，怎樣在網(wǎng)頁中找到它們。

打開瀏覽器的調(diào)試功能（不同瀏覽器可能有差別，不知道的百度一下吧）。找出網(wǎng)頁中你想要下載資源的路徑，如下圖所示。如果有許多類似資源需要下載，則要找到識(shí)別這些資源地址的規(guī)律，然后告訴代碼。

如何通過Python爬蟲實(shí)現(xiàn)文件下載

3、資源下載方法一：

代碼很簡(jiǎn)單，直接上代碼：

from urllib.request import urlretrieve

urlretrieve("圖片URL", "./image.jpg")

直接通過urlretrieve函數(shù)就把URL對(duì)應(yīng)的圖片給下載到當(dāng)前文件夾（./）中了，并把圖片命名為image.jpg。

4、資源下載方法二：

還是直接看代碼：

import requests

resource = requests.get("圖片URL")

with open("./image.jpg", mode="wb") as fh:

  fh.write(resource.content)

此下載方法要安裝python的requests庫。從功能上來說與下載方法一是一樣的。python庫的安裝方法用pip就好。很簡(jiǎn)單，這里都不啰嗦了。

5、資源下載方法三：

看代碼：

import requests

resource = requests.get("圖片URL", stream=True)

with open("./image.jpg", mode="wb") as fh:

  for chunk in resource.iter_content(chunk_size=100):

    fh.write(chunk)

此方法與下載方法二的不同之處在于在get方法調(diào)用時(shí)使用了參數(shù)【stream=True】。而在寫入的文件的時(shí)候是分塊寫入的。

什么意思呢：

前兩種方法是把一個(gè)文件全部下載到內(nèi)存后，再一起寫入到硬盤文件中。

方法三是下載一定的量（這里指的是100字節(jié)）后，就寫入到硬盤文件中，直到全部寫完。

第三種方法的好處是，如果在下載大容量文件時(shí)，不會(huì)造成內(nèi)存的過度使用。

6、資源下載說明一：

上述的代碼都是通過下載圖片資源為例子的，但所有其它資源，如文檔，電影等的下載方式是一樣的。關(guān)鍵是要正確的識(shí)別出網(wǎng)頁中資源所對(duì)應(yīng)的URL地址才能夠正確的下載（因?yàn)橛行┵Y源是用的相對(duì)路徑或加密后的路徑）。

7、資源下載說明二：

上面例子中的代碼都是下載單一資源的。如果要在同一網(wǎng)頁中下載多個(gè)資源的思路如下：

1. 找出要下載資源的URL，并形成一個(gè)資源集合；

2. 把下載函數(shù)中的資源URL與保存路徑參數(shù)化；

3. 遍歷資源集合，依靠循環(huán)調(diào)用下載函數(shù)來達(dá)到多個(gè)資源下載的目的。

感謝各位的閱讀！關(guān)于“如何通過Python爬蟲實(shí)現(xiàn)文件下載”這篇文章就分享到這里了，希望以上內(nèi)容可以對(duì)大家有一定的幫助，讓大家可以學(xué)到更多知識(shí)，如果覺得文章不錯(cuò)，可以把它分享出去讓更多的人看到吧！

名稱欄目：如何通過Python爬蟲實(shí)現(xiàn)文件下載-創(chuàng)新互聯(lián)
當(dāng)前URL：http://weahome.cn/article/cojcih.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

如何通過Python爬蟲實(shí)現(xiàn)文件下載-創(chuàng)新互聯(lián)

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管