對于爬蟲,很多伙伴首選的可能就是Python了吧,我們在學(xué)習(xí)Python爬蟲的時候得有側(cè)重點,這篇文章教大家如何快速掌握 Python爬蟲的核心!有不清楚的地方,可以留言!
創(chuàng)新互聯(lián)專注為客戶提供全方位的互聯(lián)網(wǎng)綜合服務(wù),包含不限于成都網(wǎng)站設(shè)計、成都網(wǎng)站建設(shè)、饒平網(wǎng)絡(luò)推廣、微信小程序、饒平網(wǎng)絡(luò)營銷、饒平企業(yè)策劃、饒平品牌公關(guān)、搜索引擎seo、人物專訪、企業(yè)宣傳片、企業(yè)代運營等,從售前售中售后,我們都將竭誠為您服務(wù),您的肯定,是我們最大的嘉獎;創(chuàng)新互聯(lián)為所有大學(xué)生創(chuàng)業(yè)者提供饒平建站搭建服務(wù),24小時服務(wù)熱線:18982081108,官方網(wǎng)址:www.cdcxhl.com
本文主要實現(xiàn)一個簡單的爬蟲,目的是從一個百度貼吧頁面下載圖片。下載圖片的步驟如下:
(1)獲取網(wǎng)頁html文本內(nèi)容;
(2)分析html中圖片的html標簽特征,用正則解析出所有的圖片url鏈接列表;
(3)根據(jù)圖片的url鏈接列表將圖片下載到本地文件夾中。
#!/usr/bin/python # coding:utf-8 # 實現(xiàn)一個簡單的爬蟲,爬取百度貼吧圖片 import urllib import re # 根據(jù)url獲取網(wǎng)頁html內(nèi)容 def getHtmlContent(url): page = urllib.urlopen(url) return page.read() # 從html中解析出所有jpg圖片的url # 百度貼吧html中jpg圖片的url格式為: def getJPGs(html): # 解析jpg圖片url的正則 jpgReg = re.compile(r'運行上面腳本,過幾秒種之后完成下載,可以在當前目錄下看到圖片已經(jīng)下載好了:
3. requests + re實現(xiàn)
下面用requests庫實現(xiàn)下載,把getHtmlContent和downloadJPG函數(shù)都用requests重新實現(xiàn)。
#!/usr/bin/python # coding:utf-8 # 實現(xiàn)一個簡單的爬蟲,爬取百度貼吧圖片 import requests import re # 根據(jù)url獲取網(wǎng)頁html內(nèi)容 def getHtmlContent(url): page = requests.get(url): return page.text # 從html中解析出所有jpg圖片的url # 百度貼吧html中jpg圖片的url格式為: def getJPGs(html): # 解析jpg圖片url的正則 jpgReg = re.compile(r'輸出:和前面一樣。
希望這次簡單的python爬蟲小案例能幫到初入 Python爬蟲的你!
關(guān)注并回復(fù)Python爬蟲,可領(lǐng)取全套Python爬蟲視頻教程,或者私信我也可以哦!
分享名稱:Python爬蟲:如何快速掌握Python爬蟲核心技術(shù),批量爬取網(wǎng)絡(luò)圖片
文章網(wǎng)址:http://weahome.cn/article/gpoddj.html