python爬蟲技術(shù)指的是什么?這個問題可能是我們?nèi)粘W(xué)習(xí)或工作經(jīng)常見到的。希望通過這個問題能讓你收獲頗深。下面是小編給大家?guī)淼膮⒖純?nèi)容,讓我們一起來看看吧!
10年積累的成都網(wǎng)站建設(shè)、成都網(wǎng)站設(shè)計經(jīng)驗,可以快速應(yīng)對客戶對網(wǎng)站的新想法和需求。提供各種問題對應(yīng)的解決方案。讓選擇我們的客戶得到更好、更有力的網(wǎng)絡(luò)服務(wù)。我雖然不認識你,你也不認識我。但先網(wǎng)站設(shè)計后付款的網(wǎng)站建設(shè)流程,更有樊城免費網(wǎng)站建設(shè)讓你可以放心的選擇與我們合作。
相信很多小伙伴剛接觸網(wǎng)絡(luò)爬蟲這個詞語,腦海中一點概念也沒有,其實從字面上我們稍微能夠揣摩到一點,這需要去“接觸”內(nèi)容,由此,那就可以展開本章話題。
首先將網(wǎng)絡(luò)爬蟲技術(shù)分解成四個部分:
1、獲取網(wǎng)頁數(shù)據(jù)
2、解析網(wǎng)頁數(shù)據(jù)
3、存儲網(wǎng)頁數(shù)據(jù)
4、分析網(wǎng)頁數(shù)據(jù)
步驟一、獲取網(wǎng)頁數(shù)據(jù)
在python程序里面,可以通過獲取網(wǎng)頁中的源代碼實現(xiàn),進而獲得網(wǎng)頁中的數(shù)據(jù)。
查看網(wǎng)址的源代碼查看方法:
使用google瀏覽器,右鍵選擇檢查,查看需要爬取的網(wǎng)址源代碼。
具體如下:
根據(jù)下圖可得知,在Network選項卡里面,點擊第三個條目,也就是http://www.baidu.com,看到源代碼。
在本圖中,第一部分是General,包括了網(wǎng)址的基本信息,比如狀態(tài) 200等,第二部分是Response Headers,包括了請求的應(yīng)答信息,還有body部分,比如Set-Cookie,Server等。第三部分是Request headers,包含了服務(wù)器使用的附加信息,比如Cookie,User-Agent等內(nèi)容。
上面的網(wǎng)頁源代碼,在python語言中,我們只需要使用urllib、requests等庫實現(xiàn)即可,具體如下。這里特別說明一些,requests比urllib更加方便、快捷。一旦學(xué)會requests庫,肯定會愛不釋手。
import urllib.request import socket from urllib import error try: response = urllib.request.urlopen('https://www.python.org') print(response.status) print(response.read().decode('utf-8')) except error.HTTPError as e: print(e.reason,e.code,e.headers,sep='\n') except error.URLError as e: print(e.reason) else: print('Request Successfully')
步驟二、解析網(wǎng)頁數(shù)據(jù)
上述我們獲得了網(wǎng)頁的源代碼,也就是數(shù)據(jù)。然后就是解析里面的數(shù)據(jù),為我們的分析使用。常見的方法有很多,比如正則表達式、xpath解析等。
在Python語言中,我們經(jīng)常使用Beautiful Soup、pyquery、lxml等庫,可以高效的從中獲取網(wǎng)頁信息,如節(jié)點的屬性、文本值等。
Beautiful Soup庫是解析、遍歷、維護“標簽樹”的功能庫,對應(yīng)一個HTML/XML文檔的全部內(nèi)容。安裝方法非常簡單,如下:
#安裝方法 pips install beautifulsoup4 #驗證方法 from bs4 import BeautifulSoup
步驟三、存儲網(wǎng)頁數(shù)據(jù)
解析完數(shù)據(jù)以后,就可以保存起來。如果不是很多,可以考慮保存在txt 文本、csv文本或者json文本等,如果爬取的數(shù)據(jù)條數(shù)較多,我們可以考慮將其存儲到數(shù)據(jù)庫中。因此,我們需要學(xué)會 MySQL、MongoDB、SqlLite的用法。更加深入的,可以學(xué)習(xí)數(shù)據(jù)庫的查詢優(yōu)化。
JSON(JavaScript Object Notation) 是一種輕量級的數(shù)據(jù)交換格式。它基于ECMAScript的一個子集。 JSON采用完全獨立于語言的文本格式,但是也使用了類似于C語言家族的習(xí)慣(包括C、C++、Java、JavaScript、Perl、Python等)。這些特性使JSON成為理想的數(shù)據(jù)交換語言。易于人閱讀和編寫,同時也易于機器解析和生成(一般用于提升網(wǎng)絡(luò)傳輸速率)。
具體使用方法:
with open('douban_movie_250.csv','a',encoding='utf-8') as f: f.write(json.dumps(content,ensure_ascii=False)+'\n')
步驟四、分析網(wǎng)頁數(shù)據(jù)
爬蟲的目的是分析網(wǎng)頁數(shù)據(jù),進的得到我們想要的結(jié)論。在 python數(shù)據(jù)分析中,我們可以使用使用第三步保存的數(shù)據(jù)直接分析,主要使用的庫如下:NumPy、Pandas、 Matplotlib 三個庫。
NumPy :它是高性能科學(xué)計算和數(shù)據(jù)分析的基礎(chǔ)包。 Pandas : 基于 NumPy 的一種工具,該工具是為了解決數(shù)據(jù)分析任務(wù)而創(chuàng)建的。它可以算得上作弊工具。 Matplotlib:Python中最著名的繪圖系統(tǒng)Python中最著名的繪圖系統(tǒng)。它可以制作出散點圖,折線圖,條形圖,直方圖,餅狀圖,箱形圖散點圖,折線圖,條形圖,直方圖,餅狀圖,箱形圖等。
感謝各位的閱讀!看完上述內(nèi)容,你們對python爬蟲技術(shù)指的是什么大概了解了嗎?希望文章內(nèi)容對大家有所幫助。如果想了解更多相關(guān)文章內(nèi)容,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。