python編譯練習(xí),為了將自己學(xué)習(xí)過的知識用上,自己找了很多資料。所以想做一個(gè)簡單的爬蟲,代碼不會超過60行。主要用于爬取的古詩文網(wǎng)站沒有什么限制而且網(wǎng)頁排布很規(guī)律,沒有什么特別的東西,適合入門級別的爬蟲。
創(chuàng)新互聯(lián)建站成都網(wǎng)站建設(shè)按需策劃設(shè)計(jì),是成都網(wǎng)站維護(hù)公司,為柴油發(fā)電機(jī)提供網(wǎng)站建設(shè)服務(wù),有成熟的網(wǎng)站定制合作流程,提供網(wǎng)站定制設(shè)計(jì)服務(wù):原型圖制作、網(wǎng)站創(chuàng)意設(shè)計(jì)、前端HTML5制作、后臺程序開發(fā)等。成都網(wǎng)站設(shè)計(jì)熱線:13518219792
抓取目標(biāo)站點(diǎn)的準(zhǔn)備工作
Python的版本是:3.4.3.
爬取的目標(biāo)是: 古詩文網(wǎng)(www.xzslx.net)
隨意打開一個(gè)古詩文網(wǎng)的古詩頁面,查看它的網(wǎng)頁地址就能看到,古詩的地址基本是 “www.xzslx.net/shi/+ id + .html” 構(gòu)成,如下圖:
然后對古詩文網(wǎng)的古詩總覽頁面可以看到分頁符 最下方:
總共包括29830篇古詩文可以抓取,確定了”/shi/”后面數(shù)字的范圍。
html頁面解析庫:BeautifulSoup
安裝方式是: $pip3 install BeautifulSoup4
主要參考文獻(xiàn):《python網(wǎng)絡(luò)數(shù)據(jù)采集》第一、二章
代碼解析:
#!usr/bin/python3 # -*- coding:utf-8 -*- import re from urllib.request import urlopen from urllib.erroe import HTTPError from bs4 import BeautifulSoup def getPage(url) : try : html = urlopen(url) except HTTPError as e : return None try : bsObj = BeautifulSoup(html) except AttributeError as e : return None return bsObj def getUrl(pg) : return ''.join(('http://www.xzslx.net/shi/', str(pg),'.html')) f = open('./result.txt', 'wt') for pg in range(0, 49149) : html = getPage(getUrl(pg)) cont = (html.findAll('div', {'class' : 'son2'})) if cont != None and len(cont) > 1 : cont = cont[1].get_text() poem = cont[cont.find('原文:') + 4:] sentList = re.findall(r'(.*?[。???])', poem) for sentc in sentList : if '月' in sentc : print (sentc, '\t--- <', html.find('h2').get_text(), '>', file = f) print ('--- page', pg, ' dealed ---')
getPage(url)
函數(shù)的主要參考請看《python網(wǎng)絡(luò)數(shù)據(jù)采集》第9頁里面的代碼。采用try...catch...
防止采集的頁面是發(fā)生異常而導(dǎo)致爬蟲終止。
getUrl(pg)
函數(shù)主要是方便url的組成,了解join()函數(shù)是python的基礎(chǔ),很簡單不用細(xì)說。
open()
函數(shù)用于打開文檔,這里我打開一個(gè) result.txt 的文檔存放爬取的結(jié)果。
名為html的變量代表的是一個(gè)通過getPage()函數(shù)獲取的BeautifulSoup對象,觀察原頁面可發(fā)現(xiàn)詩歌內(nèi)容存放在一個(gè)屬性“class = ‘son2’”的div內(nèi),而且是html文檔中第二個(gè)這樣的標(biāo)簽(第一個(gè)這樣的標(biāo)簽是搜索框)。
使用 詩歌的單句以“。”, “!”, “?”結(jié)尾,故將詩句拆分成單句的正則表達(dá)式為 得到單句以后只需要判斷”月”字是否在詩句中即可,有則輸出到result.txt 中,沒有則判斷下一句。 最后的結(jié)果是:get_text()
函數(shù)獲取'(.*?[。?。縘)'
, “.*?” 表示python正則中的非貪婪模式,[]內(nèi)的內(nèi)容表示任選其一,()則是為了找到匹配結(jié)果并存放。print ('---page', pg, 'dealed---')
在命令行里輸出爬取的狀態(tài),方便目測爬取的進(jìn)度。
網(wǎng)頁標(biāo)題:Python網(wǎng)絡(luò)爬蟲:爬取古詩文中的某個(gè)制定詩句來實(shí)現(xiàn)搜索
路徑分享:http://weahome.cn/article/ghhdje.html