真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

Python中如何獲取高考志愿信息-創(chuàng)新互聯(lián)

這篇文章給大家分享的是有關(guān)Python中如何獲取高考志愿信息的內(nèi)容。小編覺得挺實用的,因此分享給大家做個參考,一起跟隨小編過來看看吧。

創(chuàng)新互聯(lián)公司是一家專業(yè)提供新區(qū)企業(yè)網(wǎng)站建設(shè),專注與成都網(wǎng)站制作、成都做網(wǎng)站、成都h5網(wǎng)站建設(shè)、小程序制作等業(yè)務(wù)。10年已為新區(qū)眾多企業(yè)、政府機構(gòu)等服務(wù)。創(chuàng)新互聯(lián)專業(yè)網(wǎng)絡(luò)公司優(yōu)惠進行中。

準(zhǔn)備工作

首先明確一下任務(wù)。首先我們要從網(wǎng)址表格中讀取到一大串網(wǎng)址,然后訪問每個網(wǎng)址,獲取到頁面上的學(xué)校信息,然后將它們在寫到另一個Excel中。顯然,我們需要一個爬蟲庫和一個Excel庫來幫助我們完成任務(wù)。

第一步自然是安裝它們,requests-html是一個非常好用的HTML解析庫,拿來做簡單的爬蟲非常優(yōu)雅;而openpyxl是一個Excel表格庫,可以輕松創(chuàng)建和處理Excel數(shù)據(jù)。

pip install requests-html openpyxl

然后就是網(wǎng)址表格,大概長這樣,總共大概一千七百多條數(shù)據(jù)。其中有少量網(wǎng)址是錯誤的,訪問會得到404錯誤,所以在編寫代碼的時候還要注意錯誤處理。

Python中如何獲取高考志愿信息

任務(wù)分析

任務(wù)的核心自然就是分析和獲取網(wǎng)頁內(nèi)容了。首先現(xiàn)在瀏覽器里面打開一個網(wǎng)址,看看網(wǎng)頁上的內(nèi)容是什么。

Python中如何獲取高考志愿信息

可以看到這個網(wǎng)頁格式很亂,學(xué)校名字什么的都是混在一起的,一點也不規(guī)整,這給我們提取數(shù)據(jù)造成了不少的麻煩。不過仔細(xì)分析之后,其實問題也并不難。

首先要提取的是學(xué)校名字,可以看到學(xué)校名字和其他文字混在一起,例如"本科一批普通文科627集美大學(xué)報考情況"。本來我準(zhǔn)備用正則表達式提取,然后發(fā)現(xiàn)用正則表達式好像很難。之后我多訪問了幾個網(wǎng)頁,發(fā)現(xiàn)學(xué)校代碼基本上都是數(shù)字,如果有字母的話也出現(xiàn)到第一位,所以我采用了以下的算法,首先將字符串從數(shù)字處分隔,右邊的一個部分就包含了學(xué)校名字和“報考情況”幾個字,然后刪除“報考情況”即可得到學(xué)校名字。這個算法唯一的缺點就是,假如出現(xiàn)了字母在中間的代號,就沒辦法獲取到學(xué)校名字了,不過實際運行之后,我幸運的發(fā)現(xiàn)并沒有出現(xiàn)這種情況。

之后要提取的就是專業(yè)信息了,在網(wǎng)頁源代碼中這部分使用tr和td標(biāo)簽來呈現(xiàn)的。一開始我用的是tr加上選擇器來提取,但是這個網(wǎng)頁生成的時候很有問題,每個tr標(biāo)簽的樣式居然還根據(jù)內(nèi)容的多少而不同,導(dǎo)致我寫死的選擇器沒法完美獲取所有行。不過后來我發(fā)現(xiàn)整個網(wǎng)頁內(nèi)容都是一個表格, 除去表頭和結(jié)尾的幾個固定行之外,剩下的恰好就是要提取的數(shù)據(jù)行,所以直接獲取tr標(biāo)簽,然后切片除去收尾即可。

Python中如何獲取高考志愿信息

網(wǎng)頁基本上分析完了,下面就是編寫代碼了。

編寫代碼

總共50行左右代碼,我添加了注釋,相信大家應(yīng)該很容易就可以看懂。

第一部分代碼是從網(wǎng)址表格讀取所有url,一開始編寫的時候,表格里的url是從另一個公式生成的,所以需要在加載的時候添加data_only=True才能讀取到公式的結(jié)果,否則只能讀取到公式本身。

第二部分是創(chuàng)建輸出文件,然后編寫表頭。順帶為了調(diào)試方便,我讓它如果檢測到已經(jīng)存在目標(biāo)文件的話就刪掉,在建立一個新的。

第三部分就是代碼的核心了。Python代碼看著可能有點奇怪,不過對照上面的分析,我想大家應(yīng)該很容易看懂。需要注意保存文件在最后,假如半路代碼出現(xiàn)異常,整個就白干了,而一千七百多條網(wǎng)址不可能保證都正常運行。由于輸出格式是“學(xué)校名+專業(yè)信息”這樣的格式,所以我獲取學(xué)校名之后,還要將學(xué)校插入到每行專業(yè)信息之前。所以我這里索性直接用try-except包起來,如果出錯的話只打印一下出錯的網(wǎng)址。

import os 
from requests_html import HTMLSession 
from openpyxl import Workbook, load_workbook 
# 從網(wǎng)址表格獲取urls 
def get_urls(): 
 input_file = 'source.xlsx' 
 wb = load_workbook(input_file, data_only=True) 
 ws = wb.active 
 urls = [row[0] for row in ws.values] 
 wb.close() 
 return urls 
# 輸出Excel文件,如果已存在則刪除已有的 
out_file = 'data.xlsx' 
if os.path.exists(out_file): 
 os.remove(out_file) 
wb = Workbook() 
ws = wb.active 
# 編寫第一行表頭 
ws['a1'] = '學(xué)校' 
ws['b1'] = '專業(yè)代號' 
ws['c1'] = '專業(yè)名稱' 
ws['d1'] = '計劃數(shù)' 
ws['e1'] = '預(yù)計1:1錄取最低分(投檔分)' 
ws['f1'] = '按院校投檔比例投檔線上已報人數(shù)' 
ws['g1'] = '學(xué)費' 
ws['h2'] = '辦學(xué)地點' 
ws['i1'] = '專業(yè)備注' 
# 發(fā)起網(wǎng)絡(luò)請求,解析網(wǎng)頁信息,并寫入文件 
session = HTMLSession() 
urls = get_urls() 
for url in urls: 
 import re 
 page = session.get(url) 
 page.html.encoding = 'gb2312' 
 try: 
 college_info = page.html.xpath('//td[@class="report1_1_1"]/text()', first=True) 
 college = re.split('\d+', college_info)[1].replace('報考情況', '') 
 rows = page.html.xpath('//tr')[3:-2] 
 for r in rows: 
 info = [x.text for x in r.xpath('//td')] 
 info.insert(0, college) 
 ws.append(info) 
 print(info) 
 except: 
 print(url) 
 
# 保存文件 
wb.save(out_file)

運行結(jié)果

好了,費了大半天的勁,代碼終于完成了。讓我們運行一下看看結(jié)果。整個代碼大概需要運行7-8分鐘,最后完成之后得到了一個500多k的Excel文件。

Python中如何獲取高考志愿信息

打開之后,可以發(fā)現(xiàn)Excel文件填的滿滿的,最后總共獲取到了大約一萬多條數(shù)據(jù),任務(wù)圓滿完成。

Python中如何獲取高考志愿信息

python的五大特點是什么

python的五大特點:1.簡單易學(xué),開發(fā)程序時,專注的是解決問題,而不是搞明白語言本身。2.面向?qū)ο螅c其他主要的語言如C++和Java相比, Python以一種非常強大又簡單的方式實現(xiàn)面向?qū)ο缶幊獭?.可移植性,Python程序無需修改就可以在各種平臺上運行。4.解釋性,Python語言寫的程序不需要編譯成二進制代碼,可以直接從源代碼運行程序。5.開源,Python是 FLOSS(自由/開放源碼軟件)之一。

感謝各位的閱讀!關(guān)于“Python中如何獲取高考志愿信息”這篇文章就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,讓大家可以學(xué)到更多知識,如果覺得文章不錯,可以把它分享出去讓更多的人看到吧!

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機、免備案服務(wù)器”等云主機租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。


本文名稱:Python中如何獲取高考志愿信息-創(chuàng)新互聯(lián)
當(dāng)前網(wǎng)址:http://weahome.cn/article/ccigjg.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部