需要你的python安裝有requests模塊,如果沒有安裝可執(zhí)行如下命令安裝
讓客戶滿意是我們工作的目標,不斷超越客戶的期望值來自于我們對這個行業(yè)的熱愛。我們立志把好的技術(shù)通過有效、簡單的方式提供給客戶,將通過不懈努力成為客戶在信息化領(lǐng)域值得信任、有價值的長期合作伙伴,公司提供的服務(wù)項目有:域名與空間、網(wǎng)頁空間、營銷軟件、網(wǎng)站建設(shè)、石拐網(wǎng)站維護、網(wǎng)站推廣。pip3 install requests
以最近比較火的小說“魔道祖師”為例。
下面是整個腳本
import requests,re def get_content(url,timeout=10): req = requests.get(url=url,timeout=timeout) return req.text def get_title(html,re_title): ret = re_title.search(html) if ret: ret = ret.group() tmp = ret.split('_')[0] tmp = tmp.replace('','') tmp = tmp.strip() return tmp def get_body(html,ret_body): ret_body = re_body.search(html) if ret_body: ret = ret_body.group() tmp = re_clear_header.sub(r'\2',ret) tmp = tmp.replace(r' ',' ').replace(r'
','\n').replace(r'
','\n') tmp = tmp.replace(r'2k小說閱讀網(wǎng)','\n\n') return tmp if __name__ == '__main__': mdzs = open('mdzs.txt','w') re_title = re.compile(r'(.*?) ') re_body = re.compile(r'(.*?)
',re.S) re_clear_header = re.compile(r'(.*)(.*)',re.S) first_page = 19613532 for i in range(116): page = first_page + i url = r'https://www.2kxs.com/xiaoshuo/96/96717/{}.html'.format(page) try: html = get_content(url) title = get_title(html,re_title) mdzs.write(title + '\n\n') body = get_body(html,re_body) mdzs.write(body) print('{} is success'.format(url)) except Exception as e: print('url :{} , error: {}'.format(url,e))
該網(wǎng)站是小說網(wǎng)站,排版和網(wǎng)頁的url比較有規(guī)律性,所以實現(xiàn)起來比較簡單
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機、免備案服務(wù)器”等云主機租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。