真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

怎么在Python3使用正則表達(dá)式爬取數(shù)據(jù)-創(chuàng)新互聯(lián)

這篇文章給大家介紹怎么在Python3使用正則表達(dá)式爬取數(shù)據(jù),內(nèi)容非常詳細(xì),感興趣的小伙伴們可以參考借鑒,希望對(duì)大家能有所幫助。

做網(wǎng)站、網(wǎng)站建設(shè)介紹好的網(wǎng)站是理念、設(shè)計(jì)和技術(shù)的結(jié)合。成都創(chuàng)新互聯(lián)擁有的網(wǎng)站設(shè)計(jì)理念、多方位的設(shè)計(jì)風(fēng)格、經(jīng)驗(yàn)豐富的設(shè)計(jì)團(tuán)隊(duì)。提供PC端+手機(jī)端網(wǎng)站建設(shè),用營銷思維進(jìn)行網(wǎng)站設(shè)計(jì)、采用先進(jìn)技術(shù)開源代碼、注重用戶體驗(yàn)與SEO基礎(chǔ),將技術(shù)與創(chuàng)意整合到網(wǎng)站之中,以契合客戶的方式做到創(chuàng)意性的視覺化效果。

代碼如下:

# -*- coding:utf-8 -*-
from urllib import request as urllib2
import re
# 利用正則表達(dá)式爬取內(nèi)涵段子
url = r'http://www.neihanpa.com/article/list_5_{}.html'
headers = {
  'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:57.0) Gecko/20100101 Firefox/57.0',
}
file_name = '內(nèi)涵段子.txt'
for page in range(2):
# 2表示頁數(shù),可以自行調(diào)整
  fullurl = url.format(str(page+1))
  request = urllib2.Request(url=fullurl, headers=headers)
  response = urllib2.urlopen(request)
  html = response.read().decode('gbk')
  # re.S 如果沒有re.S 則是只匹配一行有沒有符合規(guī)則的字符串,如果沒有則下一行重新匹配
  # 如果加上re.S 則是將所有的字符串作為一個(gè)整體進(jìn)行匹配
  pattern = re.compile(r'(.*?)
',re.S)   duanzis = pattern.findall(html)   for duanzi in duanzis:     duanzi = duanzi.replace('

','').replace('

','').replace('','\n').replace('“','').replace('&rdquo','').replace('…','')     try:       # 將爬取的段子寫入文件       file = open(file_name,'a',encoding='utf-8')       file.write('\n'.join(duanzi.split()))       file.close()     except OSError as e:       print(e)

關(guān)于怎么在Python3使用正則表達(dá)式爬取數(shù)據(jù)就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,可以學(xué)到更多知識(shí)。如果覺得文章不錯(cuò),可以把它分享出去讓更多的人看到。


文章題目:怎么在Python3使用正則表達(dá)式爬取數(shù)據(jù)-創(chuàng)新互聯(lián)
本文路徑:http://weahome.cn/article/dpcdhe.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部