python3之?dāng)?shù)據(jù)存儲txt的示例分析-創(chuàng)新互聯(lián)

這篇文章將為大家詳細(xì)講解有關(guān)python3之?dāng)?shù)據(jù)存儲txt的示例分析，小編覺得挺實用的，因此分享給大家做個參考，希望大家閱讀完這篇文章后可以有所收獲。

主要從事網(wǎng)頁設(shè)計、PC網(wǎng)站建設(shè)（電腦版網(wǎng)站建設(shè)）、wap網(wǎng)站建設(shè)（手機(jī)版網(wǎng)站建設(shè)）、成都響應(yīng)式網(wǎng)站建設(shè)公司、程序開發(fā)、微網(wǎng)站、微信小程序定制開發(fā)等，憑借多年來在互聯(lián)網(wǎng)的打拼，我們在互聯(lián)網(wǎng)網(wǎng)站建設(shè)行業(yè)積累了豐富的網(wǎng)站設(shè)計、成都網(wǎng)站建設(shè)、網(wǎng)絡(luò)營銷經(jīng)驗，集策劃、開發(fā)、設(shè)計、營銷、管理等多方位專業(yè)化運作于一體，具備承接不同規(guī)模與類型的建設(shè)項目的能力。

示例：

import requests
import re
 
headers = {
 "user-agent" : "Mozilla/5.0 (Windows NT 6.1; Win64; x64)"
   " AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari"
   "/537.36M",
 "cookie" : '_xsrf=H6hRg3qQ9I1O8jRZOmf4ytecfaKdf2es; _zap=296584df-ce11-4059-bc93-be10eda0fdc1; d_c0="AKBmB5e-PA-PTkZTAD1nQun0qMf_hmcEH14=|1554554531"; '
  'capsion_ticket="2|1:0|10:1554554531|14:capsion_ticket|44:Yjc0NjAzNDViMTIzNDcyZDg2YTZjYTk0YWM3OGUzZDg=|2d7f136328b50cdeaa85e2605e0be2bb931d406babd396373d15d5f8a6c'
  '92a61"; l_n_c=1; q_c1=ad0738b5ee294fc3bd35e1ccb9e62a11|1554554551000|1554554551000; n_c=1; __gads=ID=9a31896e052116c4:T=1554555023:S=ALNI_Mb-I0et9W'
  'vgfQcvMUyll7Byc0XpWA; tgw_l7_route=116a747939468d99065d12a386ab1c5f; l_cap_id="OGEyOTkzMzE2YmU3NDVmYThlMmQ4OTBkMzNjODE4N2Y=|1554558219|a351d6740bd01ba8ee34'
  '94da0bd8b697b20aa5f0"; r_cap_id="MDIzNThmZjRhNjNlNGQ1OWFjM2NmODIxNzNjZWY2ZjY=|1554558219|ff86cb2f7d3c6e4a4e2b1286bbe0c093695bfa1d"; cap_id="MGNkY2RiZTg5N2MzNDUyNTk0NmEzMTYyYzgwY'
  'zdhYTE=|1554558219|18ed852d4506efb2345b1dbe14c749b2f9104d54"; __utma=51854390.789428312.1554558223.1554558223.1554558223.1; __utmb=51854390.0.10.1554558223; __utmc=51854390; '
  '__utmz=51854390.1554558223.1.1.utmcsr=(direct'
  ')|utmccn=(direct)|utmcmd=(none); __utmv=51854390.000--|3=entry_date=20190406=1',
 "authority" : "www.zhihu.com",
 
}
url = "https://www.zhihu.com/explore"
response = requests.get(url=url , headers=headers)
text = response.text
# print(text)
titles = []
f_titles = re.findall(r'.*?(.*?).*?',text,re.S)
for title in f_titles:
 titles.append(title.strip())
# print("*"*30)
authors = []
f_authors = re.findall(r'(.*?)',text,re.S)[1:]
for f_author in f_authors:
 # print(f_author)
 author = re.sub(r'<.*?>|]*?)>' , "" , f_author,re.S).strip()
 authors.append(author)
# print("*"*30)
content_urls = re.findall(r'.*?.*?',text,re.S)[1:]
contents = []
for content_url in content_urls:
 content_full_url = "https://www.zhihu.com" + content_url
 # print(content_full_url)
 resp = requests.get(url=content_full_url , headers=headers)
 c_text = resp.text
 content = re.findall(r'*?(.*?)',c_text,re.S)
 content = str(content)
 # print(type(content))
 cont = re.sub(r'\\n|<.*?>',"",content).strip()
 # print(cont)
 contents.append(cont)
 
zhihu_questions = []
for value in zip(titles,authors,contents):
 title,author,content = value
 zhihu_question = {
 "標(biāo)題" : title,
 "作者" : author,
 "內(nèi)容" : content
 }
 zhihu_questions.append(zhihu_question)
 
# for zhihu_question in zhihu_questions:
# for value in zhihu_question.values():
#  print(value)
# print("=" * 50)
 
with open("知乎.txt" , "a" , encoding="utf-8") as fp:
 for zhihu_question in zhihu_questions:
 for value in zhihu_question.values():
  fp.write(value)
  fp.write('\n' + "="*10 + '\n')
 fp.write('\n' + "*"*50 + '\n')

我們用requests庫和正則來爬取

因為要一直測試爬取內(nèi)容是否正確，可能運行太頻繁，博主中間被封了一次號，然后修改了cookie等信息，勉強獲取到了內(nèi)容。

正則表達(dá)式在之前講的很多了，也有過實戰(zhàn)，不多贅述，我們主要來講爬取時遇到的問題。

爬取標(biāo)題時很順利，我們只需要去除空白就行了

當(dāng)爬取作者時就有了問題，我們注意到，熱門話題共有10篇，也就是10個作者，但在用正則獲取時，要么第一個作者不對，要么就只有9個作者，我把所有熱門話題url，標(biāo)題，作者和內(nèi)容打印出來，打開瀏覽器一個一個對應(yīng)標(biāo)題作者和內(nèi)容是否正確，發(fā)現(xiàn)了一個神奇的現(xiàn)象。

一：作者數(shù)量不對

在知乎有匿名作者，這種作者和不匿名的作者都放在同一種div下，但匿名作者在span標(biāo)簽內(nèi)，而不匿名作者在a標(biāo)簽下，所以當(dāng)我用正則匹配a標(biāo)簽的內(nèi)容，無法獲取匿名用戶，就導(dǎo)致作者數(shù)量不對。于是直接獲取div下的所有內(nèi)容，在用sub去掉不要的內(nèi)容

二：作者與標(biāo)題或內(nèi)容不符

python3之?dāng)?shù)據(jù)存儲txt的示例分析

1是第一個作者，他不是我們需要的，但我們爬取的第一個就是他，2才是熱門的第一個作者

未獲取匿名用戶

這兩個是我們無法正常獲取的原因

上面兩個問題這樣解決：

f_authors = re.findall(r'(.*?)',text,re.S)[1:]
for f_author in f_authors:
 # print(f_author)
 author = re.sub(r'<.*?>|]*?)>' , "" , f_author,re.S).strip()
 authors.append(author)

獲取所有未經(jīng)處理的作者，我們不要第一個因為他不是熱門話題的回答者，f_authors是含有大量標(biāo)簽的列表，大家可以打印看看

我們遍歷這個未經(jīng)處理的列表，打印未經(jīng)處理的作者名，看看需要處理什么。

我們發(fā)現(xiàn)含有大量span標(biāo)簽和a標(biāo)簽，我們用sub函數(shù)處理

三：我們可以發(fā)現(xiàn)，這些內(nèi)容是很長的：

python3之?dāng)?shù)據(jù)存儲txt的示例分析

這樣，我們獲取的內(nèi)容是不正常的，我們分析可以找到該話題對應(yīng)的鏈接，我們加上域名就可以到這個話題的詳情頁

python3之?dāng)?shù)據(jù)存儲txt的示例分析

我們獲取url，處理頁面，獲取內(nèi)容，將獲取的內(nèi)容去掉標(biāo)簽等無關(guān)內(nèi)容即可。

content_urls = re.findall(r'.*?.*?',text,re.S)[1:]
contents = []
for content_url in content_urls:
 content_full_url = "https://www.zhihu.com" + content_url
 # print(content_full_url)
 resp = requests.get(url=content_full_url , headers=headers)
 c_text = resp.text
 content = re.findall(r'*?(.*?)',c_text,re.S)
 content = str(content)
 # print(type(content))
 cont = re.sub(r'\\n|<.*?>',"",content).strip()
 # print(cont)
 contents.append(cont)

關(guān)于zip函數(shù)，我在上一篇爬取古詩文也用到了，很重要的函數(shù)：

zhihu_questions = []
for value in zip(titles,authors,contents):
 title,author,content = value
 zhihu_question = {
 "標(biāo)題" : title,
 "作者" : author,
 "內(nèi)容" : content
 }
 zhihu_questions.append(zhihu_question)

最后就是把獲取的內(nèi)容保存為本地txt文檔

with open("知乎.txt" , "a" , encoding="utf-8") as fp:
 for zhihu_question in zhihu_questions:
 for value in zhihu_question.values():
  fp.write(value)
  fp.write('\n' + "="*10 + '\n')
 fp.write('\n' + "*"*50 + '\n')

這是最基本的保存爬取內(nèi)容的方法。后續(xù)會有json，csv，數(shù)據(jù)庫的相關(guān)博客續(xù)上。

運行結(jié)果：

python3之?dāng)?shù)據(jù)存儲txt的示例分析

另，注釋代碼都是測試代碼，可以參考。

補充：可能看得時候cookie信息會過期。

補充：文件打開的幾種方式

1：r：只讀模式，也是默認(rèn)模式

2：rb：二進(jìn)制只讀

3：r+：讀寫方式

4：rb+：二進(jìn)制讀寫方式

5：w：寫方式

6：wb：二進(jìn)制寫方式

7：w+：讀寫方式

8：wb+：二進(jìn)制讀寫方式

9：a：以追加方式，這個方式不會把原來的內(nèi)容覆蓋，本篇代碼以此方式打開文件

10：ab：二進(jìn)制追加方式

11：a+：讀寫方式

12：ab+：二進(jìn)制讀寫方式

關(guān)于“python3之?dāng)?shù)據(jù)存儲txt的示例分析”這篇文章就分享到這里了，希望以上內(nèi)容可以對大家有一定的幫助，使各位可以學(xué)到更多知識，如果覺得文章不錯，請把它分享出去讓更多的人看到。

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn，海內(nèi)外云服務(wù)器15元起步，三天無理由+7*72小時售后在線，公司持有idc許可證，提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案，具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點與優(yōu)勢，專為企業(yè)上云打造定制，能夠滿足用戶豐富、多元化的應(yīng)用場景需求。

新聞標(biāo)題：python3之?dāng)?shù)據(jù)存儲txt的示例分析-創(chuàng)新互聯(lián)
網(wǎng)站URL：http://weahome.cn/article/dposss.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

python3之?dāng)?shù)據(jù)存儲txt的示例分析-創(chuàng)新互聯(lián)

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管