這篇文章主要介紹了selenium怎么解決python爬蟲亂碼問題,具有一定借鑒價值,需要的朋友可以參考下。希望大家閱讀完這篇文章后大有收獲。下面讓小編帶著大家一起了解一下。
10年積累的網(wǎng)站設(shè)計、網(wǎng)站建設(shè)經(jīng)驗(yàn),可以快速應(yīng)對客戶對網(wǎng)站的新想法和需求。提供各種問題對應(yīng)的解決方案。讓選擇我們的客戶得到更好、更有力的網(wǎng)絡(luò)服務(wù)。我雖然不認(rèn)識你,你也不認(rèn)識我。但先做網(wǎng)站后付款的網(wǎng)站建設(shè)流程,更有龍陵免費(fèi)網(wǎng)站建設(shè)讓你可以放心的選擇與我們合作。在用requests庫對博客進(jìn)行爬取時,發(fā)現(xiàn)亂碼報錯,如下圖所示:
網(wǎng)上查找了一些方法,以為是遇到了網(wǎng)站加密處理。后來發(fā)現(xiàn) 通過F12還 是能獲取網(wǎng)頁的元素,那么有什么辦法能規(guī)避亂碼問題呢?答案是:用selenium.
效果如下
代碼
# coding=utf-8 # @Auther : "鵬哥賊優(yōu)秀" # @Date : 2019/10/16 # @Software : PyCharm from selenium import webdriver url = 'https://blog.csdn.net/yuzipeng' driver = webdriver.Chrome("F:\\Python成長之路\\chromedriver.exe") driver.get(url) urls = driver.find_elements_by_xpath('//div[@class="article-item-box csdn-tracking-statistics"]') blogurl = ['https://blog.csdn.net/yuzipeng/article/details/' + url.get_attribute('data-articleid') for url in urls] titles = driver.find_elements_by_xpath('//div[@class="article-item-box csdn-tracking-statistics"]/h5/a') blogtitle = [title.text for title in titles] myblog = {k:v for k,v in zip(blogtitle,blogurl)} for k,v in myblog.items(): print(k,v) driver.close()
感謝你能夠認(rèn)真閱讀完這篇文章,希望小編分享selenium怎么解決python爬蟲亂碼問題內(nèi)容對大家有幫助,同時也希望大家多多支持創(chuàng)新互聯(lián)網(wǎng)站建設(shè)公司,,關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,遇到問題就找創(chuàng)新互聯(lián)網(wǎng)站建設(shè)公司,,詳細(xì)的解決方法等著你來學(xué)習(xí)!