如何使用scrapy+splash+Lua滾動(dòng)爬取CSDN,很多新手對(duì)此不是很清楚,為了幫助大家解決這個(gè)難題,下面小編將為大家詳細(xì)講解,有這方面需求的人可以來學(xué)習(xí)下,希望你能有所收獲。
成都創(chuàng)新互聯(lián)公司服務(wù)項(xiàng)目包括銀州網(wǎng)站建設(shè)、銀州網(wǎng)站制作、銀州網(wǎng)頁制作以及銀州網(wǎng)絡(luò)營銷策劃等。多年來,我們專注于互聯(lián)網(wǎng)行業(yè),利用自身積累的技術(shù)優(yōu)勢(shì)、行業(yè)經(jīng)驗(yàn)、深度合作伙伴關(guān)系等,向廣大中小型企業(yè)、政府機(jī)構(gòu)等提供互聯(lián)網(wǎng)行業(yè)的解決方案,銀州網(wǎng)站推廣取得了明顯的社會(huì)效益與經(jīng)濟(jì)效益。目前,我們服務(wù)的客戶以成都為中心已經(jīng)輻射到銀州省份的部分城市,未來相信會(huì)繼續(xù)擴(kuò)大服務(wù)區(qū)域并繼續(xù)獲得客戶的支持與信任!
這個(gè)主要是為了使用splash,做的
CSDN爬的數(shù)據(jù)頻繁以后好像會(huì)自動(dòng)504,開始正文:
安裝scrapy,安裝splash需要安裝docker,詳細(xì)的安裝步驟在我的csdn博客
https://blog.csdn.net/zhao_5352269/article/details/82850496
打開csdn,會(huì)發(fā)現(xiàn)csdn的文章是隨著你鼠標(biāo)滑動(dòng)向下加載的
如果就只用scrapy框架爬的話,就是只有當(dāng)前顯示的內(nèi)容
而我們需要滑動(dòng)以后的內(nèi)容,就需要splash了,當(dāng)然是用selnium也是可以的
安裝完splash以后,啟動(dòng)服務(wù),在頁面訪問
點(diǎn)擊Examples,再繼續(xù)選擇Scroll page,就會(huì)出現(xiàn)改腳本,點(diǎn)擊render me,就會(huì)直接運(yùn)行,返回你所需的東西.默認(rèn)的url可能會(huì)有點(diǎn)慢,直接復(fù)制csdn的地址,在運(yùn)行,
可以將所有的都截取加上,詳細(xì)見官方文檔https://splash.readthedocs.io
splash:set_viewport_full - 更改視口大?。ㄔ?nbsp;splash:png或 splash:jpeg之前調(diào)用它 )以獲取整個(gè)頁面的屏幕截圖;
將圖片保存,這樣就實(shí)現(xiàn)在splash中滑動(dòng)的效果
接下來就是在scrapy框架中,使用splash了。
將剛才的腳本復(fù)制到爬蟲中(微信這個(gè)有問題,不能全部顯示,一會(huì)發(fā)源碼)
script = """
function main(splash, args)
splash:go(args.url)
local scroll_to = splash:jsfunc("window.scrollTo")
scroll_to(0, 1000)
splash:set_viewport_full()
splash:wait(10)
return {html=splash:html()}
end
"""
復(fù)制過來沒有全部顯示
然后再使用SplashRequest中的args傳遞參數(shù),也可以使用Scrapy.Request使用meta傳遞參數(shù)
yield SplashRequest(nav_url, endpoint='execute', args={'lua_source': script, 'url': nav_url}
在對(duì)setting進(jìn)行設(shè)置(必須)
DOWNLOADER_MIDDLEWARES = {
'scrapy_splash.SplashCookiesMiddleware':723,
'scrapy_splash.SplashMiddleware':725,
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,#不配置查不到信息
# 'Technology.middlewares.TechnologyDownloaderMiddleware': 543,
}
HTTPCACHE_ENABLED = True
HTTPCACHE_EXPIRATION_SECS = 0
HTTPCACHE_DIR = 'httpcache'
#HTTPCACHE_IGNORE_HTTP_CODES = []
#HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'
SPLASH_URL = "http://192.168.99.100:8050" #自己安裝的docker里的splash位置
DUPEFILTER_CLASS = "scrapy_splash.SplashAwareDupeFilter"
HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage'
執(zhí)行代碼
看完上述內(nèi)容是否對(duì)您有幫助呢?如果還想對(duì)相關(guān)知識(shí)有進(jìn)一步的了解或閱讀更多相關(guān)文章,請(qǐng)關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝您對(duì)創(chuàng)新互聯(lián)的支持。