本篇內(nèi)容介紹了“python怎么爬取視頻”的有關(guān)知識,在實(shí)際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!
成都創(chuàng)新互聯(lián)是一家從事企業(yè)網(wǎng)站建設(shè)、成都網(wǎng)站建設(shè)、網(wǎng)站制作、行業(yè)門戶網(wǎng)站建設(shè)、網(wǎng)頁設(shè)計(jì)制作的專業(yè)的建站公司,擁有經(jīng)驗(yàn)豐富的網(wǎng)站建設(shè)工程師和網(wǎng)頁設(shè)計(jì)人員,具備各種規(guī)模與類型網(wǎng)站建設(shè)的實(shí)力,在網(wǎng)站建設(shè)領(lǐng)域樹立了自己獨(dú)特的設(shè)計(jì)風(fēng)格。自公司成立以來曾獨(dú)立設(shè)計(jì)制作的站點(diǎn)上千多家。
思路
1.將所以題目的解析鏈接爬取出去單獨(dú)存放到一個(gè)文件。
2.為了解決有些鏈接一次進(jìn)不去必須中斷程序再次開始,和存儲圖片思路一樣,爭取實(shí)現(xiàn)斷點(diǎn)繼續(xù),
3.但是寫入文件和保存圖片還是不一樣,針對面臨的情況,初步解決想法為每抽取一條鏈接的解析,就刪掉這個(gè)鏈接,用列表存儲從鏈接文件中讀取的鏈接
因?yàn)榭颇克挠械念}目包含動圖,要爬取的網(wǎng)站是做成mov格式的短視頻
例如:
增加獲取視頻鏈接
系列一獲取圖片的方法是在獲取選項(xiàng)、答案的基礎(chǔ)上再次傳到BeautifulSoup對象,然后再次提取img標(biāo)簽,如果某題沒有圖片,提取的則是一個(gè)空值,此處提取img和video標(biāo)簽。如果某題沒有圖片或視頻,提取的則是一個(gè)空值。只需改一句代碼
img = soup.find_all(['img','video'])獲取圖片或動圖后綴 系列一中為了方便直接在文件名后面加的字符串形式.png后綴,但是現(xiàn)在要解決后綴不一致(寫代碼盡可能還是不要偷懶…)
解決代碼:if img: for im in img: src = im.get('src') suffix = src.split('.')[3] filename = str(i) + '.' + suffix如果此題有圖片或動圖,則把這個(gè)圖的鏈接通過’.’進(jìn)行分割。最后的元素則是后綴
爭取實(shí)現(xiàn)斷點(diǎn)繼續(xù) 不知道為什么程序會暫停不動,模仿瀏覽器,捕獲異常都試了,依然不行,所以我盡可能的實(shí)現(xiàn)斷點(diǎn)繼續(xù)。
每個(gè)圖片對應(yīng)一個(gè)鏈接,難免有一個(gè)鏈接卡?。ㄎ也聹y的)
解決辦法 :
在我們得到鏈接,并生成文件名后,先不去打開這個(gè)這個(gè)鏈接,先根據(jù)文件名判斷這個(gè)圖片是否文件夾中已經(jīng)包含,如果包含扔掉這個(gè)鏈接,去繼續(xù)下一個(gè)鏈接if img: for im in img: src = im.get('src') suffix = src.split('.')[3] filename = str(i) + '.' + suffix if os.path.exists('picture/'+filename): break saveImg(im.get('src'),filename)“python怎么爬取視頻”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識可以關(guān)注創(chuàng)新互聯(lián)網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實(shí)用文章!
標(biāo)題名稱:python怎么爬取視頻
分享地址:http://weahome.cn/article/pdddip.html