真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

python爬蟲爬取

python 爬取 博客園 接 螞蟻學(xué)pythonP5生產(chǎn)者消費(fèi)者爬蟲數(shù)據(jù)重復(fù)問題

  • 先看訪問地址

    成都創(chuàng)新互聯(lián)公司自2013年創(chuàng)立以來,是專業(yè)互聯(lián)網(wǎng)技術(shù)服務(wù)公司,擁有項(xiàng)目成都做網(wǎng)站、成都網(wǎng)站建設(shè)、成都外貿(mào)網(wǎng)站建設(shè)網(wǎng)站策劃,項(xiàng)目實(shí)施與項(xiàng)目整合能力。我們以讓每一個(gè)夢想脫穎而出為使命,1280元遵義做網(wǎng)站,已為上家服務(wù),為遵義各地企業(yè)和個(gè)人服務(wù),聯(lián)系電話:13518219792

    • 訪問地址是https://www.cnblogs.com/#p2 但是實(shí)際訪問地址是https://www.cnblogs.com 說明其中存在貓膩;像這種我們給定指定頁碼,按理應(yīng)該是 post 請求才對;于是乎 往下看了幾個(gè)連接

    • 然后再看一下payload 發(fā)現(xiàn)這個(gè)post 請求 才是我們想要的鏈接 其中PageIndex 就是我們要設(shè)置的頁數(shù)

  • 代碼擼起來

    # Author: Lovyya
    # File : blog_spider
    import requests
    import json
    from bs4 import BeautifulSoup
    import re
    # 這個(gè)是為和老師的urls一致性 匹配urls里面的數(shù)字
    rule = re.compile("\d+")
    
    urls = [f'https://www.cnblogs.com/#p{page}' for page in range(1, 31)]
    
    # pos請求網(wǎng)址
    url = "https://www.cnblogs.com/AggSite/AggSitePostList"
    headers = {
    	"content-type": "application/json",
    	"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36 Edg/95.0.1020.30"
    }
    
    def craw(urls):
    	#idx 是'xxx.xxxx.xxx/#p{num}' 里面的num 這樣寫可以不用改 后面生產(chǎn)者消費(fèi)者的代碼 
    	idx = rule.findall(urls)[0]
    	# payload參數(shù) 只需要更改 idx 就行
    	payload = {
    		"CategoryType": "SiteHome", 
    		"ParentCategoryId": 0, 
    		"CategoryId": 808, 
    		"PageIndex": idx,
    		"TotalPostCount": 4000, 
    		"ItemListActionName": "AggSitePostList"
    	}
    	r = requests.post(url, data=json.dumps(payload), headers=headers)
    	return r.text
    
    def parse(html):
    	# post-item-title
    	soup = BeautifulSoup(html, "html.parser")
    	links = soup.find_all("a", class_="post-item-title")
    	return [(link["href"], link.get_text()) for link in links]
    
    if __name__ == '__main__':
    	for res in parse(craw(urls[2])):
    		print(res)

文章名稱:python爬蟲爬取
文章來源:http://weahome.cn/article/dsogigg.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部