如何使用python爬蟲+正向代理實現(xiàn)鏈家數(shù)據(jù)收集-創(chuàng)新互聯(lián)

這篇文章主要介紹了如何使用python爬蟲+正向代理實現(xiàn)鏈家數(shù)據(jù)收集，具有一定借鑒價值，感興趣的朋友可以參考下，希望大家閱讀完這篇文章之后大有收獲，下面讓小編帶著大家一起了解一下。

創(chuàng)新互聯(lián)公司專注于企業(yè)全網(wǎng)營銷推廣、網(wǎng)站重做改版、神木網(wǎng)站定制設計、自適應品牌網(wǎng)站建設、H5開發(fā)、成都做商城網(wǎng)站、集團公司官網(wǎng)建設、成都外貿(mào)網(wǎng)站制作、高端網(wǎng)站制作、響應式網(wǎng)頁設計等建站業(yè)務，價格優(yōu)惠性價比高，為神木等各大城市提供網(wǎng)站開發(fā)制作服務。

一、選擇目標網(wǎng)站：

鏈[lian]家[jia]：https://bj.lianjia.com/
如何使用python爬蟲+正向代理實現(xiàn)鏈家數(shù)據(jù)收集
點擊【租房】，進入租房首頁：

這就是要爬取的首頁了；

二、先爬取一頁

1、分析頁面
右擊一個房源的鏈接，點擊[檢查]，如圖：
如何使用python爬蟲+正向代理實現(xiàn)鏈家數(shù)據(jù)收集
進入開發(fā)者模式，
此時可以看到 a 標簽中的鏈接：

使用 xpath 就可以把鏈接提取出來，不過該鏈接是真實 url 的后半段，需要進行字符串拼接才能獲取到真正的 url；
如何使用python爬蟲+正向代理實現(xiàn)鏈家數(shù)據(jù)收集
后面會在代碼中體現(xiàn)；
爬取的信息暫且只對下圖中標出的進行爬?。?br/>
包括標題、時間、價格、房間格局、面積；

三、對全部頁面進行爬取

1、分析頁面 url
如何使用python爬蟲+正向代理實現(xiàn)鏈家數(shù)據(jù)收集
點擊租房，找到其跳轉(zhuǎn)到的網(wǎng)頁：https://bj.lianjia.com/zufang/
對，這就是要爬取的首頁：

我們往下拉到最底端，點擊下一頁或者其他頁，
第 1 頁：https://bj.lianjia.com/zufang/pg1/#contentList
第 2 也：https://bj.lianjia.com/zufang/pg2/#contentList
第 3 頁：https://bj.lianjia.com/zufang/pg3/#contentList
.
.
.
第 100 頁：https://bj.lianjia.com/zufang/pg100/#contentList

通過觀察 url 可以發(fā)現(xiàn)規(guī)律：每一頁只有 pg 后面的數(shù)字在變，且與頁數(shù)相同；
拼接字符串后使用一個循環(huán)即可對所有頁面進行爬取；

四、源碼

開發(fā)工具：pycharm
python版本：3.7.2

import requests
from lxml import etree

#編寫了一個常用的方法，輸入url即可返回text的文本；
def get_one_page(url):
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36',
    }
    response = requests.get(url,headers=headers)
    response.encoding = 'utf-8'
    if response.status_code == 200:
        return response.text
    else:
        print("請求狀態(tài)碼 != 200,url錯誤.")
        return None

for number in range(0,101):     #利用range函數(shù)循環(huán)0-100，抓去第1頁到100頁。
    initialize_url = "https://bj.lianjia.com/zufang/pg" + str(number) + "/#contentList"     #字符串拼接出第1頁到100頁的url；

    html_result = get_one_page(initialize_url)  #獲取URL的text文本
    html_xpath = etree.HTML(html_result)        #轉(zhuǎn)換成xpath格式
    #抓去首頁中的url（每頁有30條房源信息）
    page_url = html_xpath.xpath("http://div[@class='content w1150']/div[@class='content__article']//div[@class='content__list']/div/a[@class='content__list--item--aside']/@href")

    for i in page_url:      #循環(huán)每一條房源url
        true_url = "https://bj.lianjia.com" + i     #獲取房源的詳情頁面url
        true_html = get_one_page(true_url)      #獲取text文本
        true_xpath = etree.HTML(true_html)      #轉(zhuǎn)換成xpath格式

        #抓取頁面題目，即：房源詳情頁的標題
        title = true_xpath.xpath("http://div[@class='content clear w1150']/p[@class='content__title']//text()")
        #抓取發(fā)布時間并對字符串進行分割處理
        release_date = true_xpath.xpath("http://div[@class='content clear w1150']//div[@class='content__subtitle']//text()")
        release_date_result = str(release_date[2]).strip().split("：")[1]
        #抓取價格
        price = true_xpath.xpath("http://div[@class='content clear w1150']//p[@class='content__aside--title']/span//text()")
        #抓取房間樣式
        house_type = true_xpath.xpath("http://div[@class='content clear w1150']//ul[@class='content__aside__list']//span[2]//text()")
        #抓取房間面積
        acreage = true_xpath.xpath("http://div[@class='content clear w1150']//ul[@class='content__aside__list']//span[3]//text()")

        print(str(title) + " --- " + str(release_date_result) + " --- " + str(price) + " --- " + str(house_type) + " --- " + str(acreage))

        #寫入操作，將信息寫入一個text文本中
        with open(r"E:\admin.txt",'a') as f:
            f.write(str(title) + " --- " + str(release_date_result) + " --- " + str(price) + " --- " + str(house_type) + " --- " + str(acreage) + "\n")

最后將爬取的信息一邊輸出一邊寫入文本；當然也可以直接寫入 JSON 文件或者直接存入數(shù)據(jù)庫；

感謝你能夠認真閱讀完這篇文章，希望小編分享的“如何使用python爬蟲+正向代理實現(xiàn)鏈家數(shù)據(jù)收集”這篇文章對大家有幫助，同時也希望大家多多支持創(chuàng)新互聯(lián)，關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道，更多相關(guān)知識等著你來學習!

另外有需要云服務器可以了解下創(chuàng)新互聯(lián)cdcxhl.cn，海內(nèi)外云服務器15元起步，三天無理由+7*72小時售后在線，公司持有idc許可證，提供“云服務器、裸金屬服務器、高防服務器、香港服務器、美國服務器、虛擬主機、免備案服務器”等云主機租用服務以及企業(yè)上云的綜合解決方案，具有“安全穩(wěn)定、簡單易用、服務可用性高、性價比高”等特點與優(yōu)勢，專為企業(yè)上云打造定制，能夠滿足用戶豐富、多元化的應用場景需求。

網(wǎng)站欄目：如何使用python爬蟲+正向代理實現(xiàn)鏈家數(shù)據(jù)收集-創(chuàng)新互聯(lián)
鏈接分享：http://weahome.cn/article/ccdeei.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

如何使用python爬蟲+正向代理實現(xiàn)鏈家數(shù)據(jù)收集-創(chuàng)新互聯(lián)

一、選擇目標網(wǎng)站：

二、先爬取一頁

三、對全部頁面進行爬取

四、源碼

其他資訊

網(wǎng)站制作

企業(yè)服務

網(wǎng)站建設

服務器托管

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

如何使用python爬蟲+正向代理實現(xiàn)鏈家數(shù)據(jù)收集-創(chuàng)新互聯(lián)

一、選擇目標網(wǎng)站：

二、先爬取一頁

三、對全部頁面進行爬取

四、源碼

其他資訊

網(wǎng)站制作

企業(yè)服務

網(wǎng)站建設

服務器托管

一、選擇目標網(wǎng)站：

二、先爬取一頁

三、對全部頁面進行爬取

四、源碼