Python爬取租房數(shù)據(jù)實例是怎么樣的

這篇文章給大家介紹Python爬取租房數(shù)據(jù)實例是怎么樣的，內(nèi)容非常詳細，感興趣的小伙伴們可以參考借鑒，希望對大家能有所幫助。

創(chuàng)新互聯(lián)主要為客戶提供服務項目涵蓋了網(wǎng)頁視覺設計、VI標志設計、網(wǎng)絡營銷推廣、網(wǎng)站程序開發(fā)、HTML5響應式成都網(wǎng)站建設公司、手機網(wǎng)站制作、微商城、網(wǎng)站托管及成都網(wǎng)站維護、WEB系統(tǒng)開發(fā)、域名注冊、國內(nèi)外服務器租用、視頻、平面設計、SEO優(yōu)化排名。設計、前端、后端三個建站步驟的完善服務體系。一人跟蹤測試的建站服務標準。已經(jīng)為高空作業(yè)車租賃行業(yè)客戶提供了網(wǎng)站建設服務。

一、什么叫爬蟲

爬蟲，又名“網(wǎng)絡爬蟲”，就是能夠自動訪問互聯(lián)網(wǎng)并將網(wǎng)站內(nèi)容下載下來的程序。它也是搜索引擎的基礎，像百度和GOOGLE都是憑借強大的網(wǎng)絡爬蟲，來檢索海量的互聯(lián)網(wǎng)信息的然后存儲到云端，為網(wǎng)友提供優(yōu)質的搜索服務的。

二、爬蟲有什么用

你可能會說，除了做搜索引擎的公司，學爬蟲有什么用呢？哈哈，總算有人問到點子上了。打個比方吧：企業(yè)A建了個用戶論壇，很多用戶在論壇上留言講自己的使用體驗等等?，F(xiàn)在A需要了解用戶需求，分析用戶偏好，為下一輪產(chǎn)品迭代更新做準備。那么數(shù)據(jù)如何獲取，當然是需要爬蟲軟件從論壇上獲取咯。所以除了百度、GOOGLE之外，很多企業(yè)都在高薪招聘爬蟲工程師。你到任何招聘網(wǎng)站上搜“爬蟲工程師”看看崗位數(shù)量和薪資范圍就懂爬蟲有多熱門了。

三、爬蟲的原理

發(fā)起請求：通過HTTP協(xié)議向目標站點發(fā)送請求（一個request），然后等待目標站點服務器的響應。

獲取響應內(nèi)容：如果服務器能正常響應，會得到一個Response。Response的內(nèi)容便是所要獲取的頁面內(nèi)容，響應的內(nèi)容可能有HTML，Json串，二進制數(shù)據(jù)（如圖片視頻）等等。

解析內(nèi)容：得到的內(nèi)容可能是HTML，可以用正則表達式、網(wǎng)頁解析庫進行解析；可能是Json，可以直接轉為Json對象解析；可能是二進制數(shù)據(jù)，可以做保存或者進一步的處理。

保存數(shù)據(jù)：數(shù)據(jù)解析完成后，將保存下來。既可以存為文本文檔、可以存到數(shù)據(jù)庫中。

四、Python爬蟲實例

前面介紹了爬蟲的定義、作用、原理等信息，相信有不少小伙伴已經(jīng)開始對爬蟲感興趣了，準備躍躍欲試呢。那現(xiàn)在就來上“干貨”，直接貼上一段簡單Python爬蟲的代碼：

1.前期準備工作：安裝Python環(huán)境、安裝PYCHARM軟件、安裝MySQL數(shù)據(jù)庫、新建數(shù)據(jù)庫exam、在exam中建一張用于存放爬蟲結果的表格house [SQL語句：create table house(price varchar(88),unit varchar(88),area varchar(88));]

2.爬蟲的目標：爬取某租房網(wǎng)上首頁中所有鏈接里的房源的價格、單位及面積，然后將爬蟲結構存到數(shù)據(jù)庫中。

3.爬蟲源代碼：如下

import requests #請求 URL 頁面內(nèi)容

from bs4 import BeautifulSoup #獲取頁面元素

import pymysql #鏈接數(shù)據(jù)庫

import time #時間函數(shù)

import lxml #解析庫（支持 HTML\XML 解析，支持 XPATH 解析）

#get_page 函數(shù)作用：通過 requests 的 get 方法得到 url 鏈接的內(nèi)容，再整合成BeautifulSoup 可以處理的格式

def get_page(url):

response = requests.get(url)

soup = BeautifulSoup(response.text, 'lxml')

return soup

#get_links 函數(shù)的作用：獲取列表頁所有租房鏈接

def get_links(link_url):

soup = get_page(link_url)

links_div = soup.find_all('div',class_="pic-panel")

links=[div.a.get('href') for div in links_div]

return links

#get_house_info 函數(shù)作用是：獲取某一個租房頁面的信息：價格、單位、面積等

def get_house_info(house_url):

soup = get_page(house_url)

price =soup.find('span',class_='total').text

unit = soup.find('span',class_='unit').text.strip()

area = 'test' #這里 area 字段我們自定義一個 test 做測試

info = {

'價格':price,

'單位':unit,

'面積':area

}

return info

#數(shù)據(jù)庫的配置信息寫到字典

DataBase ={

'host': '127.0.0.1',

'database': 'exam',

'user' : 'root',

'password' : 'root',

'charset' :'utf8mb4'}

#鏈接數(shù)據(jù)庫

def get_db(setting):

return pymysql.connect(**setting)

#向數(shù)據(jù)庫插入爬蟲得到的數(shù)據(jù)

def insert(db,house):

values = "'{}',"*2 + "'{}'"

sql_values = values.format(house['價格'],house['單位'],house['面積'])

sql ="""

insert into house(price,unit,area) values({})

""".format(sql_values)

cursor = db.cursor()

cursor.execute(sql)

db.commit()

#主程序流程：1.連接數(shù)據(jù)庫 2.得到各個房源信息的 URL 列表 3.FOR 循環(huán)從第一個 URL 開始獲取房源具體信息（價格等）4.一條一條地插入數(shù)據(jù)庫

db = get_db(DataBase)

links = get_links('https://bj.lianjia.com/zufang/')

for link in links:

time.sleep(2)

house = get_house_info(link)

insert(db,house)

首先，“工欲善其事必先利其器”，用 Python 寫爬蟲程序也是一樣的道理，寫爬蟲過程中需要導入各種庫文件，正是這些及其有用的庫文件幫我們完成了爬蟲的大部分工作，我們只需要調取相關的借口函數(shù)即可。導入的格式就是 import 庫文件名。這里要注意的是在 PYCHARM 里安裝庫文件，可以通過光標放在庫文件名稱上，同時按ctrl+alt 鍵的方式來安裝，也可以通過命令行（Pip install 庫文件名）的方式安裝，如果安裝失敗或者沒有安裝，那么后續(xù)爬蟲程序肯定會報錯的。在這段代碼里，程序前五行都是導入相關的庫文件：requests 用于請求 URL 頁面內(nèi)容；BeautifulSoup 用來解析頁面元素；pymysql 用于連接數(shù)據(jù)庫；time 包含各種時間函數(shù)；lxml 是一個解析庫，用于解析 HTML、XML 格式的文件，同時它也支持 XPATH 解析。

其次，我們從代碼最后的主程序開始看整個爬蟲流程：

通過 get_db 函數(shù)連接數(shù)據(jù)庫。再深入到 get_db 函數(shù)內(nèi)部，可以看到是通過調用Pymysql 的 connect 函數(shù)來實現(xiàn)數(shù)據(jù)庫的連接的，這里**seting 是 Python 收集關鍵字參數(shù)的一種方式，我們把數(shù)據(jù)庫的連接信息寫到一個字典 DataBase 里了，將字典里的信息傳給 connect 做實參。

通過 get_links 函數(shù)，獲取鏈家網(wǎng)租房首頁的所有房源的鏈接。所有房源的鏈接以列表形式存在 Links 里。get_links 函數(shù)先通過 requests 請求得到鏈家網(wǎng)首頁頁面的內(nèi)容，再通過 BeautifuSoup 的接口來整理內(nèi)容的格式，變成它可以處理的格式。最后通過電泳find_all 函數(shù)找到所有包含圖片的 div 樣式，再通過一個 for 循環(huán)來獲得所有 div 樣式里包含的超鏈接頁簽（a）的內(nèi)容（也就是 href 屬性的內(nèi)容），所有超鏈接都存放在列表links 中。

通過 FOR 循環(huán)，來遍歷 links 中的所有鏈接（比如其中一個鏈接是：https://bj.lianjia.com/zufang/101101570737.html）

用和 2）同樣的方法，通過使用 find 函數(shù)進行元素定位獲得 3）中鏈接里的價格、單位、面積信息，將這些信息寫到一個字典 Info 里面。

調用 insert 函數(shù)將某一個鏈接里得到的 Info 信息寫入數(shù)據(jù)庫的 house 表中去。深入到 insert 函數(shù)內(nèi)部，我們可以知道它是通過數(shù)據(jù)庫的游標函數(shù) cursor()來執(zhí)行一段 SQL語句然后數(shù)據(jù)庫進行 commit 操作來實現(xiàn)響應功能。這里 SQL 語句的寫法比較特殊，用到了 format 函數(shù)來進行格式化，這樣做是為了便于函數(shù)的復用。

最后，運行一下爬蟲代碼，可以看到鏈家網(wǎng)的首頁所有房源的信息都寫入到數(shù)據(jù)里了。（注：test 是我手動指定的測試字符串）

Python爬取租房數(shù)據(jù)實例是怎么樣的

后記：其實 Python 爬蟲并不難，熟悉整個爬蟲流程之后，就是一些細節(jié)問題需要注意，比如如何獲取頁面元素、如何構建 SQL 語句等等。遇到問題不要慌，看 IDE 的提示就可以一個個地消滅 BUG，最終得到我們預期的結構。

關于Python爬取租房數(shù)據(jù)實例是怎么樣的就分享到這里了，希望以上內(nèi)容可以對大家有一定的幫助，可以學到更多知識。如果覺得文章不錯，可以把它分享出去讓更多的人看到。

當前標題：Python爬取租房數(shù)據(jù)實例是怎么樣的
當前路徑：http://weahome.cn/article/gicpoi.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

Python爬取租房數(shù)據(jù)實例是怎么樣的

其他資訊

網(wǎng)站制作

企業(yè)服務

網(wǎng)站建設

服務器托管