這篇文章將為大家詳細講解有關python爬蟲實戰(zhàn)之爬取房天下新房數(shù)據(jù)的示例,小編覺得挺實用的,因此分享給大家做個參考,希望大家閱讀完這篇文章后可以有所收獲。
創(chuàng)新互聯(lián)堅持“要么做到,要么別承諾”的工作理念,服務領域包括:成都網(wǎng)站制作、成都做網(wǎng)站、企業(yè)官網(wǎng)、英文網(wǎng)站、手機端網(wǎng)站、網(wǎng)站推廣等服務,滿足客戶于互聯(lián)網(wǎng)時代的湘潭網(wǎng)站設計、移動媒體設計的需求,幫助企業(yè)找到有效的互聯(lián)網(wǎng)解決方案。努力成為您成熟可靠的網(wǎng)絡建設合作伙伴!
本示例主要用到requests庫和bs4庫,requests庫用來獲取網(wǎng)頁內(nèi)容,bs4庫則是解析網(wǎng)頁內(nèi)容,獲取有用數(shù)據(jù)。
代碼中url可切換當?shù)胤刻煜戮W(wǎng)址。
代碼如下
# -*- coding:utf-8 -*- # author:zhoulong ''' 房天下天水新房信息 ''' import requests from bs4 import BeautifulSoup import numpy as np import re URL = 'http://newhouse.tianshui.fang.com/house/s/b91/' HTML = requests.get(URL) SOUP = BeautifulSoup(HTML.content, 'html.parser', from_encoding='gb18030') last_page = SOUP.select('.last') page_number = int(last_page[0]['href'].split('/')[3].split('9')[1])#根據(jù)尾頁劃分頁碼 url_demo = 'http://newhouse.tianshui.fang.com/house/s/b9{}/'#i+1,name.text.strip(), #房價價格 house_price_list=[] for i in range(1,(page_number+1)): url = url_demo.format(i) html = requests.get(url) soup = BeautifulSoup(html.content,'html.parser',from_encoding='gb18030') names = soup.select('.nlcd_name a')#class定位組合查找 adresses = soup.select('.address a')#查找地址 all_type = soup.findAll(name="span", attrs={"class": re.compile(r"forSale|inSale|outSale|zusale|zushou")})#出售 all_money = soup.findAll(name="div", attrs={"class": re.compile(r"nhouse_price|kanesf")})#價格 for i,name in enumerate(names): print(i+1,' name:'+name.text.strip(),' address:'+''.join(re.split(r'\s+', adresses[i].text.replace('\n','').replace('',''))), all_type[i].text,' house_price: '+all_money[i].text.replace('\n','')) house_price_list.append(re.findall('\d+',all_money[i].text.replace('\n',''))) house_price_list=[int(i[0]) for i in house_price_list if i] print('*'*80) print('* '+' 房價均價:'+str(np.mean(house_price_list))+' '*60+'*') print('* '+' 房價最高價:'+str(np.max(house_price_list))+' '*60+'*') print('* '+' 房價最低價:'+str(np.min(house_price_list))+' '*61+'*') print('*'*80)
執(zhí)行結果
關于python爬蟲實戰(zhàn)之爬取房天下新房數(shù)據(jù)的示例就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。