真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

python數(shù)據(jù)爬蟲有什么用

這篇文章主要介紹python數(shù)據(jù)爬蟲有什么用,文中介紹的非常詳細(xì),具有一定的參考價值,感興趣的小伙伴們一定要看完!

創(chuàng)新互聯(lián)專注為客戶提供全方位的互聯(lián)網(wǎng)綜合服務(wù),包含不限于成都網(wǎng)站建設(shè)、網(wǎng)站設(shè)計、寧縣網(wǎng)絡(luò)推廣、小程序開發(fā)、寧縣網(wǎng)絡(luò)營銷、寧縣企業(yè)策劃、寧縣品牌公關(guān)、搜索引擎seo、人物專訪、企業(yè)宣傳片、企業(yè)代運(yùn)營等,從售前售中售后,我們都將竭誠為您服務(wù),您的肯定,是我們最大的嘉獎;創(chuàng)新互聯(lián)為所有大學(xué)生創(chuàng)業(yè)者提供寧縣建站搭建服務(wù),24小時服務(wù)熱線:18980820575,官方網(wǎng)址:www.cdcxhl.com

一、爬蟲工作原理

獲取網(wǎng)頁——分析網(wǎng)頁源代碼——提取信息,便是爬蟲工作的三部曲。

二、爬蟲的基本流程:

用戶獲取網(wǎng)絡(luò)數(shù)據(jù)的方式:

方式1:瀏覽器提交請求--->下載網(wǎng)頁代碼--->解析成頁面。

方式2:模擬瀏覽器發(fā)送請求(獲取網(wǎng)頁代碼)->提取有用的數(shù)據(jù)->存放于數(shù)據(jù)庫或文件中。

包括以下內(nèi)容:

1、發(fā)起請求

2、獲取響應(yīng)內(nèi)容

3、解析內(nèi)容

4、保存數(shù)據(jù)

應(yīng)用場景

1、互聯(lián)網(wǎng)平臺,偏向銷售公司,客戶信息的爬取

2、資訊爬取并應(yīng)用到平臺業(yè)務(wù)中

3、競品公司重要數(shù)據(jù)挖掘分析與應(yīng)用

實(shí)戰(zhàn)例子

項(xiàng)目原理:打開網(wǎng)址-獲取源碼-找到圖片-匹配下載

 
#coding=utf-8
 
'''
 
Created on 2017年1月28日
 
@author: gaojs
 
'''
 
import urllib,re,os
 
def getHtml():
 
page=urllib.urlopen('').read()#打開網(wǎng)址并且讀取
 
return page
 
x=0
 
def getimg(page):
 
imgre=re.compile(r' src="(.*?)" class=')
 
imglist=re.findall(imgre,page)
 
for imgurl in imglist:
 
# print imgurl
 
global x
 
if not os.path.exists('/Users/gaojs/Desktop/pic'):
 
print os.mkdir('/Users/gaojs/Desktop/pic/')
 
else:
 
urllib.urlretrieve(imgurl,'/Users/gaojs/Desktop/pic/'+'%s.jpg'%x)#下載圖片到指定位置
 
x+=1
 
print u'正在下載第%s張'%x
 
l=getHtml()
 
getimg(l)

以上是python數(shù)據(jù)爬蟲有什么用的所有內(nèi)容,感謝各位的閱讀!希望分享的內(nèi)容對大家有幫助,更多相關(guān)知識,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道!


當(dāng)前文章:python數(shù)據(jù)爬蟲有什么用
網(wǎng)址分享:http://weahome.cn/article/ggdohj.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部