Python是一種面向?qū)ο?、直譯式計算機(jī)程序設(shè)計語言,由于他簡單、易學(xué)、免費開源、可移植性、可擴(kuò)展性等特點,Python又被稱之為膠水語言。下圖為主要程序語言近年來的流行趨勢,Python受歡迎程度扶搖直上。
十多年的化州網(wǎng)站建設(shè)經(jīng)驗,針對設(shè)計、前端、開發(fā)、售后、文案、推廣等六對一服務(wù),響應(yīng)快,48小時及時工作處理。營銷型網(wǎng)站的優(yōu)勢是能夠根據(jù)用戶設(shè)備顯示端的尺寸不同,自動調(diào)整化州建站的顯示方式,使網(wǎng)站能夠適用不同顯示終端,在瀏覽器中調(diào)整網(wǎng)站的寬度,無論在任何一種瀏覽器上瀏覽網(wǎng)站,都能展現(xiàn)優(yōu)雅布局與設(shè)計,從而大程度地提升瀏覽體驗。創(chuàng)新互聯(lián)建站從事“化州網(wǎng)站設(shè)計”,“化州網(wǎng)站推廣”以來,每個客戶項目都認(rèn)真落實執(zhí)行。
由于Python擁有非常豐富的庫,使其在數(shù)據(jù)分析領(lǐng)域也有廣泛的應(yīng)用。
一、為什么要用Python做數(shù)據(jù)分析?在我看來,大概有3大理由。
廣度: 各行各業(yè)都有自己的商業(yè)場景,每一個行業(yè)都需要使用數(shù)據(jù)來輔助決策。面對現(xiàn)在人人談大數(shù)據(jù)的情境,數(shù)據(jù)分析是一個你不得不會的技能。
精度 : Python是一門編程語言。也許從前的你完全依靠excel的默認(rèn)設(shè)置生成圖表,從不思考為什么做一張數(shù)據(jù)圖,而使用編程工具的你必須從圖表長寬開始思考每一步成形的理由,從而更精地理解數(shù)據(jù)。
高效 : 傳統(tǒng)的數(shù)據(jù)工作涵蓋大量的重復(fù)不動腦操作,比如把日表合成周表,比如批量刪除某個字段,比如批量刪除空值。這些工作通過鼠標(biāo)點擊軟件沒有辦法編成工作流,但卻可以通過python程序編寫自動化,省去大量時間。
基礎(chǔ)庫總結(jié)
這里是對你會經(jīng)常接觸的重要的庫的簡要總結(jié):
NumPy: 擁有大量的科學(xué)計算的核心功能。由于它的內(nèi)部運算是通過C語言實現(xiàn)的,所以比用Python寫成的同樣的函數(shù),它的速度會快許多。但它并不是最用戶友好的包。
SciPy: 跟NumPy非常相似,但是有更多的方式來從分布中取樣,計算檢驗統(tǒng)計量,等等。
MatPlotLib: 主要的畫圖框架。不太討喜,但卻是必備的包。
Pandas: 基本上是對NumPy/SciPy進(jìn)行輕量的包裝,使它們更用戶友好一些。對于和表格數(shù)據(jù)交互非常理想,Pandas中把表格數(shù)據(jù)稱為數(shù)據(jù)框(DataFrame)。對畫圖功能也有一些包裝,使得無需使用MPL(Meta-Programming Library,元編程庫)就可以快速實現(xiàn)畫圖。我使用Pandas而非其他的工具來操作數(shù)據(jù)。
機(jī)器學(xué)習(xí)和計算機(jī)視覺
Crab:靈活、快速的推薦引擎
gensim:人性化的話題建模庫
hebel:GPU 加速的深度學(xué)習(xí)庫
NuPIC:智能計算 Numenta 平臺
pattern:Python 網(wǎng)絡(luò)挖掘模塊
PyBrain:另一個 Python 機(jī)器學(xué)習(xí)庫
Pylearn2:一個基于 Theano 的機(jī)器學(xué)習(xí)庫
python-recsys:一個用來實現(xiàn)推薦系統(tǒng)的 Python 庫
scikit-learn:基于 SciPy 構(gòu)建的機(jī)器學(xué)習(xí) Python 模塊
pydeep:Python 深度學(xué)習(xí)庫
vowpalporpoise:輕量級 Vowpal Wabbit 的 Python 封裝
skflow:一個 TensorFlow 的簡化接口(模仿 scikit-learn)
Caffe: 一個 Caffe 的python接口
OpenCV:開源計算機(jī)視覺庫
pyocr:Tesseract 和 Cuneiform 的包裝庫
pytesseract:Google Tesseract OCR 的另一包裝庫
SimpleCV:一個用來創(chuàng)建計算機(jī)視覺應(yīng)用的開源框架
上面列舉的只是其中一部分,還有很多很多。當(dāng)然,他們很多并非是用Python來實現(xiàn),但都共同的提供了Python接口,甚至好幾個都把Python當(dāng)成了頭等公民(First-Class)。
在此并非想說Python這門語言很強(qiáng)大或者復(fù)雜,而恰恰相反,得益于Python的簡潔和包容。才讓它在數(shù)據(jù)挖掘領(lǐng)域有如此的地位。
二、Python數(shù)據(jù)分析流程
1、數(shù)據(jù)獲?。汗_數(shù)據(jù)、Python爬蟲
外部數(shù)據(jù)的獲取方式主要有以下兩種。
第一種是獲取外部的公開數(shù)據(jù)集,一些科研機(jī)構(gòu)、企業(yè)、政府會開放一些數(shù)據(jù),你需要到特定的網(wǎng)站去下載這些數(shù)據(jù)。這些數(shù)據(jù)集通常比較完善、質(zhì)量相對較高。
另一種獲取外部數(shù)據(jù)的方式就是爬蟲。
比如你可以通過爬蟲獲取招聘網(wǎng)站某一職位的招聘信息,爬取租房網(wǎng)站上某城市的租房信息,爬取豆瓣評分評分最高的電影列表,獲取知乎點贊排行、網(wǎng)易云音樂評論排行列表?;诨ヂ?lián)網(wǎng)爬取的數(shù)據(jù),你可以對某個行業(yè)、某種人群進(jìn)行分析。
常用的的電商網(wǎng)站、問答網(wǎng)站、二手交易網(wǎng)站、婚戀網(wǎng)站、招聘網(wǎng)站等,都可以爬到非常有價值的數(shù)據(jù)。
Python具有靈活易用,方便讀寫的特點,其可以非常方便地調(diào)用數(shù)據(jù)庫和本地的數(shù)據(jù),同時,Python也是當(dāng)下網(wǎng)絡(luò)爬蟲的首選工具。
Scrapy
Python開發(fā)的一個快速、高層次的屏幕抓取和web抓取框架,用于抓取web站點并從頁面中提取結(jié)構(gòu)化的數(shù)據(jù)。Scrapy用途廣泛,可以用于數(shù)據(jù)挖掘、監(jiān)測和自動化測試。
2、數(shù)據(jù)整理
NumPy (Numeric Python)
提供了許多高級的數(shù)值編程工具,如:矩陣數(shù)據(jù)類型、矢量處理,以及精密的運算庫。專為進(jìn)行嚴(yán)格的數(shù)字處理而產(chǎn)生。多為很多大型金融公司使用,以及核心的科學(xué)計算組織如:Lawrence Livermore,NASA用其處理一些本來使用C++,F(xiàn)ortran或Matlab等所做的任務(wù)。
Pandas (Python Data Analysis Library)
Pandas 是基于NumPy 的一種工具,該工具是為了解決數(shù)據(jù)分析任務(wù)而創(chuàng)建的。Pandas 納入了大量庫和一些標(biāo)準(zhǔn)的數(shù)據(jù)模型,提供了高效地操作大型數(shù)據(jù)集所需的工具。pandas提供了大量能使我們快速便捷地處理數(shù)據(jù)的函數(shù)和方法。你很快就會發(fā)現(xiàn),它是使Python成為強(qiáng)大而高效的數(shù)據(jù)分析環(huán)境的重要因素之一。
3、建模分析
每種計算機(jī)編程語言,似乎都有自己成名或適用的領(lǐng)域。
在這個大家都在談云計算、大數(shù)據(jù)、深度學(xué)習(xí)的時代,讓我們來看看,這些領(lǐng)域里面的代表吧。
說句不負(fù)責(zé)任的話,Python已經(jīng)成為數(shù)據(jù)分析領(lǐng)域里事實上的標(biāo)準(zhǔn)語言。
Scikit-learn
從事數(shù)據(jù)分析建模必學(xué)的包,提供及匯總了當(dāng)前數(shù)據(jù)分析領(lǐng)域常見的算法及解決問題,如分類問題、回歸問題、聚類問題、降維、模型選擇、特征工程。
4、數(shù)據(jù)可視化
matplotlib:一個 Python 2D 繪圖庫
bokeh:用 Python 進(jìn)行交互式 web 繪圖
ggplot:ggplot2 給 R 提供的 API 的 Python 版本
plotly:協(xié)同 Python 和 matplotlib 工作的 web 繪圖庫
pyecharts:基于百度 Echarts 的數(shù)據(jù)可視化庫
pygal:一個 Python SVG 圖表創(chuàng)建工具
pygraphviz:Graphviz 的 Python 接口
PyQtGraph:交互式實時 2D/3D/ 圖像繪制及科學(xué)/工程學(xué)組件
SnakeViz:一個基于瀏覽器的 Python's cProfile 模塊輸出結(jié)果查看工具
vincent:把 Python 轉(zhuǎn)換為 Vega 語法的轉(zhuǎn)換工具
VisPy:基于 OpenGL 的高性能科學(xué)可視化工具
如果在Python中看可視化,你可能會想到Matplotlib。除此之外,Seaborn是一個類似的包,這是用于統(tǒng)計可視化的包。你可以做很復(fù)雜的圖和一些代碼。還有Bokeh,它有很多互動功能,可以做很多不同類型的圖。類似Bokeh的還有Plotly。它在瀏覽器中呈現(xiàn)圖,能夠進(jìn)行互動的可視化。雖然Python的繪圖功能沒有R那么強(qiáng)大,但是我看好它的發(fā)展前景。
三、總結(jié)
開始的時候,你可能考慮的問題不是很周全,總會遇到各種各樣的問題,舉例如下:
1.環(huán)境配置,工具安裝、環(huán)境變量,對小白太不友好;
2.缺少合理的學(xué)習(xí)路徑,上來 Python、HTML 各種學(xué),極其容易放棄;
3.Python有很多包、框架可以選擇,不知道哪個更友好;
4.遇到問題找不到解決辦法,學(xué)習(xí)停滯不前;
5.網(wǎng)上的資料非常零散,而且對小白不友好,很多看起來云里霧里;
6.懂得技巧,但面對具體問題無法系統(tǒng)思考和分析;
但隨著你經(jīng)驗的積累,慢慢就會找到分析的方向,有哪些一般分析的維度,比如Top榜單、平均水平、區(qū)域分布、同比環(huán)比、相關(guān)性分析、未來趨勢預(yù)測等等。隨著經(jīng)驗的增加,你會有一些自己對于數(shù)據(jù)的感覺,這就是我們通常說的數(shù)據(jù)思維了。
真若有心于數(shù)據(jù)領(lǐng)域,甚或欲從事數(shù)據(jù)科學(xué)之職業(yè)。請對Python有信心,值得你付出時間。想走機(jī)器學(xué)習(xí)之路,Scikit-learn是你最好的選擇,一邊操作實例,一邊閱讀文檔,再輔助以相關(guān)的理論基礎(chǔ),持之?dāng)?shù)日,則大業(yè)可成也。