做數(shù)據(jù)分析,首先你要知道有哪些數(shù)據(jù)分析的方法,然后才是用Python去調(diào)用這些方法
成都創(chuàng)新互聯(lián)公司長期為數(shù)千家客戶提供的網(wǎng)站建設(shè)服務(wù),團隊從業(yè)經(jīng)驗10年,關(guān)注不同地域、不同群體,并針對不同對象提供差異化的產(chǎn)品和服務(wù);打造開放共贏平臺,與合作伙伴共同營造健康的互聯(lián)網(wǎng)生態(tài)環(huán)境。為巴彥企業(yè)提供專業(yè)的網(wǎng)站設(shè)計制作、成都網(wǎng)站建設(shè),巴彥網(wǎng)站改版等技術(shù)服務(wù)。擁有十多年豐富建站經(jīng)驗和眾多成功案例,為您定制開發(fā)。
那Python有哪些庫類是能做數(shù)據(jù)分析的,很多,pandas,sklearn等等
所以你首先要裝一個anaconda套件,它包含了幾乎所有的Python數(shù)據(jù)分析工具,
之后再學怎么分析。
Python-for-data-移動窗口函數(shù)
本文中介紹的是 ,主要的算子是:
統(tǒng)計和通過其他移動窗口或者指數(shù)衰減而運行的函數(shù),稱之為 移動窗口函數(shù)
style scoped="".dataframe tbody tr th:only-of-type { vertical-align: middle; } precode.dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; } /code/pre/style
2292 rows × 3 columns
rolling算子,行為和resample和groupby類似
rolling可以在S或者DF上通過一個window進行調(diào)用
style scoped="".dataframe tbody tr th:only-of-type { vertical-align: middle; } precode.dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; } /code/pre/style
2292 rows × 3 columns
指定一個常數(shù)衰減因子為觀測值提供更多的權(quán)重。常用指定衰減因子的方法:使用span(跨度)
一些統(tǒng)計算子,例如相關(guān)度和協(xié)方差等需要同時操作兩個時間序列。
例如,金融分析中的股票和基準指數(shù)的關(guān)聯(lián)性問題:計算時間序列的百分比變化pct_change()
style scoped="".dataframe tbody tr th:only-of-type { vertical-align: middle; } precode.dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; } /code/pre/style
在rolling及其相關(guān)方法上使用apply方法提供了一種在移動窗口中應(yīng)用自己設(shè)計的數(shù)組函數(shù)的方法。
唯一要求:該函數(shù)從每個數(shù)組中產(chǎn)生一個單值(縮聚),例如使用rolling()...quantile(q)計算樣本的中位數(shù)
作用就是把合理的數(shù)據(jù)轉(zhuǎn)換為需要的類型。int()整數(shù),float()浮點數(shù),str()字符串,list()列表,tuple()元組,set()集合……
比如a='12'這個是字符串類型,用int函數(shù)a=int(a)這時變量a就是整型,字符串'12'變?yōu)榱苏麛?shù)12。Python沒有變量聲明的要求,變量的屬性在賦值時確定,這樣變量的類型就很靈活。
有一種題目判斷一個整數(shù)是否回文數(shù),用字符串來處理就很簡單
a=1234321#整數(shù)
if str(a)==str(a)[::-1]:#借助字符串反轉(zhuǎn)比較就可以確定是否回文數(shù)。
還比如元組b=(1,3,2,4),元組是不可以更新刪除排序成員的,但是列表是可以的,通過列表函數(shù)進行轉(zhuǎn)換來實現(xiàn)元組的更新刪除和排序。
b=(1,3,2,4)
b=list(b)
b.sort()
b=tuple(b)
這時得到的元組b就是一個升序的元組(1,2,3,4)
再比如你要輸入創(chuàng)建整數(shù)列表或者整數(shù)元組基本上寫法相同,就是用對應(yīng)的函數(shù)來最后處理。
ls=list(map(int,input().split()))#這個就是列表
tup=tuple(map(int,input().split()))#這個就是元組
再比如有個叫集合的,集合有唯一性,可以方便用來去重。
ls=[1,2,3,1,2,3,1,2,3]
ls=list(set(ls))#通過set()去重后,現(xiàn)在的ls里就是[1,2,3]去重后的列表。
value_counts是一種查看表格某列中有多少個不同值的快捷方法,并計算每個不同值有在該列中個數(shù),類似Excel里面的count函數(shù)
其是pandas下面的頂層函數(shù),也可以作用在Series、DataFrame下
常規(guī)用法:
pandas 的 value_counts() 函數(shù)可以對Series里面的每個值進行計數(shù) 并且 排序,默認是降序
可以看出,既可以對分類變量統(tǒng)計,也可以對連續(xù)數(shù)值變量統(tǒng)計
如果是要對結(jié)果升序排列,可以添加 ascending=True 來改變
如果不想看統(tǒng)計的個數(shù),而是想看占比,那么可以設(shè)置 normalize=True 即可,結(jié)果是小數(shù)形式
可以通過apply,對每一列變量進行統(tǒng)計
以上是自己實踐中遇到的一些點,分享出來供大家參考學習,歡迎關(guān)注DataShare公眾號
單純的理解“python中的函數(shù)是一等公民”這句話,可能包含幾層意思:
正確的理解是:第1點和第2點,不包含第3點的意思。
python中的函數(shù)是一等公民,重點想表述的是: 在python世界人人平等 。
人人平等的世界,至少應(yīng)該包含兩層意思:1. 身份地位平等; 2. 行使的權(quán)利平等。
打印結(jié)果是:
從上面的打印結(jié)果中可以看出:
1.Python 程序中的所有數(shù)據(jù)都是某個類的實例,因而是一個對象;
2.類本身也是一個對象。int, float, str, list, dict, set, fuction, module, NoneType, object, type等,這些類都是type類的實例,也是一個對象;
3.object類是所有類的基類
4.object是頂級父類
函數(shù)function和其他公民一樣,他們的都有一個共同的身份:對象 。
在c++和java里,數(shù)據(jù)是數(shù)據(jù),動作是動作,他倆的結(jié)合是類(class)。對于python,數(shù)據(jù)是數(shù)據(jù),動作也可以是數(shù)據(jù),這個牛逼的數(shù)據(jù)叫做對象object。
對于函數(shù)function來講,既可以安靜的做一個數(shù)據(jù),又可以優(yōu)雅的執(zhí)行動作。
Python 官方文檔里這樣解釋 對象(object) 的含義:Python 中的對象是對數(shù)據(jù)的抽象,Python 程序中所有數(shù)據(jù)都是由對象或者對象間的關(guān)系來表示的。每個對象都有各自的編號、類型和值。
兩個祖先(a和b)占了相鄰的兩塊內(nèi)存,一個可以與它的“后代”共用內(nèi)存,一個卻只能讓“后代”另立門戶;當它們走完自己的生命周期后,b會馬上被當垃圾回收,內(nèi)存地址遺產(chǎn)被剝奪,然而a卻形滅而實存,蔭庇后世。
Python為這些對象傾斜資源,也就是為某種階層固化提供了合法性。劃分的依據(jù)是因為它們比較常用,共用內(nèi)存就意味著減少開支,提高內(nèi)存使用效率。
這就是Python有趣的地方了,一面是全體公民,一面是特權(quán)種族,組成了看似矛盾的二元對立結(jié)構(gòu)。
參考: