這篇文章主要介紹了Pandas1.0的主要功能有哪些,具有一定借鑒價(jià)值,感興趣的朋友可以參考下,希望大家閱讀完這篇文章之后大有收獲,下面讓小編帶著大家一起了解一下。
成都創(chuàng)新互聯(lián)2013年開創(chuàng)至今,先為海珠等服務(wù)建站,海珠等地企業(yè),進(jìn)行企業(yè)商務(wù)咨詢服務(wù)。為海珠企業(yè)網(wǎng)站制作PC+手機(jī)+微官網(wǎng)三網(wǎng)同步一站式服務(wù)解決您的所有建站問(wèn)題。
注意:Pandas 1.0.0rc已于1月9日發(fā)布,先前的版本為0.25。
Pandas首個(gè)全新主要發(fā)行版本包含許多重要功能:更完善的數(shù)據(jù)框自動(dòng)匯總、更全面的輸出格式、全新的數(shù)據(jù)類型以及文檔站點(diǎn)。
在全新的文檔站點(diǎn)上,可以找到完整的發(fā)行說(shuō)明,但小芯認(rèn)為,技術(shù)含量較低的概述也會(huì)有所幫助。
用戶可以使用 pip升級(jí)Pandas,以便使用其新版本。在撰寫本文時(shí),Pandas1.0仍然是候選版本,這意味著要安裝Pandas1.0需要明確指定其版本。
pip install --upgradepandas==1.0.0rc0
當(dāng)然,更新可能會(huì)破壞某些代碼,因?yàn)檫@是主要版本的發(fā)布,因此請(qǐng)務(wù)必小心! 此版本的Pandas不再支持Python 2。運(yùn)行Pandas 1.0+至少需要Python 3.6+,因此請(qǐng)確保使用合適版本的pip 和python。
$ pip --version pip 19.3.1 from /usr/local/lib/python3.7/site-packages/pip (python 3.7)$ python--version Python 3.7.5
用戶可以確認(rèn)一切正常,并且Pandas使用的是正確版本。
>>> import pandas as pd >>> pd.__version__ 1.0.0rc0
使用DataFrame.info更好的自動(dòng)匯總
筆者最喜歡的新功能是優(yōu)化之后的DataFrame.info法?,F(xiàn)在,它使用了更具可讀性的格式,從而使數(shù)據(jù)探索過(guò)程更加容易。
>>> df = pd.DataFrame({ ...: 'A': [1,2,3], ...: 'B': ["goodbye","cruel", "world"], ...: 'C': [False, True, False] ...:}) >>> df.info()RangeIndex: 3 entries, 0 to 2 Data columns (total 3 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 A 3 non-null int64 1 B 3 non-null object 2 C 3 non-null object dtypes: int64(1), object(2) memory usage: 200.0+ bytes
Markdown表的輸出格式
其次,筆者最喜歡的功能是使用新的 DataFrame.to_markdown 法將數(shù)據(jù)幀導(dǎo)出到Markdown表中。
>>> df.to_markdown() | | A | B | C | |---:|----:|:--------|:------| | 0 | 1 | goodbye | False | | 1 | 2 | cruel | True | | 2 | 3 | world | False |
這樣一來(lái),通過(guò)github gists在Medium等地方顯示表格更加便捷。
booleans and strings的新數(shù)據(jù)類型
Pandas1.0還為booleans and strings引入了實(shí)驗(yàn)數(shù)據(jù)類型。
由于這些更改是實(shí)驗(yàn)性的,數(shù)據(jù)類型的API可能會(huì)稍有更改,因此應(yīng)謹(jǐn)慎使用。但是Pandas建議在合理的地方使用這些數(shù)據(jù)類型,將來(lái)的版本將完善諸如regex匹配之類的特定于類型的操作性能。
默認(rèn)情況下,Pandas不會(huì)自動(dòng)將數(shù)據(jù)強(qiáng)制轉(zhuǎn)換為這些類型。但是,如果明確指示Pandas,仍然可以使用它們。
>>> B =pd.Series(["goodbye", "cruel", "world"],dtype="string") >>> C = pd.Series([False, True, False], dtype="bool") >>> df.B = B, df.C = C >>> df.info()RangeIndex: 3 entries, 0 to 2 Data columns (total 3 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 A 3 non-null int64 1 B 3 non-null string 2 C 3 non-null bool dtypes: int64(1), object(1), string(1) memory usage: 200.0+ bytes
注意Dtype列現(xiàn)在如何反應(yīng)新類型的string和bool。
新字符串dtype最實(shí)用的優(yōu)勢(shì)在于,可以從DataFrame中選擇string列。這樣可以更快地僅對(duì)數(shù)據(jù)集的文本成分進(jìn)行分析。
df.select_dtypes("string")
以前,只能通過(guò)顯式使用其名稱來(lái)選擇string類型列。
感謝你能夠認(rèn)真閱讀完這篇文章,希望小編分享的“Pandas1.0的主要功能有哪些”這篇文章對(duì)大家有幫助,同時(shí)也希望大家多多支持創(chuàng)新互聯(lián),關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,更多相關(guān)知識(shí)等著你來(lái)學(xué)習(xí)!