這篇文章主要講解了“Pandas數(shù)據(jù)結(jié)構(gòu)的基礎(chǔ)用法”,文中的講解內(nèi)容簡單清晰,易于學(xué)習(xí)與理解,下面請(qǐng)大家跟著小編的思路慢慢深入,一起來研究和學(xué)習(xí)“Pandas數(shù)據(jù)結(jié)構(gòu)的基礎(chǔ)用法”吧!
創(chuàng)新互聯(lián)建站一直在為企業(yè)提供服務(wù),多年的磨煉,使我們?cè)趧?chuàng)意設(shè)計(jì),全網(wǎng)整合營銷推廣到技術(shù)研發(fā)擁有了開發(fā)經(jīng)驗(yàn)。我們擅長傾聽企業(yè)需求,挖掘用戶對(duì)產(chǎn)品需求服務(wù)價(jià)值,為企業(yè)制作有用的創(chuàng)意設(shè)計(jì)體驗(yàn)。核心團(tuán)隊(duì)擁有超過10多年以上行業(yè)經(jīng)驗(yàn),涵蓋創(chuàng)意,策化,開發(fā)等專業(yè)領(lǐng)域,公司涉及領(lǐng)域有基礎(chǔ)互聯(lián)網(wǎng)服務(wù)綿陽主機(jī)托管、成都App定制開發(fā)、手機(jī)移動(dòng)建站、網(wǎng)頁設(shè)計(jì)、網(wǎng)絡(luò)整合營銷。
head()與tail()用于快速預(yù)覽Series與DataFrame,默認(rèn)顯示5條數(shù)據(jù),也可以指定顯示數(shù)據(jù)的數(shù)量。
屬性與底層數(shù)據(jù)
Pandas可以通過多個(gè)屬性訪問元數(shù)據(jù):
shape:輸出對(duì)象的軸維度,與ndarray一致
軸標(biāo)簽:
Series:Index(僅有此軸)
DataFrame:Index(行)與列
Pandas對(duì)象(Index、Series、DataFrame)相當(dāng)于數(shù)組的容器,用于存儲(chǔ)數(shù)據(jù)、執(zhí)行計(jì)算。大部分類型的底層數(shù)組都是numpy.ndarray。不過,Pandas與第三方支持庫一般都會(huì)擴(kuò)展NumPy類型系統(tǒng),添加自定義數(shù)組。
.array屬性用于提取Index或Series里的數(shù)據(jù)。
array一般指ExtensionArray。
提取NumPy數(shù)組,用to_numpy()或numpy.asarray()。
Series與Index的類型是ExtensionArray時(shí),to_numpy()會(huì)復(fù)制數(shù)據(jù),并強(qiáng)制轉(zhuǎn)換值。
to_numpy()可以控制numpy.ndarray生成的數(shù)據(jù)類型。以帶時(shí)區(qū)的datetme為例,NumPy未提供時(shí)區(qū)信息的datetime數(shù)據(jù)類型,Pandas則提供了兩種表現(xiàn)形式:
1.一種是帶Timestamp的numpy.ndarray,提供了正確的tz信息。
2.另一種是datetime64[ns],這也是一種numpy.ndarray,值被轉(zhuǎn)化為UTC,但去掉了時(shí)區(qū)信息。
時(shí)區(qū)信息可以用dtype=object保存
或用dtype=’datetime64[ns]’去除。
提取DataFrame里的原數(shù)據(jù)稍微有點(diǎn)復(fù)雜。DataFrame里所有列的數(shù)據(jù)類型都一樣時(shí),DataFrame.to_numpy()返回底層數(shù)據(jù):
DataFrame為同構(gòu)型數(shù)據(jù)時(shí),Pandas直接修改原始ndarray,所以修改會(huì)直接反應(yīng)在數(shù)據(jù)結(jié)構(gòu)里。對(duì)于異構(gòu)型數(shù)據(jù),即DataFrame列的數(shù)據(jù)類型不一樣時(shí),就不是這種操作模式了,與軸標(biāo)簽不同,不能為值的屬性賦值。
這里我們要注意處理異構(gòu)型數(shù)據(jù)時(shí),輸出結(jié)果ndarray的數(shù)據(jù)類型適用于涉及的各類數(shù)據(jù)。若DataFrame里包含字符串,輸出結(jié)構(gòu)的數(shù)據(jù)類型就是object。要是只有浮點(diǎn)數(shù)或整數(shù),則輸出結(jié)果的數(shù)據(jù)類型是浮點(diǎn)數(shù)。
以前,Pandas推薦用Series.values或DataFrame.values從Series或DataFrame里提取數(shù)據(jù)。
但Pandas改進(jìn)了此功能,現(xiàn)在,推薦用.array或to_numpy提取數(shù)據(jù),別再用.values了。
.values有以下2個(gè)缺點(diǎn):
1.Series含擴(kuò)展類型時(shí),Series.values無法判斷到底是改返回NumPy array,還是返回Extension array。而Series.array則只返回ExtensionArray,且不會(huì)復(fù)制數(shù)據(jù)。Series.to_numpy則返回NumPy數(shù)組,其代價(jià)是需要復(fù)制、并強(qiáng)制轉(zhuǎn)換數(shù)據(jù)的值。
2.DataFrame含多種數(shù)據(jù)類型時(shí),DataFrame.values會(huì)復(fù)制數(shù)據(jù),并將數(shù)據(jù)的值強(qiáng)制轉(zhuǎn)換同一種數(shù)據(jù)類型,這是一種代價(jià)較高的操作。DataFrame.to_numpy()則返回NumPy數(shù)組,這種方式更清晰,也不會(huì)把DataFrame里的數(shù)據(jù)都當(dāng)作一種類型。
借助numexpr與bottleneck支持庫,Pandas可以加速特定類型的二進(jìn)制數(shù)值與布爾操作。
處理大型數(shù)據(jù)集時(shí),這兩個(gè)支持庫特別有用,加速效果也非常明顯。numexpr使用智能分塊、緩存與多核技術(shù)。bottleneck是一組專屬cython例程,處理含nans值的數(shù)組時(shí),特別快。
請(qǐng)看下面這個(gè)例子(DataFrame包含100列×10萬行數(shù)據(jù)):
這兩個(gè)支持庫默認(rèn)為啟用狀態(tài),可用以下選項(xiàng)設(shè)置:
感謝各位的閱讀,以上就是“Pandas數(shù)據(jù)結(jié)構(gòu)的基礎(chǔ)用法”的內(nèi)容了,經(jīng)過本文的學(xué)習(xí)后,相信大家對(duì)Pandas數(shù)據(jù)結(jié)構(gòu)的基礎(chǔ)用法這一問題有了更深刻的體會(huì),具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是創(chuàng)新互聯(lián),小編將為大家推送更多相關(guān)知識(shí)點(diǎn)的文章,歡迎關(guān)注!