Pandas如何處理大數(shù)據(jù)

小編給大家分享一下Pandas如何處理大數(shù)據(jù)，相信大部分人都還不怎么了解，因此分享這篇文章給大家參考一下，希望大家閱讀完這篇文章后大有收獲，下面讓我們一起去了解一下吧！

成都創(chuàng)新互聯(lián)公司一直在為企業(yè)提供服務，多年的磨煉，使我們在創(chuàng)意設計，網(wǎng)絡營銷推廣到技術研發(fā)擁有了開發(fā)經(jīng)驗。我們擅長傾聽企業(yè)需求，挖掘用戶對產(chǎn)品需求服務價值，為企業(yè)制作有用的創(chuàng)意設計體驗。核心團隊擁有超過十多年以上行業(yè)經(jīng)驗，涵蓋創(chuàng)意，策化，開發(fā)等專業(yè)領域，公司涉及領域有基礎互聯(lián)網(wǎng)服務成都服務器托管、App定制開發(fā)、手機移動建站、網(wǎng)頁設計、網(wǎng)絡整合營銷。

大文本數(shù)據(jù)的讀寫

有時候我們會拿到一些很大的文本文件，完整讀入內(nèi)存，讀入的過程會很慢，甚至可能無法讀入內(nèi)存，或者可以讀入內(nèi)存，但是沒法進行進一步的計算，這個時候如果我們不是要進行很復雜的運算，可以使用read_csv提供的chunksize或者iterator參數(shù)，來部分讀入文件，處理完之后再通過to_csv的mode='a'，將每部分結果逐步寫入文件。

to_csv, to_excel的選擇

在輸出結果時統(tǒng)稱會遇到輸出格式的選擇，平時大家用的最多的.csv, .xls, .xlsx，后兩者一個是excel2003，一個是excel2007，我的經(jīng)驗是csv>xls>xlsx，大文件輸出csv比輸出excel要快的多，xls只支持60000+條記錄，xlsx雖然支持記錄變多了，但是，如果內(nèi)容有中文常常會出現(xiàn)詭異的內(nèi)容丟失。因此，如果數(shù)量較小可以選擇xls，而數(shù)量較大則建議輸出到csv，xlsx還是有數(shù)量限制，而且大數(shù)據(jù)量的話，會讓你覺得python都死掉了

讀入時處理日期列

我之前都是在數(shù)據(jù)讀入后通過to_datetime函數(shù)再去處理日期列，如果數(shù)據(jù)量較大這又是一個浪費時間的過程，其實在讀入數(shù)據(jù)時，可以通過parse_dates參數(shù)來直接指定解析為日期的列。它有幾種參數(shù)，TRUE的時候會將index解析為日期格式，將列名作為list傳入則將每一個列都解析為日期格式

關于to_datetime函數(shù)再多說幾句，我們拿到的時期格式常常出現(xiàn)一些亂七八糟的怪數(shù)據(jù)，遇到這些數(shù)據(jù)to_datimetime函數(shù)默認會報錯，其實，這些數(shù)據(jù)是可以忽略的，只需要在函數(shù)中將errors參數(shù)設置為'ignore'就可以了。

另外，to_datetime就像函數(shù)名字顯示的，返回的是一個時間戳，有時我們只需要日期部分，我們可以在日期列上做這個修改，datetime_col = datetime_col.apply(lambda x: x.date())，用map函數(shù)也是一樣的datetime_col = datetime_col.map(lambda x: x.date())

把一些數(shù)值編碼轉(zhuǎn)化為文字

前面提到了map方法，我就又想到了一個小技巧，我們拿到的一些數(shù)據(jù)往往是通過數(shù)字編碼的，比如我們有gender這一列，其中0代表男，1代表女。當然我們可以用索引的方式來完成

Pandas如何處理大數(shù)據(jù)

其實我們有更簡單的方法，對要修改的列傳入一個dict，就會達到同樣的效果。

Pandas如何處理大數(shù)據(jù)

通過shift函數(shù)求用戶的相鄰兩次登錄記錄的時間差

之前有個項目需要計算用戶相鄰兩次登錄記錄的時間差，咋看起來其實這個需求很簡單，但是數(shù)據(jù)量大起來的話，就不是一個簡單的任務，拆解開來做的話，需要兩個步驟，***步將登錄數(shù)據(jù)按照用戶分組，再計算每個用戶兩次登錄之間的時間間隔。數(shù)據(jù)的格式很單純，如下所示

Pandas如何處理大數(shù)據(jù)

如果數(shù)據(jù)量不大的，可以先unique uid，再每次計算一個用戶的兩次登錄間隔，類似這樣 Pandas如何處理大數(shù)據(jù)

這種方法雖然計算邏輯比較清晰易懂，但是缺點也非常明顯，計算量巨大，相當與有多少量記錄就要計算多少次。

那么為什么說pandas的shift函數(shù)適合這個計算呢?來看一下shift函數(shù)的作用

Pandas如何處理大數(shù)據(jù)

剛好把值向下錯位了一位，是不是恰好是我們需要的。讓我們用shift函數(shù)來改造一下上面的代碼。

Pandas如何處理大數(shù)據(jù)

上面的代碼就把pandas向量化計算的優(yōu)勢發(fā)揮出來了，規(guī)避掉了計算過程中最耗費時間的按uid循環(huán)。如果我們的uid都是一個只要排序后用shift(1)就可以取到所有前一次登錄的時間，不過真實的登錄數(shù)據(jù)中有很多的不用的uid，因此再將uid也shift一下命名為uid0，保留uid和uid0匹配的記錄就可以了。

以上是“Pandas如何處理大數(shù)據(jù)”這篇文章的所有內(nèi)容，感謝各位的閱讀！相信大家都有了一定的了解，希望分享的內(nèi)容對大家有所幫助，如果還想學習更多知識，歡迎關注創(chuàng)新互聯(lián)行業(yè)資訊頻道！

文章標題：Pandas如何處理大數(shù)據(jù)
網(wǎng)站路徑：http://weahome.cn/article/pehgge.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

Pandas如何處理大數(shù)據(jù)

其他資訊

網(wǎng)站制作

企業(yè)服務

網(wǎng)站建設

服務器托管