怎么理解Python的數(shù)據(jù)操作庫Pandas

本篇內(nèi)容主要講解“怎么理解Python的數(shù)據(jù)操作庫Pandas”，感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷，實(shí)用性強(qiáng)。下面就讓小編來帶大家學(xué)習(xí)“怎么理解Python的數(shù)據(jù)操作庫Pandas”吧!

在唐山等地區(qū)，都構(gòu)建了全面的區(qū)域性戰(zhàn)略布局，加強(qiáng)發(fā)展的系統(tǒng)性、市場前瞻性、產(chǎn)品創(chuàng)新能力，以專注、極致的服務(wù)理念，為客戶提供成都網(wǎng)站設(shè)計(jì)、成都網(wǎng)站建設(shè) 網(wǎng)站設(shè)計(jì)制作按需規(guī)劃網(wǎng)站,公司網(wǎng)站建設(shè),企業(yè)網(wǎng)站建設(shè),成都品牌網(wǎng)站建設(shè),網(wǎng)絡(luò)營銷推廣,成都外貿(mào)網(wǎng)站建設(shè)公司,唐山網(wǎng)站建設(shè)費(fèi)用合理。

了解Pandas

要很好地理解pandas，關(guān)鍵之一是要理解pandas是一系列其他python庫的包裝器。主要的有Numpy、SQL alchemy、Matplot lib和openpyxl。

data frame的核心內(nèi)部模型是一系列NumPy數(shù)組和pandas函數(shù)。

pandas利用其他庫來從data frame中獲取數(shù)據(jù)。例如，SQL alchemy通過read_sql和to_sql函數(shù)使用;openpyxl和xlsx writer用于read_excel和to_excel函數(shù)。而Matplotlib和Seaborn則用于提供一個(gè)簡單的接口，使用諸如df.plot()這樣的命令來繪制data frame中可用的信息。

Numpy的Pandas-高效的Pandas

您經(jīng)常聽到的抱怨之一是Python很慢，或者難以處理大量數(shù)據(jù)。通常情況下，這是由于編寫的代碼的效率很低造成的。原生Python代碼確實(shí)比編譯后的代碼要慢。不過，像Pandas這樣的庫提供了一個(gè)用于編譯代碼的python接口，并且知道如何正確使用這個(gè)接口。

向量化操作

與底層庫Numpy一樣，pandas執(zhí)行向量化操作的效率比執(zhí)行循環(huán)更高。這些效率是由于向量化操作是通過C編譯代碼執(zhí)行的，而不是通過本機(jī)python代碼執(zhí)行的。另一個(gè)因素是向量化操作的能力，它可以對整個(gè)數(shù)據(jù)集進(jìn)行操作，而不只是對一個(gè)子數(shù)據(jù)集進(jìn)行操作。

應(yīng)用接口允許通過使用CPython接口進(jìn)行循環(huán)來獲得一些效率:

df.apply(lambda x: x['col_a'] * x['col_b'], axis=1)

但是，大部分性能收益可以通過使用向量化操作本身獲得，可以直接在pandas中使用，也可以直接調(diào)用它的內(nèi)部Numpy數(shù)組。

通過DTYPES高效地存儲數(shù)據(jù)

當(dāng)通過read_csv、read_excel或其他數(shù)據(jù)幀讀取函數(shù)將數(shù)據(jù)幀加載到內(nèi)存中時(shí)，pandas會進(jìn)行類型推斷，這可能是低效的。這些api允許您明確地利用dtypes指定每個(gè)列的類型。指定dtypes允許在內(nèi)存中更有效地存儲數(shù)據(jù)。

df.astype({'testColumn': str, 'testCountCol': float})

Dtypes是來自Numpy的本機(jī)對象，它允許您定義用于存儲特定信息的確切類型和位數(shù)。

例如，Numpy的類型np.dtype(' int32 ')表示一個(gè)32位長的整數(shù)。pandas默認(rèn)為64位整數(shù)，我們可以節(jié)省一半的空間使用32位:

處理帶有塊的大型數(shù)據(jù)集

pandas允許按塊(chunk)加載數(shù)據(jù)幀中的數(shù)據(jù)。因此，可以將數(shù)據(jù)幀作為迭代器處理，并且能夠處理大于可用內(nèi)存的數(shù)據(jù)幀。

在讀取數(shù)據(jù)源時(shí)定義塊大小和get_chunk方法的組合允許panda以迭代器的方式處理數(shù)據(jù)，如上面的示例所示，其中數(shù)據(jù)幀一次讀取兩行。然后我們可以遍歷這些塊:

i = 0for a in df_iter: # do some processing chunk = df_iter.get_chunk() i += 1 new_chunk = chunk.apply(lambda x: do_something(x), axis=1) new_chunk.to_csv("chunk_output_%i.csv" % i )

它的輸出可以被提供到一個(gè)CSV文件，pickle，導(dǎo)出到數(shù)據(jù)庫，等等。

到此，相信大家對“怎么理解Python的數(shù)據(jù)操作庫Pandas”有了更深的了解，不妨來實(shí)際操作一番吧！這里是創(chuàng)新互聯(lián)網(wǎng)站，更多相關(guān)內(nèi)容可以進(jìn)入相關(guān)頻道進(jìn)行查詢，關(guān)注我們，繼續(xù)學(xué)習(xí)！

文章題目：怎么理解Python的數(shù)據(jù)操作庫Pandas
轉(zhuǎn)載源于：http://weahome.cn/article/iisjes.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

怎么理解Python的數(shù)據(jù)操作庫Pandas

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管