這段時(shí)間和一些做數(shù)據(jù)分析的同學(xué)閑聊,我發(fā)現(xiàn)數(shù)據(jù)分析技能入門(mén)階段存在一個(gè)普遍性的問(wèn)題,很多憑著興趣入坑的同學(xué),都能夠很快熟悉Python基礎(chǔ)語(yǔ)法,好像自己什么都會(huì)了一點(diǎn),然而實(shí)際操作起來(lái)既不知從何操起,又漏洞百出。
成都創(chuàng)新互聯(lián)專(zhuān)注于潁上企業(yè)網(wǎng)站建設(shè),響應(yīng)式網(wǎng)站,商城開(kāi)發(fā)。潁上網(wǎng)站建設(shè)公司,為潁上等地區(qū)提供建站服務(wù)。全流程按需網(wǎng)站建設(shè),專(zhuān)業(yè)設(shè)計(jì),全程項(xiàng)目跟蹤,成都創(chuàng)新互聯(lián)專(zhuān)業(yè)和態(tài)度為您提供的服務(wù)至于原因嘛, 理解不夠,實(shí)踐不夠是兩條老牌的攔路虎,只能靠自己來(lái)克服。還有一個(gè)非常有意思且經(jīng)常被忽視的因素—— 陷入舉三反一的懵逼狀態(tài)。
什么意思呢?假如我是個(gè)旱鴨子,想去學(xué)游泳,教練很認(rèn)真的給我剖析了蛙泳的動(dòng)作,扶著我的腰讓我在水里劃拉了5分鐘,接著馬上給我講解了蝶泳,又是劃拉了5分鐘,然后又硬塞給我潛泳的姿勢(shì),依然是劃拉5分鐘。最后,教練一下子把我丟進(jìn)踩不到底的泳池,給我吶喊助威。
作為一個(gè)還沒(méi)入門(mén)的旱鴨子,教練傾囊授了我3種游泳技巧,讓我分別實(shí)踐了5分鐘。這樣做的結(jié)果就是我哪一種游泳技巧也沒(méi)學(xué)會(huì),只學(xué)會(huì)了喝水。 當(dāng)一個(gè)初學(xué)者一開(kāi)始就陷入針對(duì)單個(gè)問(wèn)題的多種解決方法,而每一種方法的實(shí)踐又淺嘗輒止,在面對(duì)具體問(wèn)題時(shí)往往會(huì)手忙腳亂。
拿Pandas來(lái)說(shuō),它的多種構(gòu)造方式,多種索引方式以及類(lèi)似效果的多種實(shí)現(xiàn)方法,很容易把初學(xué)者打入舉三反一的懵逼狀態(tài)。所以,盡量避開(kāi)這個(gè)坑也是我寫(xiě)Pandas基礎(chǔ)系列的初衷,希望通過(guò)梳理和精簡(jiǎn)知識(shí)點(diǎn)的方式,給需要的同學(xué)一些啟發(fā)。目前暫定整個(gè)基礎(chǔ)系列分為4篇,基礎(chǔ)篇過(guò)后便是有趣的實(shí)戰(zhàn)篇。
下面開(kāi)始進(jìn)入正題(我真是太嘮叨了)。
Pandas簡(jiǎn)介
江湖上流傳著這么一句話(huà)——分析不識(shí)潘大師(PANDAS),縱是老手也枉然。
Pandas是基于Numpy的專(zhuān)業(yè)數(shù)據(jù)分析工具,可以靈活高效的處理各種數(shù)據(jù)集,也是我們后期分析案例的神器。它提供了兩種類(lèi)型的數(shù)據(jù)結(jié)構(gòu),分別是DataFrame和Series,我們可以簡(jiǎn)單粗暴的把DataFrame理解為Excel里面的一張表,而Series就是表中的某一列,后面學(xué)習(xí)和用到的所有Pandas騷操作,都是基于這些表和列進(jìn)行的操作(關(guān)于Pandas和Excel的形象關(guān)系,這里推薦我的好朋友張俊紅寫(xiě)的《對(duì)比EXCEL,輕松學(xué)習(xí)Python數(shù)據(jù)分析》)。
這里有一點(diǎn)需要強(qiáng)調(diào),Pandas和Excel、SQL相比,只是調(diào)用和處理數(shù)據(jù)的方式變了, 核心都是對(duì)源數(shù)據(jù)進(jìn)行一系列的處理,在正式處理之前,更重要的是 謀定而后動(dòng),明確分析的意義,理清分析思路之后再處理和分析數(shù)據(jù),往往事半功倍。
創(chuàng)建、讀取和存儲(chǔ)
1、創(chuàng)建
在Pandas中我們想要構(gòu)造下面這一張表應(yīng)該如何操作呢?