python中的pandas模塊中對(duì)重復(fù)數(shù)據(jù)去重步驟:
創(chuàng)新互聯(lián)2013年至今,公司自成立以來(lái)始終致力于為企業(yè)提供官網(wǎng)建設(shè)、移動(dòng)互聯(lián)網(wǎng)業(yè)務(wù)開(kāi)發(fā)(小程序設(shè)計(jì)、手機(jī)網(wǎng)站建設(shè)、重慶APP開(kāi)發(fā)等),并且包含互聯(lián)網(wǎng)基礎(chǔ)服務(wù)(域名、主機(jī)服務(wù)、企業(yè)郵箱、網(wǎng)絡(luò)營(yíng)銷(xiāo)等)應(yīng)用服務(wù);以先進(jìn)完善的建站體系及不斷開(kāi)拓創(chuàng)新的精神理念,幫助企業(yè)客戶實(shí)現(xiàn)互聯(lián)網(wǎng)業(yè)務(wù),嚴(yán)格把控項(xiàng)目進(jìn)度與質(zhì)量監(jiān)控加上過(guò)硬的技術(shù)實(shí)力獲得客戶的一致贊譽(yù)。1)利用DataFrame中的duplicated方法返回一個(gè)布爾型的Series,顯示各行是否有重復(fù)行,沒(méi)有重復(fù)行顯示為FALSE,有重復(fù)行顯示為T(mén)RUE;
2)再利用DataFrame中的drop_duplicates方法用于返回一個(gè)移除了重復(fù)行的DataFrame。
注釋:
如果duplicated方法和drop_duplicates方法中沒(méi)有設(shè)置參數(shù),則這兩個(gè)方法默認(rèn)會(huì)判斷全部咧,如果在這兩個(gè)方法中加入了指定的屬性名(或者稱為列名),例如:frame.drop_duplicates(['state']),則指定部分列(state列)進(jìn)行重復(fù)項(xiàng)的判斷。
具體實(shí)例如下:
>>> import pandas as pd >>> data={'state':[1,1,2,2],'pop':['a','b','c','d']} >>> frame=pd.DataFrame(data) >>> frame pop state 0 a 1 1 b 1 2 c 2 3 d 2 >>> IsDuplicated=frame.duplicated() >>> print IsDuplicated 0 False 1 False 2 False 3 False dtype: bool >>> frame=frame.drop_duplicates(['state']) >>> frame pop state 0 a 1 2 c 2 >>> IsDuplicated=frame.duplicated(['state']) >>> print IsDuplicated 0 False 2 False dtype: bool >>>