數(shù)據(jù)去重可以使用duplicated()和drop_duplicates()兩個方法。
DataFrame.duplicated(subset = None,keep =‘first' )返回boolean Series表示重復(fù)行
參數(shù):
subset:列標簽或標簽序列,可選
僅考慮用于標識重復(fù)項的某些列,默認情況下使用所有列
keep:{‘first',‘last',F(xiàn)alse},默認'first'
import numpy as np import pandas as pd from pandas import Series, DataFrame df = pd.read_csv('./demo_duplicate.csv') print(df) print(df['Seqno'].unique()) # [0. 1.] # 使用duplicated 查看 重復(fù)值 # 參數(shù) keep 可以標記重復(fù)值 {'first','last',F(xiàn)alse} print(df['Seqno'].duplicated()) ''' 0 False 1 True 2 True 3 True 4 False Name: Seqno, dtype: bool ''' # 刪除 series 重復(fù)數(shù)據(jù) print(df['Seqno'].drop_duplicates()) ''' 0 0.0 4 1.0 Name: Seqno, dtype: float64 ''' # 刪除 dataframe 重復(fù)數(shù)據(jù) print(df.drop_duplicates(['Seqno'])) # 按照 Seqno 來 去重 ''' Price Seqno Symbol time 0 1623.0 0.0 APPL 1473411962 4 1649.0 1.0 APPL 1473411963 ''' # drop_dujplicates() 第二個參數(shù) keep 包含的值 有: first、last、False print(df.drop_duplicates(['Seqno'], keep='last')) # 保存最后一個 ''' Price Seqno Symbol time 3 1623.0 0.0 APPL 1473411963 4 1649.0 1.0 APPL 1473411963 '''
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機、免備案服務(wù)器”等云主機租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。