這篇文章將為大家詳細(xì)講解有關(guān)python如何去重函數(shù),小編覺(jué)得挺實(shí)用的,因此分享給大家做個(gè)參考,希望大家閱讀完這篇文章后可以有所收獲。
創(chuàng)新互聯(lián)公司主營(yíng)奎文網(wǎng)站建設(shè)的網(wǎng)絡(luò)公司,主營(yíng)網(wǎng)站建設(shè)方案,成都app開(kāi)發(fā),奎文h5微信小程序開(kāi)發(fā)搭建,奎文網(wǎng)站營(yíng)銷(xiāo)推廣歡迎奎文等地區(qū)企業(yè)咨詢(xún)
數(shù)據(jù)去重可以使用duplicated()和drop_duplicates()兩個(gè)方法。
DataFrame.duplicated(subset = None,keep =‘first’)返回boolean Series表示重復(fù)行
參數(shù):
subset:列標(biāo)簽或標(biāo)簽序列,可選
僅考慮用于標(biāo)識(shí)重復(fù)項(xiàng)的某些列,默認(rèn)情況下使用所有列
keep:{‘first’,‘last’,F(xiàn)alse},默認(rèn)’first’
first:標(biāo)記重復(fù),True除了第一次出現(xiàn)。
last:標(biāo)記重復(fù),True除了最后一次出現(xiàn)。
錯(cuò)誤:將所有重復(fù)項(xiàng)標(biāo)記為T(mén)rue。
import numpy as np import pandas as pd from pandas import Series, DataFrame df = pd.read_csv('./demo_duplicate.csv') print(df) print(df['Seqno'].unique()) # [0. 1.] # 使用duplicated 查看重復(fù)值 # 參數(shù) keep 可以標(biāo)記重復(fù)值 {'first','last',F(xiàn)alse} print(df['Seqno'].duplicated()) ''' 0 False 1 True 2 True 3 True 4 False Name: Seqno, dtype: bool ''' # 刪除 series 重復(fù)數(shù)據(jù) print(df['Seqno'].drop_duplicates()) ''' 0 0.0 4 1.0 Name: Seqno, dtype: float64 ''' # 刪除 dataframe 重復(fù)數(shù)據(jù) print(df.drop_duplicates(['Seqno'])) # 按照 Seqno 來(lái)去重 ''' Price Seqno Symbol time 0 1623.0 0.0 APPL 1473411962 4 1649.0 1.0 APPL 1473411963 ''' # drop_dujplicates() 第二個(gè)參數(shù) keep 包含的值 有: first、last、False print(df.drop_duplicates(['Seqno'], keep='last')) # 保存最后一個(gè) ''' Price Seqno Symbol time 3 1623.0 0.0 APPL 1473411963 4 1649.0 1.0 APPL 1473411963 '''
關(guān)于python如何去重函數(shù)就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,可以學(xué)到更多知識(shí)。如果覺(jué)得文章不錯(cuò),可以把它分享出去讓更多的人看到。