df.drop_duplicates('item_name')
東營ssl適用于網(wǎng)站、小程序/APP、API接口等需要進(jìn)行數(shù)據(jù)傳輸應(yīng)用場景,ssl證書未來市場廣闊!成為創(chuàng)新互聯(lián)建站的ssl證書銷售渠道,可以享受市場價格4-6折優(yōu)惠!如果有意向歡迎電話聯(lián)系或者加微信:13518219792(備注:SSL證書合作)期待與您的合作!
方法一:
df.drop_duplicates('item_name').count()
方法二:
df['item_name'].nunique()
結(jié)果:50
附:nunique()和unique()的區(qū)別:
unique()是以 數(shù)組形式(numpy.ndarray)返回列的所有唯一值(特征的所有唯一值)
nunique()即返回的是唯一值的個數(shù)
比如:df['item_name'].unique()
要求:將下表中經(jīng)驗(yàn)列將按周統(tǒng)計(jì)的轉(zhuǎn)換為經(jīng)驗(yàn)不限,保留學(xué)歷
df1['經(jīng)驗(yàn)'] = df1['經(jīng)驗(yàn)'].apply(lambda x: '經(jīng)驗(yàn)不限'+ x[-2:] if '周' in x else x)
#解釋:將‘5天/周6個月’變成‘經(jīng)驗(yàn)不限’,然后保留學(xué)歷‘本科’
方法二:定義函數(shù)
def dataInterval(ss):
if '周' in ss:
? ? return '經(jīng)驗(yàn)不限'+ ss[-2:]
return ss
df1['經(jīng)驗(yàn)'] = df1['經(jīng)驗(yàn)'].apply(dataInterval)
Python count()方法用于統(tǒng)計(jì)字符串里某個字符或子字符串出現(xiàn)的次數(shù),可選參數(shù)為在字符串搜索的開始與結(jié)束位置。
語法
count()方法語法:
str.count(sub, start= 0,end=len(string))
參數(shù)
sub -- 搜索的子字符串
start -- 字符串開始搜索的位置,默認(rèn)為第一個字符,第一個字符索引值為0
end -- 字符串中結(jié)束搜索的位置,字符中第一個字符的索引為0,默認(rèn)為字符串的最后一個位置。
返回值
該方法返回子字符串在字符串中出現(xiàn)的次數(shù)。
以下代碼的功能是 統(tǒng)計(jì)列表中重復(fù)項(xiàng)的出現(xiàn)次數(shù)
這里面就用到了 count() 函數(shù)
mylist = ['apple', 'banana', 'grape', 'banana', 'apple', 'grape', 'grape']
myset = set(mylist)
for item in myset:
print("the %s has been found %d times" % (item, mylist.count(item)))
函數(shù)COUNT在計(jì)數(shù)時,將把數(shù)值型的數(shù)字計(jì)算進(jìn)去;但是錯誤值、空值、邏輯值、日期、文字則被忽略。
如果參數(shù)是一個數(shù)組或引用,那么只統(tǒng)計(jì)數(shù)組或引用中的數(shù)字;數(shù)組中或引用的空單元格、邏輯值、文字或錯誤值都將忽略。如果要統(tǒng)計(jì)邏輯值、文字或錯誤值,請使用函數(shù)COUNTA(COUNTIF按EXCEL的說明也行,但常出毛?。?。
排序過程
假設(shè)輸入的線性表L的長度為n,L=L1,L2,..,Ln;線性表的元素屬于有限偏序集S,|S|=k且k=O(n),S={S1,S2,..Sk};則計(jì)數(shù)排序可以描述如下:
1、掃描整個集合S,對每一個Si∈S,找到在線性表L中小于等于Si的元素的個數(shù)T(Si);
2、掃描整個線性表L,對L中的每一個元素Li,將Li放在輸出線性表的第T(Li)個位置上,并將T(Li)減1。
以上內(nèi)容參考:百度百科-計(jì)數(shù)排序