這篇文章主要介紹了Python如何實(shí)現(xiàn)Excel數(shù)據(jù)的探索和清洗,具有一定借鑒價(jià)值,感興趣的朋友可以參考下,希望大家閱讀完這篇文章之后大有收獲,下面讓小編帶著大家一起了解一下。
我們提供的服務(wù)有:成都網(wǎng)站制作、成都網(wǎng)站設(shè)計(jì)、外貿(mào)營(yíng)銷網(wǎng)站建設(shè)、微信公眾號(hào)開(kāi)發(fā)、網(wǎng)站優(yōu)化、網(wǎng)站認(rèn)證、孟津ssl等。為成百上千企事業(yè)單位解決了網(wǎng)站和推廣的問(wèn)題。提供周到的售前咨詢和貼心的售后服務(wù),是有科學(xué)管理、有技術(shù)的孟津網(wǎng)站制作公司
Python是一種跨平臺(tái)的、具有解釋性、編譯性、互動(dòng)性和面向?qū)ο蟮哪_本語(yǔ)言,其最初的設(shè)計(jì)是用于編寫(xiě)自動(dòng)化腳本,隨著版本的不斷更新和新功能的添加,常用于用于開(kāi)發(fā)獨(dú)立的項(xiàng)目和大型項(xiàng)目。
數(shù)據(jù)的探索和清洗
1、讀取Excel文件的數(shù)據(jù)并轉(zhuǎn)換為dataframe
# 1.讀取Excel文件的數(shù)據(jù)并轉(zhuǎn)換為dataframe file = "d:/test/Summary/Data_Summary.xlsx" data_raw = pd.read_excel(file, header=0, index_col=0) # header設(shè)定為0:是為了使第1行的數(shù)據(jù)成為列的字段名
2、查看數(shù)據(jù)集的整體狀態(tài),了解基本特征列的情況
data_raw.head()
3、刪除無(wú)效的數(shù)據(jù)列
remove_col = ["序號(hào)"] data_prep0 = data_raw.drop(columns=remove_col, axis=1, inplace=None) data_prep0.head()
4、查看數(shù)據(jù)集的整體信息,了解缺失值的分布情況
data_prep0.info()
5、檢看數(shù)據(jù)集中缺失值的狀態(tài)并刪除缺失值
data_prep = data_prep0.dropna(subset=["產(chǎn)品"], axis=0) data_prep.info()
6、檢查數(shù)據(jù)集中重復(fù)值的狀態(tài)并刪除重復(fù)值
print("數(shù)據(jù)集中的重復(fù)值數(shù)量:", np.sum(data_prep.duplicated())) # 如果重復(fù)值的數(shù)量不為"0", 則表示有重復(fù)值存在,可使用下列代碼刪除 # data_prep.drop_duplicates(keep="first", inplace=True)
感謝你能夠認(rèn)真閱讀完這篇文章,希望小編分享的“Python如何實(shí)現(xiàn)Excel數(shù)據(jù)的探索和清洗”這篇文章對(duì)大家有幫助,同時(shí)也希望大家多多支持創(chuàng)新互聯(lián),關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,更多相關(guān)知識(shí)等著你來(lái)學(xué)習(xí)!