這篇文章給大家分享的是有關(guān)Python數(shù)據(jù)挖掘如何進行預(yù)處理的內(nèi)容。小編覺得挺實用的,因此分享給大家做個參考。一起跟隨小編過來看看吧。
創(chuàng)新互聯(lián)是一家專注于成都做網(wǎng)站、成都網(wǎng)站設(shè)計與策劃設(shè)計,江干網(wǎng)站建設(shè)哪家好?創(chuàng)新互聯(lián)做網(wǎng)站,專注于網(wǎng)站建設(shè)10多年,網(wǎng)設(shè)計領(lǐng)域的專業(yè)建站公司;建站業(yè)務(wù)涵蓋:江干等地區(qū)。江干做網(wǎng)站價格咨詢:028-86922220Python數(shù)據(jù)預(yù)處理實戰(zhàn)
常見的數(shù)據(jù)預(yù)處理方法如下內(nèi)容:
1、缺失值處理
缺失值是指在一組數(shù)據(jù)中,某行數(shù)據(jù)缺失的某個特征值。
2、異常值處理
異常值產(chǎn)生的原因往往是數(shù)據(jù)在采集時發(fā)生了錯誤,如在采集數(shù)字68時發(fā)生了錯誤,誤將其采集成680。
3、數(shù)據(jù)集成
相較于上文的缺失值處理和異常值處理,數(shù)據(jù)集成是一種較為簡單的數(shù)據(jù)預(yù)處理方式。
接下來以淘寶商品數(shù)據(jù)為例,介紹一下上文預(yù)處理的實戰(zhàn)。
在進行數(shù)據(jù)預(yù)處理之前,首先需要從MySQL數(shù)據(jù)庫中導(dǎo)入淘寶商品數(shù)據(jù)。在開啟MySQL數(shù)據(jù)庫之后,對其中的taob表進行查詢,得到了如下的輸出:
可以看到,taob表中有四個字段。其中title字段用于存儲淘寶商品的名稱;link字段存儲淘寶商品的鏈接;price存儲淘寶商品的價格;comment存儲淘寶商品的評論數(shù)(一定程度上代表商品的銷量)。
通過pymysql連接數(shù)據(jù)庫(如果出現(xiàn)亂碼,則對pymysql的源碼進行修改),連接成功后,將taob中的數(shù)據(jù)全部檢索出來,然后借助pandas中的read_sql()方法便可以將數(shù)據(jù)導(dǎo)入到內(nèi)存中。
感謝各位的閱讀!關(guān)于Python數(shù)據(jù)挖掘如何進行預(yù)處理就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,讓大家可以學(xué)到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到吧!