本篇內(nèi)容介紹了“Python數(shù)據(jù)分析的方法是什么”的有關知識,在實際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領大家學習一下如何處理這些情況吧!希望大家仔細閱讀,能夠?qū)W有所成!
創(chuàng)新新互聯(lián),憑借10余年的網(wǎng)站設計、做網(wǎng)站經(jīng)驗,本著真心·誠心服務的企業(yè)理念服務于成都中小企業(yè)設計網(wǎng)站有超過千家案例。做網(wǎng)站建設,選創(chuàng)新互聯(lián)建站。
TGI計算公式中,有三個關鍵點需要進一步拆解:某一特征,總體,目標群體。
隨便舉個栗子,假設我們要研究A公司脫發(fā)TGI指數(shù):
某一特征,就是我們想要分析的某種行為或者狀態(tài),這里是脫發(fā)(或者說受脫發(fā)困擾)
總體,是我們研究的所有對象,即A公司所有人
目標群體,是總體中我們感興趣的一個分組,假設我們關注的分組是數(shù)據(jù)部,那目標群體就是數(shù)據(jù)部
于是乎,公式中分子“目標群體中具有某一特征的群體所占比例”可以理解為“數(shù)據(jù)部脫發(fā)人數(shù)占數(shù)據(jù)部的比例”,假設數(shù)據(jù)部有15個人,有9個人受脫發(fā)困擾,那數(shù)據(jù)部脫發(fā)人數(shù)占比就是9/15,等于60%。
而分母“總體中具有相同特征的群體所占比例”,等同于“全公司受脫發(fā)困擾人數(shù)占公司總人數(shù)的比例”,假設公司一共500人,有120人受脫發(fā)困擾,那這個比例是24%。
所以,數(shù)據(jù)部脫發(fā)TGI指數(shù),可以用60% / 24% * 100 = 250,其他部門脫發(fā)TGI指數(shù)計算邏輯是一樣的,用本部門脫發(fā)人數(shù)占比 / 公司脫發(fā)人數(shù)占比 * 100即可。
TGI指數(shù)大于100,代表著某類用戶更具有相應的傾向或者偏好,數(shù)值越大則傾向和偏好越強;小于100,則說明該類用戶相關傾向較弱(和平均相比);而等于100則表示在平均水平。
剛才的例子中,我們瞎掰的數(shù)據(jù)部脫發(fā)TGI指數(shù)是250,遠遠高于100,看來搞數(shù)據(jù)的脫發(fā)風險極高,數(shù)據(jù)才是真正的發(fā)際線推手。
下面,我們通過一個案例來鞏固概念理解,順便和潘大師(Pandas)過過招。
項目背景
BOSS拋來一份訂單明細,“小Z啊,我們最近要推出一款客單比較高的產(chǎn)品,打算在一些城市先試銷,你看看這個數(shù)據(jù),哪些城市的人有高客單偏好,幫我篩選5個吧”。
小Z趕緊打開表格,看看數(shù)據(jù)到底長什么樣子:
訂單數(shù)據(jù)包括品牌名、買家姓名、付款時間、訂單狀態(tài)和地域等字段,一共28832條數(shù)據(jù),沒有空值。
粗略看了幾眼源數(shù)據(jù),小Z趕緊明確數(shù)據(jù)需求:“領導,那客單比較高的定義是什么?”
“就我們產(chǎn)品線和歷史數(shù)據(jù)來看,單次購買大于50元就算高客單的客戶了”。
確認了高客單之后,我們的目標非常明確:按照高客單偏好給城市做個排序。這里的偏好,可以用TGI指數(shù)來衡量,我們再次復習下TGI三個核心點:
特征,高客單,即客戶單次購買超過50元
目標群體,就是各個城市,這里我們可以分別計算出所有城市客戶的高客單偏好
至于總體,就非常直白了,計算所涉及到的所有客戶即為總體
解題的關鍵在于,計算出不同城市,高客單人數(shù)及所占的比例。
單個用戶打標
第一步,我們先判斷每個用戶是否屬于高客單的人群,所以先按用戶昵稱進行分組,看每位用戶的平均支付金額。這里用平均,是因為有的客戶多次購買,而每次下單金額也不一樣,故平均之。
接著,定義一個判斷函數(shù),如果單個用戶平均支付金額大于50,就打上“高客單”的類別,否則為低客單,再用apply函數(shù)調(diào)用:
到這里基于高低客單的用戶初步打標已經(jīng)完成。
匹配城市
單個用戶的金額和客單標簽已經(jīng)搞定,下一步就是補充每個用戶的地域字段,一句pd.merge函數(shù)就能搞定。由于源數(shù)據(jù)是未去重的,我們得先按昵稱去重,不然匹配的結果會有許多重復的數(shù)據(jù):
高客單TGI指數(shù)計算
要計算每個城市高客單TGI指數(shù),需要得到每個城市高客單、低客單的人數(shù)分別是多少。如果用EXCEL的數(shù)據(jù)透視表處理起來就很簡單,直接把省份和城市拖拽到行的位置,客單類別拖到列的位置,值隨便選一個字段,只要是統(tǒng)計就好。
不要慌,這一套操作,Python實現(xiàn)起來也灰常容易,pivot_table透視表函數(shù)一行就搞定:
這樣得到的結果包含了層次化索引,受篇幅限制就不展開講,我們只要知道要索引得到“高客單”列,需要先索引“買家昵稱”,再索引“高客單”:
這樣,拿到了每個省市的高客單人數(shù),然后再拿到低客單的人數(shù),進行橫向合并:
我們再看看每個城市總人數(shù)以及高客單人數(shù)占比,來完成“目標群體中具有某一特征的群體所占比例”這個分子的計算:
有些非常小眾的城市,高客單或者低客單人數(shù)等于1甚至沒有,而這些值尤其是空值會影響結果的計算,我們要提前檢核數(shù)據(jù):
果然,高客單和低客單都有空值(可以理解為0),從而導致總人數(shù)也存在空值,而TGI指數(shù)對于空值來說意義不大,所以我們剔除掉存在空值的行:
接著統(tǒng)計總人數(shù)中,高客單人群的比例,來對標公式中的分母“總體中具有相同特征的群體所占比例”:
最后一步,就是TGI指數(shù)的計算,順便排個序:
出了結果,小Z興致勃勃的打算第一時間報告老板,說時遲那時快,在按下回車之前又掃了一眼數(shù)據(jù),發(fā)現(xiàn)了一個嚴重的問題:高客單TGI指數(shù)排名靠前的城市,總客戶數(shù)幾乎不超過10人,這樣的高客單人口占比,完全沒有說服力。
TGI指數(shù)能夠顯示偏好的強弱,但很容易讓人忽略具體的樣本量大小,這個是需要格外注意的。
怎么辦呢?為了加強數(shù)據(jù)整體的信度,小Z決定先對總人數(shù)進行篩選,用總人數(shù)的平均值作為閾值,只保留總人數(shù)大于平均值的城市:
“Python數(shù)據(jù)分析的方法是什么”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關的知識可以關注創(chuàng)新互聯(lián)網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實用文章!