本篇內(nèi)容介紹了“數(shù)據(jù)庫(kù)TGI指數(shù)舉例分析”的有關(guān)知識(shí),在實(shí)際案例的操作過程中,不少人都會(huì)遇到這樣的困境,接下來就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!
南丹網(wǎng)站建設(shè)公司創(chuàng)新互聯(lián)公司,南丹網(wǎng)站設(shè)計(jì)制作,有大型網(wǎng)站制作公司豐富經(jīng)驗(yàn)。已為南丹成百上千家提供企業(yè)網(wǎng)站建設(shè)服務(wù)。企業(yè)網(wǎng)站搭建\成都外貿(mào)網(wǎng)站制作要多少錢,請(qǐng)找那個(gè)售后服務(wù)好的南丹做網(wǎng)站的公司定做!
經(jīng)常有一些專業(yè)的數(shù)據(jù)分析報(bào)告,會(huì)提到TGI指數(shù),例如“基于某某TGI指數(shù),我們發(fā)現(xiàn)某類用戶更偏好XX”。對(duì)于不熟悉TGI定義的同學(xué),看到類似的話一定是云山霧罩。這次,我們就來聊一聊什么是TGI指數(shù)
以及怎么樣結(jié)合案例數(shù)據(jù)實(shí)現(xiàn)簡(jiǎn)單的TGI偏好分析
。
對(duì)于TGI指數(shù),百科是這樣解釋的——TGI指數(shù),全稱Target Group Index
,可以反映目標(biāo)群體在特定研究范圍內(nèi)強(qiáng)勢(shì)或者弱勢(shì)。
很好,這個(gè)解釋官方中透漏著專業(yè),專業(yè)中彌漫著晦澀,晦澀的讓人似懂非懂。粗暴翻譯下來,TGI指數(shù)是反應(yīng)偏好的一種指標(biāo)。這樣還是不夠清楚,我們結(jié)合公式理解一下。
TGI指數(shù)計(jì)算公式
= 目標(biāo)群體中具有某一特征的群體所占比例 / 總體中具有相同特征的群體所占比例 * 標(biāo)準(zhǔn)數(shù)100
是不是更暈了?暈就對(duì)了!不暈我們還聊啥呢?
TGI計(jì)算公式中,有三個(gè)關(guān)鍵點(diǎn)需要進(jìn)一步拆解:某一特征
,總體
,目標(biāo)群體
。
隨便舉個(gè)栗子,假設(shè)我們要研究A公司脫發(fā)TGI指數(shù):
某一特征,就是我們想要分析的某種行為或者狀態(tài),這里是脫發(fā)(或者說受脫發(fā)困擾)
總體,是我們研究的所有對(duì)象,即A公司所有人
目標(biāo)群體,是總體中我們感興趣的一個(gè)分組,假設(shè)我們關(guān)注的分組是數(shù)據(jù)部,那目標(biāo)群體就是數(shù)據(jù)部
于是乎,公式中分子目標(biāo)群體中具有某一特征的群體所占比例
可以理解為數(shù)據(jù)部脫發(fā)人數(shù)占數(shù)據(jù)部的比例
,假設(shè)數(shù)據(jù)部有15個(gè)人,有9個(gè)人受脫發(fā)困擾,那數(shù)據(jù)部脫發(fā)人數(shù)占比就是9/15,等于60%。
而分母總體中具有相同特征的群體所占比例
,等同于全公司受脫發(fā)困擾人數(shù)占公司總?cè)藬?shù)的比例
,假設(shè)公司一共500人,有120人受脫發(fā)困擾,那這個(gè)比例是24%。
所以,數(shù)據(jù)部脫發(fā)TGI指數(shù),可以用60% / 24% * 100 = 250,其他部門脫發(fā)TGI指數(shù)計(jì)算邏輯是一樣的,用本部門脫發(fā)人數(shù)占比 / 公司脫發(fā)人數(shù)占比 * 100即可。
TGI指數(shù)大于100,代表著某類用戶更具有相應(yīng)的傾向或者偏好,數(shù)值越大則傾向和偏好越強(qiáng);小于100,則說明該類用戶相關(guān)傾向較弱(和平均相比);而等于100則表示在平均水平。
剛才的例子中,我們瞎掰的數(shù)據(jù)部脫發(fā)TGI指數(shù)是250,遠(yuǎn)遠(yuǎn)高于100,看來搞數(shù)據(jù)的脫發(fā)風(fēng)險(xiǎn)極高,數(shù)據(jù)才是真正的發(fā)際線推手。
下面,我們通過一個(gè)案例來鞏固概念理解,順便熟練Pandas。
背景
:我們最近要推出一款客單比較高的產(chǎn)品,打算在一些城市先試銷,看看這個(gè)數(shù)據(jù),哪些城市的人有高客單偏好,幫我篩選5個(gè)。
看看數(shù)據(jù)到底長(zhǎng)什么樣子:
訂單數(shù)據(jù)包括品牌名
、買家姓名
、付款時(shí)間
、訂單狀態(tài)
和地域
等字段,一共28832條數(shù)據(jù),沒有空值。
客單比較高的定義 = 產(chǎn)品線和歷史數(shù)據(jù)來看,單次購(gòu)買大于50元就算高客單的客戶了。
確認(rèn)了高客單之后,我們的目標(biāo)非常明確:按照高客單偏好給城市做個(gè)排序。這里的偏好,可以用TGI指數(shù)來衡量,我們?cè)俅螐?fù)習(xí)下TGI三個(gè)核心點(diǎn):
特征,高客單,即客戶單次購(gòu)買超過50元
目標(biāo)群體,就是各個(gè)城市,這里我們可以分別計(jì)算出所有城市客戶的高客單偏好
至于總體,就非常直白了,計(jì)算所涉及到的所有客戶即為總體
解題的關(guān)鍵在于,計(jì)算出不同城市,高客單人數(shù)及所占的比例
第一步,我們先判斷每個(gè)用戶是否屬于高客單的人群,所以先按用戶昵稱進(jìn)行分組,看每位用戶的平均支付金額。這里用平均,是因?yàn)橛械目蛻舳啻钨?gòu)買,而每次下單金額也不一樣,故平均之。
接著,定義一個(gè)判斷函數(shù),如果單個(gè)用戶平均支付金額大于50,就打上高客單
的類別,否則為低客單,再用apply函數(shù)調(diào)用:
def if_high(x):if x>50:return '高客單'else:return '低客單'
到這里基于高低客單的用戶初步打標(biāo)已經(jīng)完成。
單個(gè)用戶的金額和客單標(biāo)簽已經(jīng)搞定,下一步就是補(bǔ)充每個(gè)用戶的地域字段,一句pd.merge函數(shù)就能搞定。由于源數(shù)據(jù)是未去重的,我們得先按昵稱去重,不然匹配的結(jié)果會(huì)有許多重復(fù)的數(shù)據(jù):
df_dup = df.loc[df.duplicated('買家昵稱')==False,:]df_merge = pd.merge(gp_user,df_dup,left_on='買家昵稱',right_on='買家昵稱',how='left')df_merge.head()
要計(jì)算每個(gè)城市高客單TGI指數(shù),需要得到每個(gè)城市高客單、低客單的人數(shù)分別是多少。如果用EXCEL的數(shù)據(jù)透視表處理起來就很簡(jiǎn)單,直接把省份和城市拖拽到行的位置,客單類別拖到列的位置,值隨便選一個(gè)字段,只要是統(tǒng)計(jì)就好。
不要慌,這一套操作,Python實(shí)現(xiàn)起來也灰常容易,pivot_table透視表函數(shù)一行就搞定:
df_merge = df_merge[['買家昵稱','客單類別','省份','城市']]result = pd.pivot_table(df_merge,index=['省份','城市'],columns='客單類別',aggfunc='count')result.head()
這樣得到的結(jié)果包含了層次化索引,受篇幅限制就不展開講,我們只要知道要索引得到“高客單”列,需要先索引買家昵稱
,再索引高客單
:
result['買家昵稱']['高客單'].reset_index().head()
這樣,拿到了每個(gè)省市的高客單人數(shù),然后再拿到低客單的人數(shù),進(jìn)行橫向合并:
tgi = pd.merge(result['買家昵稱']['高客單'].reset_index(),result['買家昵稱']['低客單'].reset_index(),left_on=['省份','城市'],right_on=['省份','城市'],how='inner')tgi.head()
我們?cè)倏纯疵總€(gè)城市總?cè)藬?shù)以及高客單人數(shù)占比,來完成目標(biāo)群體中具有某一特征的群體所占比例
這個(gè)分子的計(jì)算:
tgi['總?cè)藬?shù)'] = tgi['高客單'] + tgi['低客單']tgi['高客單占比'] = tgi['高客單']/tgi['總?cè)藬?shù)']tgi.head()
有些非常小眾的城市,高客單或者低客單人數(shù)等于1甚至沒有,而這些值尤其是空值會(huì)影響結(jié)果的計(jì)算,我們要提前檢核數(shù)據(jù):
果然,高客單和低客單都有空值(可以理解為0),從而導(dǎo)致總?cè)藬?shù)也存在空值,而TGI指數(shù)對(duì)于空值來說意義不大,所以我們剔除掉存在空值的行:
tgi = tgi.dropna()
接著統(tǒng)計(jì)總?cè)藬?shù)中,高客單人群的比例,來對(duì)標(biāo)公式中的分母總體中具有相同特征的群體所占比例
:
最后一步,就是TGI指數(shù)的計(jì)算,順便排個(gè)序:
tgi['高客單TGI指數(shù)'] = tgi['高客單占比']/ total_percentage *100tgi = tgi.sort_values('高客單TGI指數(shù)',ascending=False)tgi.head(10)
發(fā)現(xiàn)了一個(gè)嚴(yán)重的問題:高客單TGI指數(shù)排名靠前的城市,總客戶數(shù)幾乎不超過10人,這樣的高客單人口占比,完全沒有說服力。 TGI指數(shù)能夠顯示偏好的強(qiáng)弱,但很容易讓人忽略具體的樣本量大小
,這個(gè)是需要格外注意的。
怎么辦呢?為了加強(qiáng)數(shù)據(jù)整體的信度,先對(duì)總?cè)藬?shù)進(jìn)行篩選,用總?cè)藬?shù)的平均值作為閾值,只保留總?cè)藬?shù)大于平均值的城市:
tgi.loc[tgi['總?cè)藬?shù)'] > tgi['總?cè)藬?shù)'].mean(),:].head(10)
“數(shù)據(jù)庫(kù)TGI指數(shù)舉例分析”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí)可以關(guān)注創(chuàng)新互聯(lián)網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實(shí)用文章!