今天就跟大家聊聊有關(guān)Dataphin怎樣幫助企業(yè)萃取數(shù)據(jù)中心,可能很多人都不太了解,為了讓大家更加了解,小編給大家總結(jié)了以下內(nèi)容,希望大家根據(jù)這篇文章可以有所收獲。
創(chuàng)新互聯(lián)是一家專業(yè)提供萬柏林企業(yè)網(wǎng)站建設(shè),專注與網(wǎng)站制作、成都網(wǎng)站設(shè)計(jì)、HTML5、小程序制作等業(yè)務(wù)。10年已為萬柏林眾多企業(yè)、政府機(jī)構(gòu)等服務(wù)。創(chuàng)新互聯(lián)專業(yè)網(wǎng)站建設(shè)公司優(yōu)惠進(jìn)行中。
Dataphin作為阿里巴巴數(shù)據(jù)中臺(tái)OneData (OneModel、OneID、OneService)方法論的產(chǎn)品載體,幫助企業(yè)構(gòu)建三大數(shù)據(jù)中心:基于數(shù)據(jù)集成形成的垂直數(shù)據(jù)中心、基于數(shù)據(jù)開發(fā)沉淀的公共數(shù)據(jù)中心和基于標(biāo)簽工廠構(gòu)建的萃取數(shù)據(jù)中心。今天我們就一起來看看,Dataphin是如何基于OneID思想構(gòu)建數(shù)據(jù)萃取中心,連接上下游應(yīng)用為企業(yè)創(chuàng)造更多價(jià)值的吧~
為什么要建立萃取數(shù)據(jù)中心:提升數(shù)據(jù)價(jià)值密度
首先,我們來看看Dataphin為什么要幫助企業(yè)構(gòu)建自己的萃取數(shù)據(jù)中心?
大數(shù)據(jù)時(shí)代,任何微小的數(shù)據(jù)都可能產(chǎn)生不可思議的價(jià)值。作為智能數(shù)據(jù)構(gòu)建與管理平臺(tái),Dataphin的規(guī)范建模、數(shù)據(jù)處理等核心功能幫助企業(yè)高效整合來自不同業(yè)務(wù)數(shù)據(jù)庫(kù)的海量數(shù)據(jù),沉淀數(shù)據(jù)資產(chǎn),構(gòu)建自己的數(shù)據(jù)中臺(tái),應(yīng)對(duì)大數(shù)據(jù)時(shí)代Volume(大量)、Variety(多樣)、Velocity(高速)方面的挑戰(zhàn)。然而,相比于傳統(tǒng)的小數(shù)據(jù),大數(shù)據(jù)更大的價(jià)值在于從海量不相關(guān)的各類數(shù)據(jù)中,挖掘出對(duì)預(yù)測(cè)分析有參考意義的數(shù)據(jù),提升數(shù)據(jù)價(jià)值密度并應(yīng)用于指導(dǎo)生產(chǎn),從而幫助企業(yè)實(shí)現(xiàn)提效降本的目的。Dataphin的數(shù)據(jù)萃取功能正提供了這樣的能力。
從業(yè)務(wù)視角來看,日常生產(chǎn)和營(yíng)銷活動(dòng)中,不管是人群圈選、選址還是個(gè)性化投放,都離不開標(biāo)簽的指導(dǎo)。標(biāo)簽是對(duì)一個(gè)實(shí)體的立體刻畫(不局限于人,任何可被描述和分析的存在都可以是實(shí)體,如商品、公司等)。不同維度的標(biāo)簽從不同角度對(duì)實(shí)體進(jìn)行描述,例如以零售視角為切入點(diǎn),我們可以從自然屬性(如性別、年齡)、社會(huì)屬性(如經(jīng)濟(jì)狀況、婚姻狀態(tài))、興趣偏好(如喜歡整潔的環(huán)境、希望有漂亮的牙齒)和行業(yè)消費(fèi)偏好(如美妝偏好、母嬰偏好)來對(duì)消費(fèi)者進(jìn)行描述。高質(zhì)量、全面的標(biāo)簽?zāi)軌蛴行У爻橄蟪鲆粋€(gè)實(shí)體的信息全貌,為精準(zhǔn)營(yíng)銷奠定了基礎(chǔ)。
數(shù)據(jù)只有融通才能產(chǎn)生更大的價(jià)值,我們不僅希望可以分析和應(yīng)用大數(shù)據(jù),更希望得到通過跨業(yè)務(wù)單元連接起來的數(shù)據(jù)和精細(xì)化萃取的數(shù)據(jù)。這種情況下,Dataphin數(shù)據(jù)萃取模塊基于業(yè)務(wù)數(shù)據(jù)庫(kù)的原始數(shù)據(jù)和建模研發(fā)等沉淀的數(shù)據(jù)資產(chǎn),將全系統(tǒng)中主數(shù)據(jù)——即貫穿各個(gè)隔離業(yè)務(wù)的核心對(duì)象,進(jìn)行識(shí)別與關(guān)聯(lián)連接,打通業(yè)務(wù)數(shù)據(jù)孤島,進(jìn)一步提煉可直接應(yīng)用的高價(jià)值標(biāo)簽數(shù)據(jù),從而幫助企業(yè)構(gòu)建自己的萃取數(shù)據(jù)中心,并對(duì)接上游應(yīng)用(QuickAudience等)進(jìn)一步指導(dǎo)生產(chǎn)營(yíng)銷活動(dòng)。
如何高效建立萃取數(shù)據(jù)中心:可視化配置,自動(dòng)化生產(chǎn)
Dataphin研發(fā)模塊下的數(shù)據(jù)萃取為我們提供了連接行為數(shù)據(jù)并實(shí)現(xiàn)標(biāo)簽萃取的功能,現(xiàn)階段優(yōu)先支持以消費(fèi)者為對(duì)象的數(shù)據(jù)體系,功能模塊主要包括3 大部分:ID中心、行為中心和標(biāo)簽中心(目前ID中心暫未上線)。此外,運(yùn)維模塊下還提供單獨(dú)的萃取運(yùn)維子模塊,支持從業(yè)務(wù)視角查看萃取相關(guān)的調(diào)度任務(wù)。下面,我們將從幾個(gè)功能模塊的視角給大家介紹Dataphin如何幫助企業(yè)構(gòu)建自己的萃取數(shù)據(jù)中心。
cdn.com/95221d8f99c5611687fcfb363c72554d0071f209.png">
1)ID中心:相關(guān)ID自動(dòng)化識(shí)別與連接
Dataphin基于OneID的思想,以唯一標(biāo)識(shí)打通來自不同平臺(tái)、系統(tǒng)、渠道的數(shù)據(jù),支持通過可視化界面參數(shù)配置的方式,從所有數(shù)據(jù)中提煉并基于算法自動(dòng)識(shí)別各類型ID 之間的映射關(guān)系(購(gòu)物會(huì)員ID、視頻觀看者ID、購(gòu)物設(shè)備mac、觀看設(shè)備IP 等),并將屬于同一實(shí)體的不同類型ID通過唯一的One ID進(jìn)行連接,使得基于ID生產(chǎn)的標(biāo)簽可以聚合到同一實(shí)體,從而對(duì)實(shí)體進(jìn)行更精準(zhǔn)、全面的刻畫。
2)行為中心:沉淀行為元素,構(gòu)建行為規(guī)則
Dataphin目前支持以人的相關(guān)ID 為中心,通過可視化界面表單配置的方式,從來源行為數(shù)據(jù)中提煉進(jìn)而聚攏不同業(yè)務(wù)域下的行為數(shù)據(jù)(如電商購(gòu)物、視頻觀看)。
首先,我們需要從業(yè)務(wù)視角對(duì)行為數(shù)據(jù)進(jìn)行梳理,從中提煉出可復(fù)用的行為元素(行為域、業(yè)務(wù)線、動(dòng)作、對(duì)象、對(duì)象屬性),并通過對(duì)行為元素進(jìn)行組合定義不同的行為(行為域-業(yè)務(wù)線-動(dòng)作-對(duì)象)。行為域聚合業(yè)務(wù)含義一致的行為數(shù)據(jù),如電商域、文娛域;業(yè)務(wù)線基于行為域?qū)⑿袨閿?shù)據(jù)進(jìn)一步細(xì)分,各業(yè)務(wù)線之間相對(duì)獨(dú)立,如淘寶業(yè)務(wù)線、天貓業(yè)務(wù)線;動(dòng)作指行為主體發(fā)出的操作,如購(gòu)買、瀏覽;對(duì)象指行為主體操作的具體事物,如商品、電影;對(duì)象屬性是對(duì)象的描述性信息,如名稱、品牌、年份。通過抽取沉淀行為元素,我們可以將來源數(shù)據(jù)更好地進(jìn)行劃分組合以得到具有明確業(yè)務(wù)含義的行為,如電商域-淘寶-購(gòu)買-商品、文娛域-優(yōu)酷-瀏覽-電影。通過沉淀行為元素,我們可以更好地規(guī)范來源數(shù)據(jù),并減少重復(fù)建設(shè)和人力投入。
給同一行為選擇不同的來源表并添加配置,即生成不同的行為規(guī)則(由行為+來源表唯一確定),后續(xù)標(biāo)簽生產(chǎn)將依賴已經(jīng)構(gòu)建的行為和行為規(guī)則。規(guī)則配置主要包括行為主體ID、對(duì)象、對(duì)象屬性和行為發(fā)生次數(shù),從來源表選擇相應(yīng)的字段,再通過行為規(guī)則的周期調(diào)度任務(wù),我們就能得到持續(xù)更新的行為數(shù)據(jù)作為標(biāo)簽生產(chǎn)的來源。
3)標(biāo)簽中心:高效標(biāo)簽生產(chǎn)
構(gòu)建完成行為和行為規(guī)則后,進(jìn)一步地,我們將基于算法模型,通過簡(jiǎn)單的界面配置定義標(biāo)簽的生成規(guī)則。
標(biāo)簽的配置分為兩大步驟:第一步首先基于定義的行為圈選出某標(biāo)簽需要依賴的行為數(shù)據(jù),接著對(duì)預(yù)期得到的標(biāo)簽值和打標(biāo)方式進(jìn)行配置;第二步需要對(duì)已選的行為數(shù)據(jù)設(shè)置時(shí)間衰減模式,并基于業(yè)務(wù)含義給不同的行為分配不同的權(quán)重。例如,我們認(rèn)為“購(gòu)買母嬰用品”和“觀看親子視頻”的用戶都可以被打上“母嬰人群”的標(biāo)簽,那么第一步,我們將這兩種行為相關(guān)的數(shù)據(jù)都勾選出來,設(shè)置預(yù)期標(biāo)簽值為“母嬰人群”;第二步,我們認(rèn)為近期的行為比之前發(fā)生的行為更有參考性,因此選擇線性衰減模式,給近期行為賦予更大的時(shí)間權(quán)重;同時(shí),基于業(yè)務(wù)經(jīng)驗(yàn),我們認(rèn)為“購(gòu)買母嬰用品”比“觀看親子視頻”更能精確定位到目標(biāo)用戶,所以給“購(gòu)買母嬰用品”行為分配更大的權(quán)重。這樣,我們就完成了“母嬰人群”這樣一個(gè)購(gòu)物偏好標(biāo)簽的生產(chǎn)。
不同于傳統(tǒng)標(biāo)簽生產(chǎn),Dataphin數(shù)據(jù)萃取的用戶只需要關(guān)心標(biāo)簽的具體業(yè)務(wù)含義和規(guī)則,而不用關(guān)心底層算法的實(shí)現(xiàn),通過簡(jiǎn)單的界面操作即可完成標(biāo)簽的配置,并自動(dòng)生成代碼和周期調(diào)度任務(wù),極大程度上降低了標(biāo)簽生產(chǎn)的難度和門檻。
4)萃取運(yùn)維
最后,我們?cè)谳腿∧K配置的行為規(guī)則和標(biāo)簽都會(huì)生成自動(dòng)化調(diào)度的周期任務(wù)。在“運(yùn)維”界面的“萃取運(yùn)維”子模塊下,我們可以從業(yè)務(wù)視角更清晰明了地查看相應(yīng)任務(wù)和對(duì)應(yīng)生成的實(shí)例,并針對(duì)異常調(diào)度通過補(bǔ)數(shù)據(jù)等操作回復(fù)生產(chǎn)。如此一來,業(yè)務(wù)人員也可以配置并查看萃取任務(wù),大大降低了對(duì)技術(shù)人員的依賴。
Dataphin數(shù)據(jù)萃取功能上線后,批量生產(chǎn)十幾個(gè)同類型的標(biāo)簽的時(shí)間從兩周縮短到兩天左右,而且可以監(jiān)控標(biāo)簽生產(chǎn)任務(wù),不管是速度還是正確性上都得到了很大的提升;參與的人員也從原本的數(shù)據(jù)產(chǎn)品經(jīng)理、數(shù)據(jù)研發(fā)工程師、數(shù)據(jù)科學(xué)家為主導(dǎo)轉(zhuǎn)變?yōu)楦嗟臉I(yè)務(wù)角色可以參與甚至主導(dǎo)。
Dataphin萃取數(shù)據(jù)中心的建立,幫助企業(yè)更好的實(shí)現(xiàn)了目標(biāo)對(duì)象相關(guān)ID 的識(shí)別與連接、目標(biāo)對(duì)象所有行為的規(guī)范化結(jié)構(gòu)化聚集和目標(biāo)對(duì)象相關(guān)標(biāo)簽屬性的快速創(chuàng)建,從而快速構(gòu)建企業(yè)自己用戶數(shù)據(jù)資產(chǎn),以便對(duì)接數(shù)據(jù)應(yīng)用類產(chǎn)品,實(shí)現(xiàn)營(yíng)銷投放等。
看完上述內(nèi)容,你們對(duì)Dataphin怎樣幫助企業(yè)萃取數(shù)據(jù)中心有進(jìn)一步的了解嗎?如果還想了解更多知識(shí)或者相關(guān)內(nèi)容,請(qǐng)關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝大家的支持。