這篇文章主要講解了“done文件的數(shù)據(jù)監(jiān)控問題有哪些”,文中的講解內(nèi)容簡(jiǎn)單清晰,易于學(xué)習(xí)與理解,下面請(qǐng)大家跟著小編的思路慢慢深入,一起來研究和學(xué)習(xí)“done文件的數(shù)據(jù)監(jiān)控問題有哪些”吧!
公司主營(yíng)業(yè)務(wù):網(wǎng)站設(shè)計(jì)、成都做網(wǎng)站、移動(dòng)網(wǎng)站開發(fā)等業(yè)務(wù)。幫助企業(yè)客戶真正實(shí)現(xiàn)互聯(lián)網(wǎng)宣傳,提高企業(yè)的競(jìng)爭(zhēng)能力。成都創(chuàng)新互聯(lián)公司是一支青春激揚(yáng)、勤奮敬業(yè)、活力青春激揚(yáng)、勤奮敬業(yè)、活力澎湃、和諧高效的團(tuán)隊(duì)。公司秉承以“開放、自由、嚴(yán)謹(jǐn)、自律”為核心的企業(yè)文化,感謝他們對(duì)我們的高要求,感謝他們從不同領(lǐng)域給我們帶來的挑戰(zhàn),讓我們激情的團(tuán)隊(duì)有機(jī)會(huì)用頭腦與智慧不斷的給客戶帶來驚喜。成都創(chuàng)新互聯(lián)公司推出桃城免費(fèi)做網(wǎng)站回饋大家。
除了像Alibaba
的 Dataworks 外,很難有另外的公司能夠把數(shù)據(jù)調(diào)度,數(shù)據(jù)監(jiān)控,數(shù)據(jù)血緣,元數(shù)據(jù)管理等作為一體化的平臺(tái)了,包括我司在內(nèi)的一些廠,往往把這些建設(shè)獨(dú)立開來,由不同的團(tuán)隊(duì)負(fù)責(zé),其中數(shù)據(jù)平臺(tái)調(diào)度功能是絕大多數(shù)公司都有的基礎(chǔ)平臺(tái),但是調(diào)度的功能程度就各不同了,下面的問題當(dāng)作拋磚引玉,指出在生產(chǎn)環(huán)境中常遇到的問題,如果后續(xù)有產(chǎn)出,后面盡量開源一些代碼出來,貼到本博客最后面。
監(jiān)控從大的層面來說有兩種,一種是監(jiān)控用來攔截的,即有依賴的,一種只是用來報(bào)警和分析的。
由于依賴接入源較多,以下問題常有發(fā)生:
一般處理過程:花費(fèi)時(shí)間30m+ 處理-延時(shí)問題→ 去易創(chuàng)上找依賴圖,確認(rèn)是哪個(gè)上游產(chǎn)出表沒有產(chǎn)出->復(fù)制表名->去數(shù)據(jù)地圖里面找負(fù)責(zé)人->一般會(huì)拉群跟進(jìn)-->等處理完-->同步或者不同步/關(guān)注方→同步產(chǎn)出好了
處理過程: 需要對(duì)最終的產(chǎn)出標(biāo)簽的分布等進(jìn)行質(zhì)量監(jiān)控,暫時(shí)沒有->如果發(fā)現(xiàn)以后->復(fù)制表名->去數(shù)據(jù)地圖里面找負(fù)責(zé)人->一般會(huì)拉群跟進(jìn)-->等處理完-->同步或者不同步/關(guān)注方→回溯數(shù)據(jù)->通知使用方數(shù)據(jù)問題
花費(fèi)時(shí)間60m +數(shù)據(jù)質(zhì)量問題 (條數(shù),時(shí)間戳)→ 一般只有等標(biāo)簽使用方發(fā)現(xiàn)才能意識(shí)到->問題復(fù)現(xiàn)->復(fù)制表名->去數(shù)據(jù)地圖里面找負(fù)責(zé)人->一般會(huì)拉群跟進(jìn)-->等處理完→同步或者不同步/關(guān)注方→同步產(chǎn)出好了
有一些例行的,必須在每天xx點(diǎn)產(chǎn)出的數(shù)據(jù),如果沒有生成好,就要人為去挨個(gè)找上游負(fù)責(zé)人去找問題,與1.1.3中的問題類似,都是要手動(dòng)找上游。
基于以上問題,我們發(fā)現(xiàn)這些問題,都是監(jiān)控不完善,完善的監(jiān)控應(yīng)該是怎么樣的呢?
在已知問題內(nèi),只要給表或者數(shù)據(jù)的標(biāo)簽分布加了監(jiān)控,那么當(dāng)出現(xiàn)問題時(shí)候,可以自動(dòng)通知到數(shù)據(jù)使用方,數(shù)據(jù)發(fā)布方,當(dāng)問題拋出來給某人以后,他可以選擇,將此次報(bào)警置為處理中,后續(xù)在xx時(shí)間內(nèi)處理好,如果處理不好繼續(xù)報(bào)警,但是報(bào)警范圍可能更大,比如給負(fù)責(zé)人經(jīng)理電話,郵件,短信,拉群艾特等。這樣有另外一個(gè)好處是數(shù)據(jù)的sla在一定程度上保證了,可以過后來查問題,或者在未來的“某些特殊場(chǎng)合”使用到。
需求如上,那么設(shè)計(jì)
監(jiān)控獨(dú)立于調(diào)度系統(tǒng),與調(diào)度系統(tǒng)唯一的交互是done文件,調(diào)度在done文件產(chǎn)出后才繼續(xù)執(zhí)行。
1.2.0 為什么基于done文件呢?
任務(wù)依賴,對(duì)于任務(wù)依賴來說,為了對(duì)數(shù)據(jù)源的質(zhì)量檢測(cè),就要對(duì)每個(gè)任務(wù)進(jìn)行配置任務(wù)檢測(cè)依賴,會(huì)有兩個(gè)問題,其一是任務(wù)檢測(cè)腳本會(huì)更分散,其二,檢測(cè)邏輯很多是類似的,也會(huì)造成腳本冗余
表依賴,檢測(cè)位置是表的分區(qū),那么當(dāng)數(shù)據(jù)質(zhì)量檢測(cè)通過后,生成一個(gè)表的分區(qū),最終就是類似 dt=xxxx/rule=check_t1_count.done 類似這樣 通過add partition 來添加
文件依賴,跟表依賴類似之處就是生成一個(gè)done文件,區(qū)別之處在于可以直接通過服務(wù)來調(diào)用生成done,較方便所以選文件依賴
1.2.1 done文件由一個(gè)唯一的表名+任務(wù)id.done組成
1.2.2 單點(diǎn)報(bào)警 + 多層處理報(bào)警,如果A表怎么樣,B表怎么樣,就報(bào)警給誰(shuí),具體有產(chǎn)出延時(shí),失敗報(bào)警
感謝各位的閱讀,以上就是“done文件的數(shù)據(jù)監(jiān)控問題有哪些”的內(nèi)容了,經(jīng)過本文的學(xué)習(xí)后,相信大家對(duì)done文件的數(shù)據(jù)監(jiān)控問題有哪些這一問題有了更深刻的體會(huì),具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是創(chuàng)新互聯(lián),小編將為大家推送更多相關(guān)知識(shí)點(diǎn)的文章,歡迎關(guān)注!