本篇內(nèi)容主要講解“大數(shù)據(jù)研發(fā)的基本概念是什么”,感興趣的朋友不妨來(lái)看看。本文介紹的方法操作簡(jiǎn)單快捷,實(shí)用性強(qiáng)。下面就讓小編來(lái)帶大家學(xué)習(xí)“大數(shù)據(jù)研發(fā)的基本概念是什么”吧!
為都蘭等地區(qū)用戶(hù)提供了全套網(wǎng)頁(yè)設(shè)計(jì)制作服務(wù),及都蘭網(wǎng)站建設(shè)行業(yè)解決方案。主營(yíng)業(yè)務(wù)為網(wǎng)站設(shè)計(jì)制作、網(wǎng)站設(shè)計(jì)、都蘭網(wǎng)站設(shè)計(jì),以傳統(tǒng)方式定制建設(shè)網(wǎng)站,并提供域名空間備案等一條龍服務(wù),秉承以專(zhuān)業(yè)、用心的態(tài)度為用戶(hù)提供真誠(chéng)的服務(wù)。我們深信只要達(dá)到每一位用戶(hù)的要求,就會(huì)得到認(rèn)可,從而選擇與我們長(zhǎng)期合作。這樣,我們也可以走得更遠(yuǎn)!
你了解你的數(shù)據(jù)嗎?
前幾天突然來(lái)了點(diǎn)靈感,想梳理一下自己對(duì)數(shù)據(jù)的理解,因此便有了這篇博客或者說(shuō)這系列博客來(lái)聊聊數(shù)據(jù)。
數(shù)據(jù)從業(yè)者有很多,比如說(shuō)數(shù)據(jù)開(kāi)發(fā)工程師、數(shù)據(jù)倉(cāng)庫(kù)工程師、數(shù)據(jù)分析師、數(shù)據(jù)挖掘工程師、數(shù)據(jù)產(chǎn)品經(jīng)理等等,不同崗位的童鞋對(duì)數(shù)據(jù)的理解有很大的不一樣,而且側(cè)重點(diǎn)也不同。那么,是否有一些數(shù)據(jù)相關(guān)的基礎(chǔ)知識(shí)是所有數(shù)據(jù)從業(yè)者都值得了解的?不同的崗位對(duì)數(shù)據(jù)的理解又有多大的不同?數(shù)據(jù)開(kāi)發(fā)工程師是否有必要去了解數(shù)據(jù)分析師是如何看待數(shù)據(jù)的?
本系列博客會(huì)嘗試去學(xué)習(xí)、挖掘和總結(jié)這些內(nèi)容,在數(shù)據(jù)的海洋中一起裝x一起飛。
開(kāi)篇先上幾個(gè)問(wèn)題:
你知道自己的系統(tǒng)數(shù)據(jù)接入量是多少嗎?
你知道數(shù)據(jù)的分布情況嗎?
你知道自己常用的數(shù)據(jù)有什么隱藏的坑嗎?
如果你對(duì)前面說(shuō)的問(wèn)題有不太了解的,那么我們就可以在以后的內(nèi)容中一起愉快地交流和探討。如果前面說(shuō)的問(wèn)題你的回答都是 “Yes”,那么我還是會(huì)嘗試用新的問(wèn)題來(lái)留住你。比如說(shuō):
既然你知道系統(tǒng)的數(shù)據(jù)接入量,那你知道每天的數(shù)據(jù)量波動(dòng)嗎?波動(dòng)量在多大范圍內(nèi)是正常情況?
你知道的數(shù)據(jù)分布情況是什么樣子的?除了性別、年齡和城市的分布,還有什么分布?
在偌大的數(shù)據(jù)倉(cāng)庫(kù)中,哪些數(shù)據(jù)被使用最多,哪些數(shù)據(jù)又無(wú)人問(wèn)津,這些你了解嗎?
在最常用的那批數(shù)據(jù)中,有哪些核心的維度?有相同維度的兩個(gè)表之間的數(shù)據(jù)口徑是否也一樣?
假設(shè)你對(duì)上面的問(wèn)題有稍許困惑或者感興趣,我們正式開(kāi)始對(duì)數(shù)據(jù)的認(rèn)知之旅。
現(xiàn)在,我們粗略地將數(shù)據(jù)從業(yè)者分為數(shù)據(jù)集群運(yùn)維、數(shù)據(jù)開(kāi)發(fā)工程師、數(shù)據(jù)倉(cāng)庫(kù)工程師、數(shù)據(jù)分析師、數(shù)據(jù)挖掘工程師和數(shù)據(jù)產(chǎn)品經(jīng)理,這一小節(jié)先起一個(gè)引子來(lái)大致說(shuō)明不同崗位對(duì)數(shù)據(jù)的了解是不同的,后文會(huì)詳細(xì)地說(shuō)明細(xì)節(jié)內(nèi)容。
首先要說(shuō)明的是,在工作中數(shù)據(jù)相關(guān)的職位都是有很多重合的,很難一刀切區(qū)分不同崗位的職責(zé),比如說(shuō)數(shù)據(jù)開(kāi)發(fā)工程師本身就是一個(gè)很大的概念,他可以做數(shù)據(jù)接入、數(shù)據(jù)清洗、數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)、數(shù)據(jù)挖掘算法開(kāi)發(fā)等等,再比如說(shuō)數(shù)據(jù)分析師,很多數(shù)據(jù)分析師既要做數(shù)據(jù)分析,又要做一些提數(shù)的需求,有時(shí)候還要自己做各種處理。
公司的數(shù)據(jù)團(tuán)隊(duì)越大,相應(yīng)的崗位職責(zé)就會(huì)越細(xì)分,反之亦然。在這里我們姑且用數(shù)據(jù)開(kāi)發(fā)工程師和數(shù)據(jù)倉(cāng)庫(kù)工程師做對(duì)比來(lái)說(shuō)明不同職責(zé)的同學(xué)對(duì)數(shù)據(jù)理解的側(cè)重點(diǎn)有什么不同。我們假設(shè)數(shù)據(jù)開(kāi)發(fā)工程師側(cè)重于數(shù)據(jù)的接入、存儲(chǔ)和基本的數(shù)據(jù)處理,數(shù)據(jù)倉(cāng)庫(kù)工程師側(cè)重于數(shù)據(jù)模型的設(shè)計(jì)和開(kāi)發(fā)(比如維度建模)。
數(shù)據(jù)開(kāi)發(fā)工程師對(duì)數(shù)據(jù)最基本的了解是需要知道數(shù)據(jù)的接入狀態(tài),比如說(shuō)每天總共接入多少數(shù)據(jù),整體數(shù)據(jù)量是多大,接入的業(yè)務(wù)有多少,每個(gè)業(yè)務(wù)的接入量多大,多大波動(dòng)范圍是正常?然后還要對(duì)數(shù)據(jù)的存儲(chǔ)周期有一個(gè)把握,比如說(shuō)有多少表的存儲(chǔ)周期是30天,有多少是90天?集群每日新增的存儲(chǔ)量是多大,多久后集群存儲(chǔ)會(huì)撐爆?
數(shù)據(jù)倉(cāng)庫(kù)工程師對(duì)上面的內(nèi)容也要有一定的感知力,但是會(huì)有所區(qū)別,比如說(shuō),數(shù)據(jù)倉(cāng)庫(kù)工程師會(huì)更關(guān)注自己倉(cāng)庫(kù)建模中用到業(yè)務(wù)的數(shù)據(jù)狀態(tài)。然后還需要知道終點(diǎn)業(yè)務(wù)的數(shù)據(jù)分布,比如說(shuō)用戶(hù)表中的年齡分布、性別分布、地域分布等。除此之外還應(yīng)關(guān)注數(shù)據(jù)口徑問(wèn)題,比如說(shuō)有很多份用戶(hù)資料表,每張表的性別取值是否都是:男、女、未知,還是說(shuō)會(huì)有用數(shù)值類(lèi)型:1男、2女、0未知。
然后數(shù)據(jù)開(kāi)發(fā)工程師對(duì)數(shù)據(jù)異常的側(cè)重點(diǎn)可能會(huì)在今天的數(shù)據(jù)是否延遲落地,總量是否波動(dòng)很大,數(shù)據(jù)可用率是否正常。
數(shù)據(jù)倉(cāng)庫(kù)工程師對(duì)數(shù)據(jù)異常的側(cè)重點(diǎn)則可能是,今天落地的數(shù)據(jù)中性別為 0 的數(shù)據(jù)量是否激增(這可能會(huì)造成數(shù)據(jù)傾斜),某一個(gè)關(guān)鍵維度取值是否都為空。
上面的例子可能都會(huì)在一個(gè)數(shù)據(jù)質(zhì)量監(jiān)控系統(tǒng)中一起解決,但是我們?cè)谶@里不討論系統(tǒng)的設(shè)計(jì),而是先有整體的意識(shí)和思路。
到此,相信大家對(duì)“大數(shù)據(jù)研發(fā)的基本概念是什么”有了更深的了解,不妨來(lái)實(shí)際操作一番吧!這里是創(chuàng)新互聯(lián)網(wǎng)站,更多相關(guān)內(nèi)容可以進(jìn)入相關(guān)頻道進(jìn)行查詢(xún),關(guān)注我們,繼續(xù)學(xué)習(xí)!