真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網站制作重慶分公司

Hive中數據倉庫層級如何劃分-創(chuàng)新互聯(lián)

這篇文章主要介紹Hive中數據倉庫層級如何劃分,文中介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們一定要看完!

讓客戶滿意是我們工作的目標,不斷超越客戶的期望值來自于我們對這個行業(yè)的熱愛。我們立志把好的技術通過有效、簡單的方式提供給客戶,將通過不懈努力成為客戶在信息化領域值得信任、有價值的長期合作伙伴,公司提供的服務項目有:域名注冊、虛擬空間、營銷軟件、網站建設、大邑縣網站維護、網站推廣。

1.數據倉庫的四個操作

ETL(extractiontransformation loading)負責將分散的、異構數據源中的數據抽取到臨時中間層后進行清洗、轉換、集成,最后加載到數據倉庫或數據集市中。ETL 是實施數據倉庫的核心和靈魂,ETL規(guī)則的設計和實施約占整個數據倉庫搭建工作量的 60%~80%.

(1)數據抽取(extraction)包括初始化數據裝載和數據刷新:初始化數據裝載主要關注的是如何建立維表、事實表,并把相應的數據放到這些數據表中;而數據刷新關注的是當源數據發(fā)生變化時如何對數據倉庫中的相應數據進行追加和更新等維護(比如可以創(chuàng)建定時任務,或者觸發(fā)器的形式進行數據的定時刷新)。

(2)數據清洗主要是針對源數據庫中出現的二義性、重復、不完整、違反業(yè)務或邏輯規(guī)則等問題的數據進行統(tǒng)一的處理。即清洗掉不符合業(yè)務或者沒用的的數據。比如通過編寫hive或者MR清洗字段中長度不符合要求的數據。

(3)數據轉換(transformation)主要是為了將數據清洗后的數據轉換成數據倉庫所需要的數據:來源于不同源系統(tǒng)的同一數據字段的數據字典或者數據格式可能不一樣(比如A表中叫id,B表中叫ids),在數據倉庫中需要給它們提供統(tǒng)一的數據字典和格式,對數據內容進行歸一化;另一方面,數據倉庫所需要的某些字段的內容可能是源系統(tǒng)所不具備的,而是需要根據源系統(tǒng)中多個字段的內容共同確定。

(4)數據加載(loading)是將最后上面處理完的數據導入到對應的存儲空間里(mysql等)以方便給數據集市提供,進而可視化。一般大公司為了數據

安全和操作方便,都是自己封裝的數據平臺和任務調度平臺,底層封裝了大數據集群比如hadoop集群,spark集群,sqoop,hive,zookeepr,hbase等只提供web界面,并且對于不同員工加以不同權限,然后對集群進行不同的操作和調用。以數據倉庫為例,將數據倉庫分為邏輯上的幾個層次。這樣對于不同層次的數據操作,創(chuàng)建不同層次的任務,可以放到不同層次的任務流中進行執(zhí)行(大公司一個集群通常每天的定時任務有幾千個等待執(zhí)行,甚至上萬個,所以劃分不同層次的任務流,不同層次的任務放到對應的任務流中進行執(zhí)行,會更加方便管理和維護)。

2.數據倉庫的四個邏輯架構層次

數據倉庫標準上可以分為四層。但是注意這種劃分和命名不是唯一的,一般數倉都是四層,但是不同公司可能叫法不同。比如這里的臨時層叫復制層SSA,京東則叫BDM。同樣阿里巴巴卻是五層數倉結構,更加詳細,但是核心的理念都是從四層數據模型而來。

(1)復制層(SSA,system-of-records-staging-area)

SSA 直接復制源系統(tǒng)(比如從mysql中讀取所有數據導入到hive中的同結構表中,不做處理)的數據,盡量保持業(yè)務數據的原貌;與源系統(tǒng)數據唯一不同的是,SSA 中的數據在源系統(tǒng)數據的基礎上加入了時間戳的信息,形成了多個版本的歷史數據信息。

(2)原子層(SOR,system-of-record)

SOR 是基于模型開發(fā)的一套符合 3NF 范式規(guī)則的表結構,它存儲了數據倉庫內最細層次的數據,并按照不同的主題域對數據分類存儲;比如高校數據統(tǒng)計服務平臺根據目前部分需求將全校數據在 SOR 層中按人事、學生、教學、科研四大主題存儲;SOR 是整個數據倉庫的核心和基礎,在設計過程中應具有足夠的靈活性,以能應對添加更多的數據源、支持更多的分析需求,同時能夠支持進一步的升級和更新.

(3)匯總層(SMA,summary-area)

SMA 是 SOR和DM(集市層) 的中間過渡,由于 SOR 是高度規(guī)范化數據,此要完成一個查詢需要大量的關聯(lián)工作,同時DM 中的數據粒度往往要比 SOR 高很多,對要生DM 中的匯總數據需要進行大量的匯總工作,此,SMA 根據需求把 SOR 數據進行適度的反范(例如,設計寬表結構將人員信息、干部信息等多表的數據合并起來)和匯總(例如,一些常用的頭匯總、機構匯總等);從而提高數據倉庫查詢性能。

(4)集市層/展現層(DM, data mart)

DM 保存的數據供用戶直接訪問的:可以將 DM 理解成最終用戶接最終想要看的數據;DM 主要是各類粒度的事數據,通過提供不同粒度的數據,適應不同的數訪問需求;高校數據統(tǒng)計服務平臺 DM 中的數據。

以上是“Hive中數據倉庫層級如何劃分”這篇文章的所有內容,感謝各位的閱讀!希望分享的內容對大家有幫助,更多相關知識,歡迎關注創(chuàng)新互聯(lián)行業(yè)資訊頻道!


新聞名稱:Hive中數據倉庫層級如何劃分-創(chuàng)新互聯(lián)
轉載來源:http://weahome.cn/article/ddeshg.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部