真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

ETL架構(gòu)中的子系統(tǒng)有哪些-創(chuàng)新互聯(lián)

這篇文章主要講解了“ETL架構(gòu)中的子系統(tǒng)有哪些”,文中的講解內(nèi)容簡單清晰,易于學(xué)習(xí)與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學(xué)習(xí)“ETL架構(gòu)中的子系統(tǒng)有哪些”吧!

站在用戶的角度思考問題,與客戶深入溝通,找到棗陽網(wǎng)站設(shè)計與棗陽網(wǎng)站推廣的解決方案,憑借多年的經(jīng)驗(yàn),讓設(shè)計與互聯(lián)網(wǎng)技術(shù)結(jié)合,創(chuàng)造個性化、用戶體驗(yàn)好的作品,建站類型包括:做網(wǎng)站、成都網(wǎng)站設(shè)計、企業(yè)官網(wǎng)、英文網(wǎng)站、手機(jī)端網(wǎng)站、網(wǎng)站推廣、國際域名空間、雅安服務(wù)器托管、企業(yè)郵箱。業(yè)務(wù)覆蓋棗陽地區(qū)。

三個簡單的字母,E-T-L,很容易的讓大家忽視了38個ETL子系統(tǒng)在數(shù)據(jù)倉庫建設(shè)中的重要性。

抽取-轉(zhuǎn)換-加載(ETL)系統(tǒng),或者非正式的稱為“后臺系統(tǒng)”,在建立整個數(shù)據(jù)倉庫系統(tǒng)中占據(jù)了70%的工作量和時間。但是這還不足以說明ETL系統(tǒng)的復(fù)雜性。每個人都理解這三個字母的含義,E,從源系統(tǒng)中將數(shù)據(jù)取出來;T,對這些數(shù)據(jù)做處理;L,加載到最終用戶訪問的表中。

但是當(dāng)我們問及如何來分解這三大步驟時,很多設(shè)計人員都會說,“具體問題,具體分析”。例如,這依賴于不同的數(shù)據(jù)源;這依賴于數(shù)據(jù)的特性;這依賴于腳本語言以及可以使用的ETL工具的情況;這依賴于員工的技術(shù)能力;這還依賴于最終用戶使用的查詢和報表工具。

“具體情況,具體分析”是一個很危險的事情,因?yàn)樗苋菀追Q為系統(tǒng)混亂的一個借口。伴隨著幾千個成功數(shù)據(jù)倉庫項(xiàng)目的經(jīng)歷,我們整理出了一系列的最佳實(shí)踐。

最近的18個月,我們一直在鉆研ETL的實(shí)踐和ETL的產(chǎn)品。我們標(biāo)識出了在每一個數(shù)據(jù)倉庫項(xiàng)目的后臺部分都會涉及到的38個子系統(tǒng)。壞消息是ETL系統(tǒng)確實(shí)占據(jù)了數(shù)據(jù)倉庫項(xiàng)目的大部分資源。好消息是如果你能掌握所有的這些子系統(tǒng),你就可以很容易的使用你的經(jīng)歷來建立成功的數(shù)據(jù)倉庫系統(tǒng)。

1.抽取系統(tǒng)(Extract System)

主要功能包括源數(shù)據(jù)的適配器,推/拖/搬運(yùn)數(shù)據(jù)的工作調(diào)度,對源數(shù)據(jù)的過濾和排序功能,數(shù)據(jù)格式的轉(zhuǎn)換,遷移到ETL環(huán)境后的數(shù)據(jù)暫存功能。

2.變化數(shù)據(jù)捕獲系統(tǒng)(Change Data Capture System)

主要功能包括對源數(shù)據(jù)日志文件的閱讀功能,源數(shù)據(jù)日期和序列號的過濾功能,基于CRC算法的記錄比較功能。

3.數(shù)據(jù)概況分析系統(tǒng)(Data Profiling System)

主要功能包括字段屬性分析,如參照域的分析;結(jié)構(gòu)分析,如主外鍵關(guān)系分析;數(shù)據(jù)規(guī)則分析;值規(guī)則分析等。

4.數(shù)據(jù)清洗系統(tǒng)(Data Cleansing System)

主要功能包括一個典型的數(shù)據(jù)字典驅(qū)動的系統(tǒng),用于解析個體和組織的名稱、地址等信息,也用來解析產(chǎn)品、場所等內(nèi)容;一個“De-duplication”系統(tǒng),用于鑒別和移除個體和組織信息,也用于產(chǎn)品和場所;一個“Surviving”系統(tǒng),使用特定的數(shù)據(jù)合并邏輯,用來保存特定數(shù)據(jù)源的指定字段,這個特定數(shù)據(jù)源的數(shù)據(jù)將成為數(shù)據(jù)倉庫的最終版本;為所有的數(shù)據(jù)源維護(hù)后臺數(shù)據(jù)的對應(yīng)關(guān)系,如自然鍵和代理鍵對應(yīng)關(guān)系等內(nèi)容。

5.數(shù)據(jù)一致性處理系統(tǒng)(Data Conformer System)

主要功能包括標(biāo)識和生成專用的一致性維度屬性、一致性事實(shí)的度量屬性,這兩組屬性作為數(shù)據(jù)整合工作的基礎(chǔ),用來支持跨多個數(shù)據(jù)源的數(shù)據(jù)集成工作。

6.審計維度生成系統(tǒng)(Audit Dimension Assembler System)

主要功能是將與事實(shí)表相關(guān)的元數(shù)據(jù)內(nèi)容加載到一張審計維度表中,這樣最終用戶可以像查看普通維度一樣查看與事實(shí)表相關(guān)的元數(shù)據(jù)。

7.數(shù)據(jù)質(zhì)量過濾系統(tǒng)(Quality Screen Handler System)

主要功能是在ETL的處理過程中自動的檢測所有的數(shù)據(jù)質(zhì)量問題。檢測的結(jié)果將進(jìn)入錯誤事件處理系統(tǒng)(詳見子系統(tǒng)8)。

8.錯誤事件處理系統(tǒng)(Error Event Hander System)

主要功能是全面的記錄和報告在ETL處理中的所有的錯誤事件。包括各類錯誤的分枝處理邏輯,還包括對ETL處理中數(shù)據(jù)質(zhì)量的實(shí)時監(jiān)控。

9.代理鍵生成系統(tǒng)(Surrogate Key Create System)

主要功能是以一種魯棒的機(jī)制生成流水的代理鍵,生成規(guī)則不依賴與任何維度,也不依賴與任何數(shù)據(jù)庫實(shí)例,可以支持分布式系統(tǒng)。

10.緩慢變化維處理系統(tǒng)(Slowly Changing Dimension Processor,SCD)

主要功能是處理維度表的屬性隨時間變化的情況,處理方式為:類型1(直接覆蓋),類型2(生成新行),類型3(添加新列)。

11.遲到維度處理系統(tǒng)(Late Arriving Dimension Handler)

主要功能是當(dāng)維度數(shù)據(jù)的變化情況到達(dá)數(shù)據(jù)準(zhǔn)備區(qū)的時間晚于對應(yīng)的事實(shí)數(shù)據(jù)時,對維度數(shù)據(jù)的插入和更新策略。

12.固定層級結(jié)構(gòu)生成系統(tǒng)(Fixed Hierarchy Dimension Builder)

主要功能是對維度表中各類多對一關(guān)系的層級結(jié)構(gòu)進(jìn)行數(shù)據(jù)有效性檢查和維護(hù)。

13.可變層級結(jié)構(gòu)生成系統(tǒng)(Variable Hierarchy Dimension Builder)

主要功能是對維度表中所有的層深可變的層級結(jié)構(gòu)的的數(shù)據(jù)有效性檢查和維度,例如組織的層級結(jié)構(gòu),零件的層級結(jié)構(gòu)等。

14.多值維度橋接表生成系統(tǒng)(Multivalued Dimension Bridge Table Builder)

主要功能是建立和維護(hù)橋接表,用來描述維度間的多對多關(guān)系。

15.雜項(xiàng)維度生成系統(tǒng)(Junk Dimension Builder)

主要功能是將來自多個數(shù)據(jù)源的多個低基數(shù)的標(biāo)志字段、狀態(tài)字段等小型維度建立成一個雜項(xiàng)維度,并對之進(jìn)行維護(hù)。

16.交易粒度事實(shí)表加載系統(tǒng)(Transaction grain fact table loader)

主要功能是更新交易粒度事實(shí)表,包括對數(shù)據(jù)、索引和分區(qū)的處理。通常是用來處理增量數(shù)據(jù),即最新的數(shù)據(jù)。需要使用代理鍵替換管道系統(tǒng)(詳見子系統(tǒng)19)。

17.周期快照事實(shí)表加載系統(tǒng)(Periodic snapshot grain fact table loader)

主要功能是更新周期快照事實(shí)表,包括對數(shù)據(jù)、索引和分區(qū)的處理。包括對當(dāng)期數(shù)據(jù)的增量更新策略。需要使用代理鍵替換管道系統(tǒng)(詳見子系統(tǒng)19)。

18.累計快照事實(shí)表加載系統(tǒng)(Accumulating snapshot grain fact table loader)

主要功能是更新累積快照事實(shí)表,包括對數(shù)據(jù)、索引和分區(qū)的處理,同時更新維度外鍵和累積事實(shí)。需要使用代理鍵替換管道系統(tǒng)(詳見子系統(tǒng)19)。

19.代理鍵替換管道系統(tǒng)(Surrogate key pipeline)

主要功能是使用多線程技術(shù)將來到數(shù)據(jù)倉庫數(shù)據(jù)的自然鍵替換為代理鍵。

20.遲到事實(shí)處理系統(tǒng)(Late arriving fact handler)

主要功能是處理對遲到事實(shí)記錄的插入和更新策略。

21. 聚合生成系統(tǒng)(Aggregate builder)

主要功能是創(chuàng)建和維護(hù)數(shù)據(jù)庫物理結(jié)構(gòu),比如說聚合表,用于和 query-rewrite 技術(shù)配合使用,以提高數(shù)據(jù)庫查詢性能。也包括獨(dú)立的聚合表和物化表。

22. 多維cube生成系統(tǒng)(Multidimensional cube builder)

主要功能是創(chuàng)建和維護(hù)星型架構(gòu)用于裝載多維cube,包括cube技術(shù)的一些專有工作,比如維度層次結(jié)構(gòu)的維護(hù)。

23. 實(shí)時分區(qū)生成系統(tǒng)(Real-time partition builder)

三種事實(shí)表類型(參照子系統(tǒng)16,17,18)的特殊邏輯在內(nèi)存中維護(hù)著一個“熱分區(qū)”,它只包含最近一次已經(jīng)統(tǒng)計到數(shù)據(jù)倉庫表中以后的部分增量數(shù)據(jù)。

24. 維度管理子系統(tǒng)(Dimension manager system)

顧名思義,它是一個管理維度表的系統(tǒng)。它負(fù)責(zé)從集中存放維度表和事實(shí)表之間的維度一致性,請參照子系統(tǒng)25。

25.事實(shí)管理系統(tǒng)(Fact table provider system)

對應(yīng)于維度表管理系統(tǒng),它是一個事實(shí)表的管理系統(tǒng),它接收從維度管理系統(tǒng)發(fā)過來的一致性維度。包括本地鍵替換,維度版本檢查,和聚合表等維護(hù)系列工作。

26.任務(wù)調(diào)度系統(tǒng)(Job scheduler)

它負(fù)責(zé)ETL任務(wù)的安排和啟動。它能夠等待各種系統(tǒng)條件包括對優(yōu)先級高的任務(wù)完成的依賴。能夠針對異常情況發(fā)送警告。

27.工作流程監(jiān)視系統(tǒng)(Workflow monitor)

它的主要功能是有控制臺和報表系統(tǒng)用以監(jiān)控ETL任務(wù)被任務(wù)調(diào)度系統(tǒng)啟動以后的執(zhí)行狀況。包括處理的記錄條數(shù),錯誤摘要,和執(zhí)行的活動。

28.恢復(fù)和重做系統(tǒng)(Recovery and restart system)

當(dāng)任務(wù)執(zhí)行過程中任務(wù)暫停后的重新啟動,或者是恢復(fù)到任務(wù)執(zhí)行前的狀態(tài)重新執(zhí)行。這個子系統(tǒng)嚴(yán)重依賴于備份子系統(tǒng)(參考子系統(tǒng)38)。

29.并行處理和管道處理系統(tǒng)(Parallelizing/pipelining system)

它的主要功能是利用多處理器,網(wǎng)格計算資源以提高性能,和實(shí)現(xiàn)數(shù)據(jù)流處理。當(dāng)不是寫硬盤操作或者是執(zhí)行過程中等待一個條件的發(fā)生的ETL的情況,是有必要采用并行化和管道化的。

30.異常放大系統(tǒng)(Problem escalation system)

它的主要功能是負(fù)責(zé)在一定的條件下提高錯誤的級別以跟蹤和解決問題。包括簡單錯誤日志記錄,操作者通知,管理員通知和系統(tǒng)開發(fā)人員通知。

31.版本控制系統(tǒng)(Version control system)

使得元數(shù)據(jù)的歸檔能夠有堅固的快照功能,可以查閱某一時刻改變前后的狀態(tài)。能夠遷入和遷出所有ETL模塊和任務(wù)。源代碼對比功能以快速展示改變前后的不同。

32.版本移植系統(tǒng)(Version migration system)

讓程序可以在開發(fā)環(huán)境,測試環(huán)境,正式環(huán)境快速切換。版本控制系統(tǒng)的用于恢復(fù)移植的一個接口,也是配置完整數(shù)據(jù)庫連接信息的一個接口。使得代理鍵生成不依賴于數(shù)據(jù)庫的位置。

33.體系和依賴分析系統(tǒng)(Lineage and dependency analyzer)

對任何選中的數(shù)據(jù)組件,都要展示它的物理數(shù)據(jù)源和所有的后來的轉(zhuǎn)換,不管是選中ETL管道中間的組件,或者是選中最終的數(shù)據(jù)結(jié)果,都一樣展示。對任何選中的數(shù)據(jù)組件,都要展示它的下游的數(shù)據(jù)組件和可能會造成改變的最終數(shù)據(jù)結(jié)果的字段結(jié)構(gòu),不管是選中ETL管道中間的組件,或者是選中數(shù)據(jù)源,都一樣展示。

34.符合規(guī)定報告系統(tǒng)(Compliance reporter)

符合規(guī)定的規(guī)則以證明系統(tǒng)報告的可信度。證明數(shù)據(jù)和轉(zhuǎn)換沒有改變。展示誰訪問過或者改變過任何數(shù)據(jù)。

35.安全控制系統(tǒng)(Security system)

在ETL的管道中,實(shí)現(xiàn)對所有數(shù)據(jù)和元數(shù)據(jù)基于角色的權(quán)限控制。證明模塊的版本沒有改變。展示誰做過任何更改。

36.備份系統(tǒng)(Backup system)

對數(shù)據(jù)和元數(shù)據(jù)的備份,用于以后的數(shù)據(jù)的恢復(fù),重啟,安全,和符合規(guī)定的要求。

37.元數(shù)據(jù)管理系統(tǒng)(Metadata repository manager)

用于捕獲和維護(hù)所有ETL的元數(shù)據(jù)的系統(tǒng),包括所有轉(zhuǎn)換邏輯。包括處理元數(shù)據(jù),技術(shù)元數(shù)據(jù)和業(yè)務(wù)邏輯元數(shù)據(jù)。

38.項(xiàng)目管理系統(tǒng)(Project management system)

對所有ETL任務(wù)進(jìn)行開發(fā)的跟蹤系統(tǒng)。

感謝各位的閱讀,以上就是“ETL架構(gòu)中的子系統(tǒng)有哪些”的內(nèi)容了,經(jīng)過本文的學(xué)習(xí)后,相信大家對ETL架構(gòu)中的子系統(tǒng)有哪些這一問題有了更深刻的體會,具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是創(chuàng)新互聯(lián),小編將為大家推送更多相關(guān)知識點(diǎn)的文章,歡迎關(guān)注!


文章名稱:ETL架構(gòu)中的子系統(tǒng)有哪些-創(chuàng)新互聯(lián)
URL鏈接:http://weahome.cn/article/gjjhj.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部