DB、DW、DM、ODS、OLAP、OLTP和BI的概念是什么,相信很多沒(méi)有經(jīng)驗(yàn)的人對(duì)此束手無(wú)策,為此本文總結(jié)了問(wèn)題出現(xiàn)的原因和解決方法,通過(guò)這篇文章希望你能解決這個(gè)問(wèn)題。
站在用戶的角度思考問(wèn)題,與客戶深入溝通,找到鐘山網(wǎng)站設(shè)計(jì)與鐘山網(wǎng)站推廣的解決方案,憑借多年的經(jīng)驗(yàn),讓設(shè)計(jì)與互聯(lián)網(wǎng)技術(shù)結(jié)合,創(chuàng)造個(gè)性化、用戶體驗(yàn)好的作品,建站類(lèi)型包括:成都網(wǎng)站制作、成都做網(wǎng)站、外貿(mào)營(yíng)銷(xiāo)網(wǎng)站建設(shè)、企業(yè)官網(wǎng)、英文網(wǎng)站、手機(jī)端網(wǎng)站、網(wǎng)站推廣、主機(jī)域名、網(wǎng)頁(yè)空間、企業(yè)郵箱。業(yè)務(wù)覆蓋鐘山地區(qū)。
今天特地查了一些官方解釋和很多優(yōu)秀的博客文章,將關(guān)于數(shù)倉(cāng)方面的一些名詞理解記了下來(lái),先將這些簡(jiǎn)稱做一個(gè)解釋?zhuān)?/p>
1、DB(DataBase):數(shù)據(jù)庫(kù),一般指的就是OLTP數(shù)據(jù)庫(kù),在線事物數(shù)據(jù)庫(kù),用來(lái)支持生產(chǎn)的。DB保留的是數(shù)據(jù)信息的最新?tīng)顟B(tài),只有一個(gè)狀態(tài)!
2、DW(Data Warehouse):數(shù)據(jù)倉(cāng)庫(kù),保存的是數(shù)據(jù)在不同時(shí)間點(diǎn)的狀態(tài),對(duì)同一個(gè)數(shù)據(jù)信息,保留不同時(shí)間點(diǎn)的狀態(tài),便于我們做統(tǒng)計(jì)分析。
3、關(guān)于DM,目前網(wǎng)上有兩種說(shuō)法,一說(shuō)數(shù)據(jù)集市(Data Mart);一說(shuō)數(shù)據(jù)挖掘(Data Mining),百度百科給出的是數(shù)據(jù)挖掘的概念,我這里將這兩種說(shuō)法都做了解釋?zhuān)?/p>
DM(Data Mart):數(shù)據(jù)集市,以某個(gè)業(yè)務(wù)應(yīng)用為出發(fā)點(diǎn)而建立的局部DW,DW只關(guān)心自己需要的數(shù)據(jù),不會(huì)全盤(pán)考慮企業(yè)整體的數(shù)據(jù)架構(gòu)和應(yīng)用,每個(gè)應(yīng)用有自己的DM。
DM(Data Mining):數(shù)據(jù)挖掘,又稱為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database, KDD),就是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過(guò)程,簡(jiǎn)單的說(shuō),數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或“挖掘”知識(shí)。
4、ODS(Operating Data Store):操作性數(shù)據(jù)倉(cāng)庫(kù),最早的數(shù)據(jù)倉(cāng)庫(kù)模型。特點(diǎn)是數(shù)據(jù)模型采取了貼源設(shè)計(jì),業(yè)務(wù)系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)是怎樣的,ODS數(shù)據(jù)庫(kù)的結(jié)構(gòu)就是怎樣的。所不同的是ODS數(shù)據(jù)庫(kù)可以提供數(shù)據(jù)變化的歷史,所以O(shè)DS數(shù)據(jù)庫(kù)中每張表都會(huì)增加一個(gè)日期類(lèi)型,表示數(shù)據(jù)的時(shí)間點(diǎn),將每天數(shù)據(jù)的變化情況都存下來(lái),這樣有利于數(shù)據(jù)的分析。
5、OLTP(on-line transaction processing):聯(lián)機(jī)事務(wù)處理,OLTP是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)的主要應(yīng)用,主要是基本的、日常的事務(wù)處理,例如銀行交易。
6、OLAP(On-Line Analytical Processing):聯(lián)機(jī)分析處理,OLAP是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的主要應(yīng)用,支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果。
7、BI(Business Intelligence):商業(yè)智能,領(lǐng)導(dǎo),決策者,在獲取了OLAP的統(tǒng)計(jì)信息,和DM得到的科學(xué)規(guī)律之后,對(duì)生產(chǎn)進(jìn)行適當(dāng)?shù)恼{(diào)整,比如,命令超市人員將啤酒喝尿布放在一起銷(xiāo)售,這就反作用于DB修改存貨數(shù)據(jù)了——這就是整個(gè)BI的作用!
數(shù)據(jù)中心整體架構(gòu)
數(shù)據(jù)倉(cāng)庫(kù)的整體架構(gòu),各個(gè)系統(tǒng)的元數(shù)據(jù)通過(guò)ETL同步到操作性數(shù)據(jù)倉(cāng)庫(kù)ODS,對(duì)ODS數(shù)據(jù)進(jìn)行面向主題或建模形成DW(數(shù)據(jù)倉(cāng)庫(kù)),DM是針對(duì)某一個(gè)業(yè)務(wù)領(lǐng)域建立模型,具體用戶(決策層)查看DM生成的報(bào)表。
接下來(lái)我們講一下他們之間的部分關(guān)系:
1、Data Warehouse和Data Mining之間的關(guān)系
若將Data Warehouse(數(shù)據(jù)倉(cāng)庫(kù))比喻作礦坑,Data Mining就是深入礦坑采礦的工作。畢竟Data Mining不是一種無(wú)中生有的魔術(shù),也不是點(diǎn)石成金的煉金術(shù),若沒(méi)有夠豐富完整的數(shù)據(jù),是很難期待Data Mining能挖掘出什么有意義的信息的。
要將龐大的數(shù)據(jù)轉(zhuǎn)換成為有用的信息,必須先有效率地收集信息。隨著科技的進(jìn)步,功能完善的數(shù)據(jù)庫(kù)系統(tǒng)就成了最好的收集數(shù)據(jù)的工具。數(shù)據(jù)倉(cāng)庫(kù),簡(jiǎn)單地說(shuō),就是搜集來(lái)自其它系統(tǒng)的有用數(shù)據(jù),存放在一整合的儲(chǔ)存區(qū)內(nèi)。所以其實(shí)就是一個(gè)經(jīng)過(guò)處理整合,且容量特別大的關(guān)系型數(shù)據(jù)庫(kù),用以儲(chǔ)存決策支持系統(tǒng)(Design Support System)所需的數(shù)據(jù),供決策支持或數(shù)據(jù)分析使用。從信息技術(shù)的角度來(lái)看,數(shù)據(jù)倉(cāng)庫(kù)的目標(biāo)是在組織中,在正確的時(shí)間,將正確的數(shù)據(jù)交給正確的人。
許多人對(duì)于Data Warehouse和Data Mining時(shí)常混淆,不知如何分辨。其實(shí),數(shù)據(jù)倉(cāng)庫(kù)是數(shù)據(jù)庫(kù)技術(shù)的一個(gè)新主題,利用計(jì)算機(jī)系統(tǒng)幫助我們操作、計(jì)算和思考,讓作業(yè)方式改變,決策方式也跟著改變。
數(shù)據(jù)倉(cāng)庫(kù)本身是一個(gè)非常大的數(shù)據(jù)庫(kù),它儲(chǔ)存著由組織作業(yè)數(shù)據(jù)庫(kù)中整合而來(lái)的數(shù)據(jù),特別是指事務(wù)處理系統(tǒng)OLTP(On-Line Transactional Processing)所得來(lái)的數(shù)據(jù)。將這些整合過(guò)的數(shù)據(jù)置放于數(shù)據(jù)庫(kù)中,而公司的決策者則利用這些數(shù)據(jù)作決策;但是,這個(gè)轉(zhuǎn)換及整合數(shù)據(jù)的過(guò)程,是建立一個(gè)數(shù)據(jù)倉(cāng)庫(kù)最大的挑戰(zhàn)。因?yàn)閷⒆鳂I(yè)中的數(shù)據(jù)轉(zhuǎn)換成有用的的策略性信息是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)的重點(diǎn)。綜上所述,數(shù)據(jù)倉(cāng)庫(kù)應(yīng)該具有這些數(shù)據(jù):整合性數(shù)據(jù)(integrated data)、詳細(xì)和匯總性的數(shù)據(jù)(detailed and summarized data)、歷史數(shù)據(jù)、解釋數(shù)據(jù)的數(shù)據(jù)。從數(shù)據(jù)倉(cāng)庫(kù)挖掘出對(duì)決策有用的信息與知識(shí),是建立數(shù)據(jù)倉(cāng)庫(kù)與使用Data Mining的最大目的,兩者的本質(zhì)與過(guò)程是兩回事。換句話說(shuō),數(shù)據(jù)倉(cāng)庫(kù)應(yīng)先行建立完成,Data mining才能有效率的進(jìn)行,因?yàn)閿?shù)據(jù)倉(cāng)庫(kù)本身所含數(shù)據(jù)是干凈(不會(huì)有錯(cuò)誤的數(shù)據(jù)參雜其中)、完備,且經(jīng)過(guò)整合的。因此兩者關(guān)系或許可解讀為Data Mining是從巨大數(shù)據(jù)倉(cāng)庫(kù)中找出有用信息的一種過(guò)程與技術(shù)。
2、ODS到DW的集成示例
集成示例
3、OLAP會(huì)替代Data Mining嗎?
所謂OLAP(Online Analytical Process)意指由數(shù)據(jù)庫(kù)所連結(jié)出來(lái)的在線分析處理程序。有些人會(huì)說(shuō):「我已經(jīng)有OLAP的工具了,所以我不需要Data Mining。」事實(shí)上兩者間是截然不同的,主要差異在于Data Mining用在產(chǎn)生假設(shè),OLAP則用于查證假設(shè)。簡(jiǎn)單來(lái)說(shuō),OLAP是由使用者所主導(dǎo),使用者先有一些假設(shè),然后利用OLAP來(lái)查證假設(shè)是否成立;而Data Mining則是用來(lái)幫助使用者產(chǎn)生假設(shè)。所以在使用OLAP或其它Query的工具時(shí),使用者是自己在做探索(Exploration),但Data Mining是用工具在幫助做探索。
舉個(gè)例子來(lái)看,一市場(chǎng)分析師在為超市規(guī)劃貨品架柜擺設(shè)時(shí),可能會(huì)先假設(shè)嬰兒尿布和嬰兒奶粉會(huì)是常被一起購(gòu)買(mǎi)的產(chǎn)品,接著便可利用OLAP的工具去驗(yàn)證此假設(shè)是否為真,看成立的證據(jù)有多明顯;但Data Mining則不然,執(zhí)行Data Mining的人將龐大的結(jié)帳數(shù)據(jù)整理后,并不需要假設(shè)或期待可能的結(jié)果,透過(guò)Mining技術(shù)可找出存在于數(shù)據(jù)中的潛在規(guī)則,于是我們可能得到例如尿布和啤酒常被同時(shí)購(gòu)買(mǎi)的意料外之發(fā)現(xiàn),這是OLAP所做不到的。
Data Mining常能挖掘出超越歸納范圍的關(guān)系,但OLAP僅能利用人工查詢及可視化的報(bào)表來(lái)確認(rèn)某些關(guān)系,是以Data Mining此種自動(dòng)找出甚至不會(huì)被懷疑過(guò)的數(shù)據(jù)模型與關(guān)系的特性,事實(shí)上已超越了我們經(jīng)驗(yàn)、教育、想象力的限制,OLAP可以和Data Mining互補(bǔ),但這項(xiàng)特性是Data Mining無(wú)法被OLAP取代的。
小結(jié):DM是智能化的OLAP
4、Data Warehouse和Data Mart之間的關(guān)系
數(shù)據(jù)倉(cāng)庫(kù)是企業(yè)級(jí)的,能為整個(gè)企業(yè)各個(gè)部門(mén)的運(yùn)行提供決策支持手段;而數(shù)據(jù)集市則是一種微型的數(shù)據(jù)倉(cāng)庫(kù),它通常有更少的數(shù)據(jù),更少的主題區(qū)域,以及更少的歷史數(shù)據(jù),因此是部門(mén)級(jí)的,一般只能為某個(gè)局部范圍內(nèi)的管理人員服務(wù),因此也稱之為部門(mén)級(jí)數(shù)據(jù)倉(cāng)庫(kù)。
看完上述內(nèi)容,你們掌握DB、DW、DM、ODS、OLAP、OLTP和BI的概念是什么的方法了嗎?如果還想學(xué)到更多技能或想了解更多相關(guān)內(nèi)容,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝各位的閱讀!