什么是LakeHouse,針對(duì)這個(gè)問(wèn)題,這篇文章詳細(xì)介紹了相對(duì)應(yīng)的分析和解答,希望可以幫助更多想解決這個(gè)問(wèn)題的小伙伴找到更簡(jiǎn)單易行的方法。
創(chuàng)新互聯(lián)建站是一家集網(wǎng)站建設(shè),泰安企業(yè)網(wǎng)站建設(shè),泰安品牌網(wǎng)站建設(shè),網(wǎng)站定制,泰安網(wǎng)站建設(shè)報(bào)價(jià),網(wǎng)絡(luò)營(yíng)銷,網(wǎng)絡(luò)優(yōu)化,泰安網(wǎng)站推廣為一體的創(chuàng)新建站企業(yè),幫助傳統(tǒng)企業(yè)提升企業(yè)形象加強(qiáng)企業(yè)競(jìng)爭(zhēng)力??沙浞譂M足這一群體相比中小企業(yè)更為豐富、高端、多元的互聯(lián)網(wǎng)需求。同時(shí)我們時(shí)刻保持專業(yè)、時(shí)尚、前沿,時(shí)刻以成就客戶成長(zhǎng)自我,堅(jiān)持不斷學(xué)習(xí)、思考、沉淀、凈化自己,讓我們?yōu)楦嗟钠髽I(yè)打造出實(shí)用型網(wǎng)站。
在Databricks的過(guò)去幾年中,我們看到了一種新的數(shù)據(jù)管理范式,該范式出現(xiàn)在許多客戶和案例中:LakeHouse。在這篇文章中,我們將描述這種新范式及其相對(duì)于先前方案的優(yōu)勢(shì)。
數(shù)據(jù)倉(cāng)庫(kù)技術(shù)自1980誕生以來(lái)一直在發(fā)展,其在決策支持和商業(yè)智能應(yīng)用方面擁有悠久的歷史,而MPP體系結(jié)構(gòu)使得系統(tǒng)能夠處理更大數(shù)據(jù)量。但是,雖然數(shù)據(jù)倉(cāng)庫(kù)非常適合結(jié)構(gòu)化數(shù)據(jù),但許多現(xiàn)代企業(yè)必須處理非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)以及具有高多樣性,高速度和高容量的數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)不適用于許多此類場(chǎng)景,并且也不是最具成本效益的。
隨著公司開(kāi)始從許多不同源收集大量數(shù)據(jù),架構(gòu)師開(kāi)始構(gòu)想一個(gè)單一的系統(tǒng)來(lái)容納不同分析產(chǎn)品和工作負(fù)載的數(shù)據(jù)。大約十年前,公司開(kāi)始構(gòu)建數(shù)據(jù)湖:各種格式原始數(shù)據(jù)的存儲(chǔ)庫(kù)。數(shù)據(jù)湖雖然適合存儲(chǔ)數(shù)據(jù),但缺少一些關(guān)鍵功能:不支持事務(wù)、無(wú)法提高數(shù)據(jù)質(zhì)量、缺乏一致性/隔離性,導(dǎo)致幾乎不可能混合處理追加(append)和讀取,批處理和流處理作業(yè)。由于這些原因,數(shù)據(jù)湖之前的許多承諾尚未實(shí)現(xiàn),在許多情況下還會(huì)失去數(shù)據(jù)倉(cāng)庫(kù)的許多好處。
公司對(duì)靈活、高性能系統(tǒng)的需求并未減少,如需要各類數(shù)據(jù)應(yīng)用程序包括SQL分析、實(shí)時(shí)監(jiān)控、數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的系統(tǒng)。人工智能的大部分最新進(jìn)展是有可用于更好處理非結(jié)構(gòu)化數(shù)據(jù)(文本,圖像,視頻,音頻)的模型,這些恰恰是數(shù)據(jù)倉(cāng)庫(kù)未針對(duì)優(yōu)化的數(shù)據(jù)類型。一種常見(jiàn)的解決方案是使用多個(gè)系統(tǒng),即一個(gè)數(shù)據(jù)湖、幾個(gè)數(shù)據(jù)倉(cāng)庫(kù)以及其他專用系統(tǒng)(如流、時(shí)間序列、圖形和圖像數(shù)據(jù)庫(kù)系統(tǒng))。維護(hù)大量系統(tǒng)會(huì)引入額外的復(fù)雜性,更重要的是會(huì)帶來(lái)延遲,因?yàn)閿?shù)據(jù)專業(yè)人員需要在不同系統(tǒng)間移動(dòng)或復(fù)制數(shù)據(jù)。
解決數(shù)據(jù)湖限制的新系統(tǒng)開(kāi)始出現(xiàn),LakeHouse是一種結(jié)合了數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)優(yōu)勢(shì)的新范式。LakeHouse使用新的系統(tǒng)設(shè)計(jì):直接在用于數(shù)據(jù)湖的低成本存儲(chǔ)上實(shí)現(xiàn)與數(shù)據(jù)倉(cāng)庫(kù)中類似的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)管理功能。如果你現(xiàn)在需要重新設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù),鑒于現(xiàn)在存儲(chǔ)(以對(duì)象存儲(chǔ)的形式)廉價(jià)且高可靠,不妨可以使用LakeHouse。
LakeHouse有如下關(guān)鍵特性:
事務(wù)支持:企業(yè)內(nèi)部許多數(shù)據(jù)管道通常會(huì)并發(fā)讀寫數(shù)據(jù)。對(duì)ACID事務(wù)支持確保了多方可使用SQL并發(fā)讀寫數(shù)據(jù)。
模式執(zhí)行和治理(Schema enforcement and governance):LakeHouse應(yīng)該有一種可以支持模式執(zhí)行和演進(jìn)、支持DW模式的范式(如star/snowflake-schemas)。該系統(tǒng)應(yīng)該能夠推理數(shù)據(jù)完整性,并具有健壯的治理和審計(jì)機(jī)制。
BI支持:LakeHouse可以直接在源數(shù)據(jù)上使用BI工具。這樣可以提高數(shù)據(jù)新鮮度,減少等待時(shí)間,降低必須同時(shí)在數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)中操作兩個(gè)數(shù)據(jù)副本的成本。
存儲(chǔ)與計(jì)算分離:這意味著存儲(chǔ)和計(jì)算使用單獨(dú)的集群,因此這些系統(tǒng)能夠支持更多用戶并發(fā)和更大數(shù)據(jù)量。一些現(xiàn)代數(shù)據(jù)倉(cāng)庫(kù)也具有此屬性。
開(kāi)放性:使用的存儲(chǔ)格式(如Parquet)是開(kāi)放式和標(biāo)準(zhǔn)化的,并提供API以便各類工具和引擎(包括機(jī)器學(xué)習(xí)和Python / R庫(kù))可以直接有效地訪問(wèn)數(shù)據(jù)。
支持從非結(jié)構(gòu)化數(shù)據(jù)到結(jié)構(gòu)化數(shù)據(jù)的多種數(shù)據(jù)類型:LakeHouse可用于存儲(chǔ)、優(yōu)化、分析和訪問(wèn)許多數(shù)據(jù)應(yīng)用所需的包括圖像、視頻、音頻、半結(jié)構(gòu)化數(shù)據(jù)和文本等數(shù)據(jù)類型。
支持各種工作負(fù)載:包括數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)以及SQL和分析??赡苄枰喾N工具來(lái)支持這些工作負(fù)載,但它們底層都依賴同一數(shù)據(jù)存儲(chǔ)庫(kù)。
端到端流:實(shí)時(shí)報(bào)表是許多企業(yè)中的標(biāo)準(zhǔn)應(yīng)用。對(duì)流的支持消除了需要構(gòu)建單獨(dú)系統(tǒng)來(lái)專門用于服務(wù)實(shí)時(shí)數(shù)據(jù)應(yīng)用的需求。
以上是LakeHouse的關(guān)鍵特性,企業(yè)級(jí)系統(tǒng)可能還需要其他功能特性,如安全和訪問(wèn)控制工具是基本要求,尤其是根據(jù)最近的隱私法規(guī),包括審核、保留和沿襲(lineage)在內(nèi)的數(shù)據(jù)治理功能變得至關(guān)重要。可能還需要使用數(shù)據(jù)發(fā)現(xiàn)( data discovery )工具,例如數(shù)據(jù)目錄(catalog)和數(shù)據(jù)使用指標(biāo)。使用LakeHouse,那么就只需為單個(gè)系統(tǒng)實(shí)施、測(cè)試和管理此類企業(yè)功能。
Databricks平臺(tái)具有LakeHouse的特性。微軟的Azure Synapse Analytics服務(wù)與Azure Databricks集成,可實(shí)現(xiàn)類似LakeHouse模式,其他托管服務(wù)(例如BigQuery和Redshift Spectrum)具有上面列出的一些LakeHouse功能特性,但它們是主要針對(duì)BI和其他SQL應(yīng)用。企業(yè)若想構(gòu)建系統(tǒng),可參考適合于構(gòu)建LakeHouse的開(kāi)源文件格式(Delta Lake,Apache Iceberg,Apache Hudi)。
將數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)合并至一個(gè)系統(tǒng)意味著數(shù)據(jù)團(tuán)隊(duì)可以更快地移動(dòng),因?yàn)樗麄儫o(wú)需訪問(wèn)多個(gè)系統(tǒng)便可使用數(shù)據(jù)。在早期的LakeHouse中,SQL與BI工具的集成通常足以滿足大多數(shù)企業(yè)數(shù)據(jù)倉(cāng)庫(kù)的需求。雖然可以使用物化視圖和存儲(chǔ)過(guò)程,但用戶可能需要采用其他機(jī)制,這些機(jī)制與傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)中的機(jī)制不同。后者對(duì)于“l(fā)ift and shift scenarios”尤為重要,“l(fā)ift and shift scenarios”要求系統(tǒng)所具有的語(yǔ)義與舊的商業(yè)數(shù)據(jù)倉(cāng)庫(kù)的語(yǔ)義幾乎相同。
LakeHouse對(duì)其他類型數(shù)據(jù)應(yīng)用的支持又如何呢?LakeHouse的用戶可以使用各種標(biāo)準(zhǔn)工具(Spark,Python,R,機(jī)器學(xué)習(xí)庫(kù))來(lái)處理如數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)等非BI工作負(fù)載。數(shù)據(jù)探索和加工是許多分析和數(shù)據(jù)科學(xué)應(yīng)用程序的標(biāo)準(zhǔn)。Delta Lake可以讓用戶逐步改進(jìn)LakeHouse的數(shù)據(jù)質(zhì)量,直到可以使用為止。
盡管分布式文件系統(tǒng)可以用于存儲(chǔ)層,但對(duì)象存儲(chǔ)在LakeHouse中更為常見(jiàn)。對(duì)象存儲(chǔ)提供低成本、高可用的存儲(chǔ),在大規(guī)模并發(fā)讀取方面表現(xiàn)出色,這是現(xiàn)代數(shù)據(jù)倉(cāng)庫(kù)的基本要求。
LakeHouse是一種新的數(shù)據(jù)管理范式,從根本上簡(jiǎn)化了企業(yè)數(shù)據(jù)基礎(chǔ)架構(gòu),并且有望在機(jī)器學(xué)習(xí)已滲透到每個(gè)行業(yè)的時(shí)代加速創(chuàng)新。過(guò)去公司產(chǎn)品或決策中涉及的大多數(shù)數(shù)據(jù)都是來(lái)自操作系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),而如今,許多產(chǎn)品都以計(jì)算機(jī)視覺(jué)和語(yǔ)音模型、文本挖掘等形式集成了AI。而為什么要使用LakeHouse而不是數(shù)據(jù)湖來(lái)進(jìn)行AI?是因?yàn)長(zhǎng)akeHouse可以提供數(shù)據(jù)版本控制、治理、安全性和ACID屬性,即使對(duì)于非結(jié)構(gòu)化數(shù)據(jù)也是如此。
當(dāng)前LakeHouse降低了成本,但它們的性能仍然落后于專門的系統(tǒng)(如數(shù)據(jù)倉(cāng)庫(kù)),但這些系統(tǒng)需要數(shù)年的投入和實(shí)際部署。同時(shí)用戶可能會(huì)偏愛(ài)某些工具(BI工具,IDE,筆記本電腦),因此LakeHouse也需要改善其UX以及與流行工具的連接器,以便更具吸引力。隨著技術(shù)的不斷成熟和發(fā)展,這些問(wèn)題將得到解決。隨著時(shí)間推移,LakeHouse將縮小這些差距,同時(shí)保留服務(wù)各種數(shù)據(jù)應(yīng)用的更簡(jiǎn)單、更具成本效益和更強(qiáng)大的能力的核心屬性。
關(guān)于什么是LakeHouse問(wèn)題的解答就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,如果你還有很多疑惑沒(méi)有解開(kāi),可以關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道了解更多相關(guān)知識(shí)。