這篇文章給大家介紹如何分析數據湖存儲架構選型,內容非常詳細,感興趣的小伙伴們可以參考借鑒,希望對大家能有所幫助。
成都創(chuàng)新互聯(lián)是一家專注于成都網站建設、成都網站制作與策劃設計,無棣網站建設哪家好?成都創(chuàng)新互聯(lián)做網站,專注于網站建設10余年,網設計領域的專業(yè)建站公司;建站業(yè)務涵蓋:無棣等地區(qū)。無棣做網站價格咨詢:028-86922220
一、數據湖是個潮流
簡單來講,數據湖的理念就是說從一個企業(yè)的視角來講,把整個數據集中的統(tǒng)一的存儲在一起,主要通過 BI 和 AI 的手段來計算分析原始的數據。數據的類型不光是結構化、半結構化的,還包括音視頻,這樣的一些材料。我們?yōu)槭裁匆跀祿碜鲞@樣的一個轉型呢,數據湖能夠給我們帶來什么樣的好處呢。第一,打破數據孤島。就是說原始的數據我們先不考慮怎么去處理它、分析它,甚至是說我們先不考慮它到底會不會解決很大的業(yè)務上面的問題,我們先把它放在一起,打破數據孤島,為后面的業(yè)務發(fā)展演化和計算,可能就提供了很好的一個機會。第二,基于統(tǒng)一的、集中的整個數據的收集,可以支持各種各樣的計算。第三,彈性。我們數據湖本身是有彈性的,然后支持的計算也是有彈性的。彈性可能在云上面帶來成本的很大的伸縮性的空間,為我們優(yōu)化存儲和計算的成本帶來了這樣一個可能。第四,管理。我們把數據放在一起,可以提供統(tǒng)一的、集中的這樣一個管理控制。熟悉 Hadoop 整個生態(tài)的話,過去經常會談到一個非常大的、非常復雜的生態(tài)的大圖。那個圖里面涉及到非常多的組件,結構關系非常復雜。而基于數據湖的架構,可以得到大大的簡化。如下圖所示,最下面是數據湖本身,基于這樣的一個數據湖存儲,我們可以有一個統(tǒng)一的元數據服務,做數據湖的創(chuàng)建管理,然后圍繞數據湖做數據的治理開發(fā),和各種數據源的集成打通。但是這個并不是目的,最主要的作用還是說我們要做計算。數據湖的計算,簡單來講就是說我們有各種各樣的開源的 BI 的引擎,或者 AI 的引擎,每個引擎可能有自己的集群,然后基于數據湖來進行相應的計算場景的處理。然后滿足我們最上面的基于數據湖的各種應用,比如說數據大屏,數據報表,數據挖掘,機器學習。二、湖存儲/加速:挑戰(zhàn)很大
第一,最大的一個因素是數據量的問題。按照數據湖的理念,我們要把所有的數據全部都放在一起,那么在數據的規(guī)模上來講是非常大的,數據規(guī)??梢耘蛎浀?PB、EB 級別。第二,文件的規(guī)模。從存儲系統(tǒng)的角度來講,文件的規(guī)??梢哉f也是非常大,要么就是層次非常深,要么就是非常扁平。扁平就是說一個目錄下可能會有幾百萬的文件數,形成這樣一個超大的目錄。第三,成本。我要收集那么多的數據,我要把全部原始的數據放在一起,成本上怎么去優(yōu)化。另外一個挑戰(zhàn)就是說,按照數據湖的架構,它背后的本質是存儲和計算分離。現在是專業(yè)化的分工,存儲的做存儲,計算的做計算,這個帶來非常大的研發(fā)效率的這樣一個提升。但是分離了之后,怎么滿足計算的吞吐,怎么滿足計算對性能的這樣一個需求,這也是帶來很大挑戰(zhàn)的一個原因。
另外,在數據湖的整個的方案下面,要考慮到計算場景是非常豐富的,計算的環(huán)境也是錯綜復雜的。大數據,我們要支持分析、交互式、實時計算。然后 AI 有自己的各種各樣的引擎來訓練。
然后是計算的場景,包括 EMR 、ECS 自建、云原生、混合云。這樣的一些環(huán)境可能都會涉及到,我們怎么提供一個統(tǒng)一、集中的存儲的解決方案,來滿足這樣一個豐富的計算場景和環(huán)境。假設我們能夠克服數據量上面的挑戰(zhàn),滿足各種計算的環(huán)境,也能夠提供緩存加速,也能夠滿足存儲的這樣一個性能。現在架構師決定了我們要做數據遷移,實施層面的挑戰(zhàn)是什么。我們要做大量數據的遷移,之后要做正確性的比對。另外,比如說, Hive 數倉,Spark 作業(yè),可能上千上萬的作業(yè)我們決定要遷移,遷移了之后要做結果的比對。遷移上來之后,可能我過去有一套成熟的治理、運維的體系,在新的架構下面,我怎么能夠盡量少改,能夠繼續(xù)得到支持。這是實施層面的挑戰(zhàn)。三、完美選項之 checklist
數據湖架構下面,從存儲、加速的視角,我們可以看到有這樣一些挑戰(zhàn),那么理想的選型是什么樣子的,要考慮到哪些因素,這里做了一個總結。- 第一, 基于對象存儲,大規(guī)模存儲能力。
- 第二,大目錄元數據操作能力。
- 第三,策略靈活的緩存加速能力。
- 第四,和計算打通優(yōu)化的能力。
- 第五,支持數據湖新型表格存儲的能力。
- 第六,歸檔/壓縮/安全存儲的能力。
- 第七,全面的大數據+ AI 生態(tài)支持。
- 第八,強大遷移能力,甚至是無縫遷移能力。
以上就是作為一個理想的數據湖的存儲、加速方案,最好具備的一個 checklist ??紤]升級到數據湖架構的這樣一些架構師可以對照一下這個 checklist ,來做方案的選型。關于如何分析數據湖存儲架構選型就分享到這里了,希望以上內容可以對大家有一定的幫助,可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。
文章名稱:如何分析數據湖存儲架構選型
文章來源:
http://weahome.cn/article/igsoci.html