本篇內(nèi)容介紹了“Apache四個大型開源數(shù)據(jù)和數(shù)據(jù)湖系統(tǒng)是什么”的有關(guān)知識,在實際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!
創(chuàng)新互聯(lián)是一家集網(wǎng)站建設(shè),名山企業(yè)網(wǎng)站建設(shè),名山品牌網(wǎng)站建設(shè),網(wǎng)站定制,名山網(wǎng)站建設(shè)報價,網(wǎng)絡(luò)營銷,網(wǎng)絡(luò)優(yōu)化,名山網(wǎng)站推廣為一體的創(chuàng)新建站企業(yè),幫助傳統(tǒng)企業(yè)提升企業(yè)形象加強(qiáng)企業(yè)競爭力??沙浞譂M足這一群體相比中小企業(yè)更為豐富、高端、多元的互聯(lián)網(wǎng)需求。同時我們時刻保持專業(yè)、時尚、前沿,時刻以成就客戶成長自我,堅持不斷學(xué)習(xí)、思考、沉淀、凈化自己,讓我們?yōu)楦嗟钠髽I(yè)打造出實用型網(wǎng)站。
管理大數(shù)據(jù)所需的許多功能是其中一些是事務(wù),數(shù)據(jù)突變,數(shù)據(jù)校正,流媒體支持,架構(gòu)演進(jìn),因為酸性事務(wù)能力Apache提供了四種,用于滿足和管理大數(shù)據(jù)。
Apache Sharding Sphere
它是一個眾所周知的數(shù)據(jù)庫中間件系統(tǒng)。它包含三個獨立的模塊,JDBC,Proxy和Sidecar(計劃),但在部署時它們都混合在一起。Apache Shardingsphere提供標(biāo)準(zhǔn)化的數(shù)據(jù)分片,分布式事務(wù)和數(shù)據(jù)庫治理功能,可以針對各種多樣化應(yīng)用方案,例如Java同義,異構(gòu)語言和云本機(jī)。
今天的電子商務(wù)主要依賴于關(guān)系數(shù)據(jù)庫和分布式環(huán)境,高效查詢的激增和數(shù)據(jù)快速轉(zhuǎn)移成為公司關(guān)系數(shù)據(jù)庫的主要目標(biāo)Apache Shardingsphere是偉大的關(guān)系數(shù)據(jù)庫中間件生態(tài)系統(tǒng),它為其開發(fā)人員提供了合理的計算和存儲功能關(guān)系數(shù)據(jù)庫。
Apache Iceberg
Apache Iceberg 最初由Netflix設(shè)計和開發(fā)。關(guān)鍵的想法是組織目錄樹中的所有文件,如果您需要在2018年5月創(chuàng)建的文件在Apache iceBerg中,您只需找出該文件并只讀該文件,也沒有必要閱讀您可以閱讀的其他文件忽略您對當(dāng)前情況不太重要的其他數(shù)據(jù)。核心思想是跟蹤時間表上表中的所有更改。
它是一種用于跟蹤非常大的表的數(shù)據(jù)湖解決方案,它是一個輕量級數(shù)據(jù)湖解決方案,旨在解決列出大量分區(qū)和耗時和不一致的元數(shù)據(jù)和HDFS數(shù)據(jù)的問題。它包含三種類型的表格格式木質(zhì),Avro和Orc.in Apache iceberg表格格式與文件集合和文件格式的集合執(zhí)行相同的東西,允許您在單個文件中跳過數(shù)據(jù)
它是一種用于在非常大型和比例表上跟蹤和控制的新技術(shù)格式。它專為對象存儲而設(shè)計(例如S3)。Iceberg 中更重要的概念是一個快照??煺毡硎疽唤M完整的表數(shù)據(jù)文件。為每個更新操作生成新快照。
Apache Iceberg 有以下特征:
ACID 事務(wù)能力,可以在不影響當(dāng)前運行數(shù)據(jù)處理任務(wù)的情況下進(jìn)行上游數(shù)據(jù)寫入,這大大簡化了ETL; Iceberg 提供更好的合并能力,可以大大減少數(shù)據(jù)存儲延遲;
支持更多的分析引擎優(yōu)異的內(nèi)核抽象使其不綁定到特定的計算引擎。目前,冰山支持的計算發(fā)動機(jī)是Spark,F(xiàn)link,Presto和Hive。
Apache Iceberg為文件存儲,組織,基于流的增量計算模型和基于批處理的全尺度計算模型提供統(tǒng)一和靈活的數(shù)據(jù)。批處理和流式傳輸任務(wù)可以使用類似的存儲模型,并且不再隔離數(shù)據(jù)。iceberg支持隱藏的分區(qū)和分區(qū)演進(jìn),這促進(jìn)了業(yè)務(wù)更新數(shù)據(jù)分區(qū)策略。支持三個存儲格式木質(zhì),Avro和Orc。
增量讀取處理能力iceBerg支持以流式方式讀取增量數(shù)據(jù),支持流和傳輸表源。
Apache Hudi
Apache Hudi是一個大數(shù)據(jù)增量處理框架,它試圖解決攝取管道的效率問題和在大數(shù)據(jù)中需要插入,更新和增量消耗基元的ETL管道。它是針對分析和掃描優(yōu)化的數(shù)據(jù)存儲抽象,其可以在幾分鐘內(nèi)將更改應(yīng)用于HDF中的數(shù)據(jù)集,并支持多個增量處理系統(tǒng)來處理數(shù)據(jù)。通過自定義InputFormat與當(dāng)前Hadoop生態(tài)系統(tǒng)(包括Apache Hive,Apache Parquet,Presto和Apache Spark)的集成使框架無縫為最終用戶。
Hudi的設(shè)計目標(biāo)是快速且逐步更新HDFS上的數(shù)據(jù)集。有兩種更新數(shù)據(jù)的方法:讀寫編寫并合并讀取。寫入模式上的副本是當(dāng)我們更新數(shù)據(jù)時,我們需要通過索引獲取更新數(shù)據(jù)中涉及的文件,然后讀取數(shù)據(jù)并合并更新的數(shù)據(jù)。這種模式更易于更新數(shù)據(jù),但是當(dāng)涉及的數(shù)據(jù)更新時更新時,效率非常低;并合并讀取是要將更新寫入單獨的新文件,然后我們可以選擇與原始數(shù)據(jù)同步或異步地將更新的數(shù)據(jù)與原始數(shù)據(jù)合并(可以調(diào)用組合),因為更新的僅編寫新文件,所以此模式將更新更快。
在Hudi系統(tǒng)的幫助下,很容易在MySQL,HBase和Cassandra中收集增量數(shù)據(jù),并將其保存到Hudi。然后,presto,spark和hive可以快速閱讀這些遞增更新的數(shù)據(jù)。
Apache Iotdb
它是一種物聯(lián)網(wǎng)時間序列工業(yè)數(shù)據(jù)庫,Apache IOTDB是一款集成,存儲,管理和Anallyze Thge IoT時間序列數(shù)據(jù)的軟件系統(tǒng)。Apache IOTDB采用具有高性能和豐富功能的輕量級架構(gòu),并與Apache Hadoop,Spark和Flink等進(jìn)行深度集成,可以滿足工業(yè)中大規(guī)模數(shù)據(jù)存儲,高速數(shù)據(jù)讀數(shù)和復(fù)雜數(shù)據(jù)分析的需求事物互聯(lián)網(wǎng)領(lǐng)域。
Apache IOTDB套件由多個組件組成,它們一起形成一系列功能,例如“數(shù)據(jù)收集 - 數(shù)據(jù)寫入數(shù)據(jù)存儲 - 數(shù)據(jù)查詢 - 數(shù)據(jù)可視化數(shù)據(jù)分析”。其結(jié)構(gòu)如下:
用戶可以導(dǎo)入從設(shè)備上的傳感器收集的時間序列數(shù)據(jù),服務(wù)器負(fù)載和CPU內(nèi)存等消息隊列中的時間序列數(shù)據(jù),時間序列數(shù)據(jù),應(yīng)用程序的時間序列數(shù)據(jù)或從其他數(shù)據(jù)庫到本地或遠(yuǎn)程IOTDB的時間序列數(shù)據(jù)JDBC。在。用戶還可以直接將上述數(shù)據(jù)寫入本地(或在HDFS上)TSFile文件。TSFile文件可以寫入HDF,以實現(xiàn)數(shù)據(jù)處理平臺的數(shù)據(jù)處理平臺等異常檢測和機(jī)器學(xué)習(xí)等數(shù)據(jù)處理任務(wù)。對于寫入HDFS或本地的TSFile文件,您可以使用TSFile-Hadoop或TSFile-Spark連接器來允許Hadoop或Spark處理數(shù)據(jù)。分析結(jié)果可以寫回TSFile文件。IOTDB和TSFile還提供相應(yīng)的客戶端工具,以滿足用戶在SQL,腳本和圖形格式中查看數(shù)據(jù)的需求。
“Apache四個大型開源數(shù)據(jù)和數(shù)據(jù)湖系統(tǒng)是什么”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識可以關(guān)注創(chuàng)新互聯(lián)網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實用文章!