這期內(nèi)容當(dāng)中小編將會(huì)給大家?guī)?lái)有關(guān)Github 1.9K Star的數(shù)據(jù)治理框架Amundsen如何理解,文章內(nèi)容豐富且以專(zhuān)業(yè)的角度為大家分析和敘述,閱讀完這篇文章希望大家可以有所收獲。
創(chuàng)新互聯(lián)的客戶來(lái)自各行各業(yè),為了共同目標(biāo),我們?cè)诠ぷ魃厦芮信浜?,從?chuàng)業(yè)型小企業(yè)到企事業(yè)單位,感謝他們對(duì)我們的要求,感謝他們從不同領(lǐng)域給我們帶來(lái)的挑戰(zhàn),讓我們激情的團(tuán)隊(duì)有機(jī)會(huì)用頭腦與智慧不斷的給客戶帶來(lái)驚喜。專(zhuān)業(yè)領(lǐng)域包括網(wǎng)站設(shè)計(jì)、做網(wǎng)站、電商網(wǎng)站開(kāi)發(fā)、微信營(yíng)銷(xiāo)、系統(tǒng)平臺(tái)開(kāi)發(fā)。
Amundsen的使命,整理有關(guān)數(shù)據(jù)的所有信息,并使其具有普遍適用性。
這是Amundsen官網(wǎng)的一句話,對(duì)于元數(shù)據(jù)的管理工作,復(fù)雜且繁瑣??捎玫墓ぞ吆芏嗟饔星?,數(shù)據(jù)血緣做的較好的應(yīng)該是Apache Atlas,而數(shù)據(jù)可視化做的較好的應(yīng)該是Apache Superset。業(yè)界一直需要一個(gè)可以整合這些功能,讓數(shù)據(jù)治理更加的簡(jiǎn)單便捷,而這正是Amundsen的使命。
類(lèi)似于Atlas (Apache),Datahub (LinkedIn)。Amundsen主要在于提高數(shù)據(jù)分析師,數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師的工作效率。它可以通過(guò)為數(shù)據(jù)資源建立索引,并通過(guò)一定的機(jī)制來(lái)支持在頁(yè)面上進(jìn)行排名搜索??梢詫⑵湟暈樗阉鞴δ?,但搜索的是元數(shù)據(jù)。該項(xiàng)目以挪威探險(xiǎn)家Roald Amundsen(第一個(gè)發(fā)現(xiàn)南極的人)的名字命名。
Amundsen由LF AI&Data基金會(huì)維護(hù)。LF AI&Data是Linux Foundation的保護(hù)基金會(huì),支持人工智能,機(jī)器學(xué)習(xí),深度學(xué)習(xí)和數(shù)據(jù)方面的開(kāi)源創(chuàng)新。
目前Amundsen在github有1.9kStar,還沒(méi)有Releases的版本,項(xiàng)目正處于蒸蒸日上的上升期。
下圖顯示了Amundsen的總體架構(gòu)。
可見(jiàn),Hive,Presto等數(shù)據(jù)源通過(guò)Databuilder ingestion框架獲取元數(shù)據(jù),寫(xiě)入Elasticsearch和Neo4j,通過(guò)搜索服務(wù)與元數(shù)據(jù)服務(wù)提供給前端。
主要模塊如下:
作為用戶交互的web頁(yè)面。
這是基于Flask的Web應(yīng)用程序,頁(yè)面是React構(gòu)建的。
搜索服務(wù)采用Elasticsearch的搜索功能(或者Apache Atlas),并提供一個(gè)RESTful API服務(wù)。
元數(shù)據(jù)服務(wù)目前使用的Neo4j的圖數(shù)據(jù)庫(kù)進(jìn)行交互。
Amundsen提供了搜索,推薦,表描述,數(shù)據(jù)預(yù)覽在內(nèi)的非常多的功能,數(shù)據(jù)血緣功能正在研發(fā)中。
以上是部分功能展示:
登陸頁(yè)面:Amundsen的登陸頁(yè)面
搜索預(yù)覽:查看搜索結(jié)果
表的詳細(xì)頁(yè)面:Hive 等表的可視化
列詳細(xì)信息:主要是一些列的統(tǒng)計(jì)信息
數(shù)據(jù)預(yù)覽頁(yè)面:表數(shù)據(jù)預(yù)覽的可視化,可以與Apache Superset或其他數(shù)據(jù)可視化工具集成。
Amundsen支持的數(shù)據(jù)源非常多。
Apache Druid,Apache Hive,CSV,Oracle,
MySQL,Delta Lake等等。
Amundsen還可以連接到任何提供dbapi
或sql_alchemy
接口的數(shù)據(jù)庫(kù)。
同時(shí)Amundsen還支持和一些儀表盤(pán)的集成,比如
Redash,Tableau。
ETL工具的集成,Apache Airflow。
BI可視化工具,Apache Superset。
上述就是小編為大家分享的Github 1.9K Star的數(shù)據(jù)治理框架Amundsen如何理解了,如果剛好有類(lèi)似的疑惑,不妨參照上述分析進(jìn)行理解。如果想知道更多相關(guān)知識(shí),歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。