這篇文章主要為大家展示了“分布式存儲(chǔ)架構(gòu)IPFS和HDFS的示例分析”,內(nèi)容簡(jiǎn)而易懂,條理清晰,希望能夠幫助大家解決疑惑,下面讓小編帶領(lǐng)大家一起研究并學(xué)習(xí)一下“分布式存儲(chǔ)架構(gòu)IPFS和HDFS的示例分析”這篇文章吧。
成都創(chuàng)新互聯(lián)公司是一家從事企業(yè)網(wǎng)站建設(shè)、成都網(wǎng)站制作、成都網(wǎng)站設(shè)計(jì)、外貿(mào)營銷網(wǎng)站建設(shè)、行業(yè)門戶網(wǎng)站建設(shè)、網(wǎng)頁設(shè)計(jì)制作的專業(yè)網(wǎng)站建設(shè)公司,擁有經(jīng)驗(yàn)豐富的網(wǎng)站建設(shè)工程師和網(wǎng)頁設(shè)計(jì)人員,具備各種規(guī)模與類型網(wǎng)站建設(shè)的實(shí)力,在網(wǎng)站建設(shè)領(lǐng)域樹立了自己獨(dú)特的設(shè)計(jì)風(fēng)格。自公司成立以來曾獨(dú)立設(shè)計(jì)制作的站點(diǎn)近千家。
分布式存儲(chǔ)架構(gòu)是一個(gè)復(fù)雜的系統(tǒng)工程,針對(duì)特定應(yīng)用的數(shù)據(jù)存儲(chǔ)有不同的系統(tǒng)架構(gòu)解決方案。不同的存儲(chǔ)方法會(huì)影響存儲(chǔ)性能、存儲(chǔ)成本、冗余度、工程復(fù)雜性等。
分布式存儲(chǔ)的歷史
分布式存儲(chǔ)最早是由谷歌提出的,其目的是通過廉價(jià)的服務(wù)器來解決大規(guī)模,高并發(fā)場(chǎng)景下的 Web 訪問問題。它采用可擴(kuò)展的系統(tǒng)結(jié)構(gòu),利用多臺(tái)存儲(chǔ)服務(wù)器分擔(dān)存儲(chǔ)負(fù)荷,利用位置服務(wù)器定位存儲(chǔ)信息,它不但提高了系統(tǒng)的可靠性、可用性和存取效率,還易于后期服務(wù)器擴(kuò)展。
分布式存儲(chǔ)的崛起
分布式存儲(chǔ)的興起與互聯(lián)網(wǎng)的發(fā)展密不可分,互聯(lián)網(wǎng)公司由于其大數(shù)據(jù)、輕資產(chǎn)的特點(diǎn),通常使用大規(guī)模分布式存儲(chǔ)系統(tǒng)。
與傳統(tǒng)的高端服務(wù)器、高端存儲(chǔ)器和高端處理器不同的是,互聯(lián)網(wǎng)公司的分布式存儲(chǔ)系統(tǒng)由數(shù)量眾多的、低成本和高性價(jià)比的普通 PC 服務(wù)器通過網(wǎng)絡(luò)連接而成。由于互聯(lián)網(wǎng)的業(yè)務(wù)發(fā)展迅猛,使得存儲(chǔ)系統(tǒng)架構(gòu)不能依靠傳統(tǒng)的縱向擴(kuò)展的方式,即先買小型機(jī),不夠時(shí)再買中型機(jī),甚至大型機(jī)?;ヂ?lián)網(wǎng)后端的分布式系統(tǒng)要求支持橫向擴(kuò)展,即通過增加普通 PC 服務(wù)器來提高存儲(chǔ)系統(tǒng)的整體處理能力。
另外,隨著服務(wù)器的不斷加入,需要能夠在軟件層面實(shí)現(xiàn)自動(dòng)負(fù)載均衡,使得系統(tǒng)的處理能力得到線性擴(kuò)展。在這種情況下,分布式存儲(chǔ)的成為大多數(shù)企業(yè)的必然選擇。
分布式存儲(chǔ)的發(fā)展
如果客戶端需要從某個(gè)文件讀取數(shù)據(jù),首先從 NameNode 獲取該文件的位置,然后從該 NameNode 獲取具體的數(shù)據(jù)。在該架構(gòu)中 NameNode 通常是主備部署( Secondary NameNode ),而 DataNode 則是由大量節(jié)點(diǎn)構(gòu)成一個(gè)集群。由于元數(shù)據(jù)的訪問頻度和訪問量相對(duì)數(shù)據(jù)都要小很多,因此 NameNode 通常不會(huì)成為性能瓶頸,而 DataNode 集群中的數(shù)據(jù)可以有副本,既可以保證高可用性,可以分散客戶端的請(qǐng)求。因此,通過這種分布式存儲(chǔ)架構(gòu)可以通過這種分布式存儲(chǔ)架構(gòu)可以通過橫向擴(kuò)展 datanode 的數(shù)量來增加承載能力,也即實(shí)現(xiàn)了動(dòng)態(tài)橫向擴(kuò)展的能力。
HDFS的功能
1)數(shù)據(jù)的分布式存儲(chǔ)和處理。
2)Hadoop 提供了一個(gè)命令接口來與 HDFS 進(jìn)行交互。
3)namenode 和 datanode 的內(nèi)置服務(wù)器可幫助用戶輕松檢查群集的狀態(tài)。
4)對(duì)文件系統(tǒng)數(shù)據(jù)的流式處理訪問。
5)HDFS 提供文件權(quán)限和身份驗(yàn)證。
HDFS的架構(gòu)
下面給出的是 Hadoop 文件系統(tǒng)的體系結(jié)構(gòu)
3.Block
通常,用戶數(shù)據(jù)存儲(chǔ)在 HDFS 的文件中。文件系統(tǒng)中的文件將分為一個(gè)或多個(gè)片段存儲(chǔ)在單個(gè)數(shù)據(jù)節(jié)點(diǎn)中。這些文件段稱為block。換句話說,HDFS 可以讀取或?qū)懭氲淖钚?shù)據(jù)量稱為block。默認(rèn)塊大小為 64MB,可以根據(jù) HDFS 配置進(jìn)行更改。
HDFS的特點(diǎn)
1、故障檢測(cè)和恢復(fù) – 由于 HDFS 包含大量產(chǎn)品硬件,組件故障頻繁。因此,HDFS 應(yīng)具有快速自動(dòng)故障檢測(cè)和恢復(fù)的機(jī)制。
2、數(shù)據(jù)集的管理 – HDFS 每個(gè)群集都有數(shù)百個(gè)節(jié)點(diǎn)來管理具有大型數(shù)據(jù)集的應(yīng)用程序。
3、數(shù)據(jù)硬件處理 – 當(dāng)計(jì)算在數(shù)據(jù)物理附近時(shí),可以高效地完成請(qǐng)求的任務(wù)。特別是在涉及大量數(shù)據(jù)集時(shí),它減少了網(wǎng)絡(luò)流量并提高了吞吐量。
IPFS的簡(jiǎn)介
IPFS(Inter Planetary File System),又叫星際文件系統(tǒng)。IPFS在2015年開啟,目前已經(jīng)有5年時(shí)間了。IPFS和Filecoin一直熱度不斷,影響力也是越來越大。在這里我們先撇開區(qū)塊鏈部分的Filecoin不談,重點(diǎn)分析下IPFS在分布式存儲(chǔ)方面的應(yīng)用。
2.重復(fù)內(nèi)容清理
IPFS網(wǎng)絡(luò)中會(huì)對(duì)重復(fù)的內(nèi)容進(jìn)行去重處理,在保證整個(gè)網(wǎng)絡(luò)存儲(chǔ)文件的冗余量的同時(shí)保證網(wǎng)絡(luò)的輕便與快捷。
4.通過節(jié)點(diǎn)尋址查找要查看或下載的文件時(shí),用戶需要讓網(wǎng)絡(luò)找到對(duì)應(yīng)內(nèi)容的存儲(chǔ)節(jié)點(diǎn),然后確定所需求的文件內(nèi)容。
從上述的原理中我們可以清晰地看出,在存儲(chǔ)方面IPFS與傳統(tǒng)的分布式存儲(chǔ)是完全不同的,是完全去中心化的。
HDFS與IPFS對(duì)比
BMJ是基于IPFS設(shè)計(jì)的一種新的互聯(lián)網(wǎng)協(xié)議下的分布式存儲(chǔ)技術(shù),其目標(biāo)是永久存儲(chǔ)數(shù)據(jù),消除網(wǎng)絡(luò)上的重復(fù),并獲取存儲(chǔ)在網(wǎng)絡(luò)計(jì)算機(jī)上的信息的地址,未來它會(huì)是一個(gè)開源項(xiàng)目。
作為分布式存儲(chǔ)的領(lǐng)航者,BMJ目前正在快速布局,未來形成包括云存儲(chǔ)、云計(jì)算、大數(shù)據(jù)的產(chǎn)業(yè)集群,可以更好的引領(lǐng)傳統(tǒng)企業(yè)升級(jí)轉(zhuǎn)型,推動(dòng)整個(gè)新經(jīng)濟(jì)的發(fā)展。
以上是“分布式存儲(chǔ)架構(gòu)IPFS和HDFS的示例分析”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對(duì)大家有所幫助,如果還想學(xué)習(xí)更多知識(shí),歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道!