這期內(nèi)容當(dāng)中小編將會給大家?guī)碛嘘P(guān)CEPH的工作原理及流程是怎樣的呢,文章內(nèi)容豐富且以專業(yè)的角度為大家分析和敘述,閱讀完這篇文章希望大家可以有所收獲。
創(chuàng)新互聯(lián)公司是專業(yè)的宣城網(wǎng)站建設(shè)公司,宣城接單;提供網(wǎng)站設(shè)計(jì)制作、成都網(wǎng)站制作,網(wǎng)頁設(shè)計(jì),網(wǎng)站設(shè)計(jì),建網(wǎng)站,PHP網(wǎng)站建設(shè)等專業(yè)做網(wǎng)站服務(wù);采用PHP框架,可快速的進(jìn)行宣城網(wǎng)站開發(fā)網(wǎng)頁制作和功能擴(kuò)展;專業(yè)做搜索引擎喜愛的網(wǎng)站,專業(yè)的做網(wǎng)站團(tuán)隊(duì),希望更多企業(yè)前來合作!
小編將對Ceph的工作原理和若干關(guān)鍵工作流程進(jìn)行扼要介紹。如前所述,由于Ceph的功能實(shí)現(xiàn)本質(zhì)上依托于RADOS,因而,此處的介紹事實(shí)上也是針對RADOS進(jìn)行。對于上層的部分,特別是RADOS GW和RBD,由于現(xiàn)有的文檔中(包括Sage的論文中)并未詳細(xì)介紹,因而本文或有語焉不詳之處,還請讀者多多包涵。
下面將首先介紹RADOS中最為核心的、基于計(jì)算的對象尋址機(jī)制,然后說明對象存取的工作流程,之后介紹RADOS集群維護(hù)的工作過程,最后結(jié)合Ceph的結(jié)構(gòu)和原理對其技術(shù)優(yōu)勢加以回顧和剖析。
5.1 尋址流程
Ceph系統(tǒng)中的尋址流程如下圖所示[1]。
上圖左側(cè)的幾個(gè)概念說明如下:
File —— 此處的file就是用戶需要存儲或者訪問的文件。對于一個(gè)基于Ceph開發(fā)的對象存儲應(yīng)用而言,這個(gè)file也就對應(yīng)于應(yīng)用中的“對象”,也就是用戶直接操作的“對象”。
Ojbect —— 此處的object是RADOS所看到的“對象”。Object與上面提到的file的區(qū)別是,object的最大size由RADOS限定(通常為2MB或4MB),以便實(shí)現(xiàn)底層存儲的組織管理。因此,當(dāng)上層應(yīng)用向RADOS存入size很大的file時(shí),需要將file切分成統(tǒng)一大小的一系列object(最后一個(gè)的大小可以不同)進(jìn)行存儲。為避免混淆,在本文中將盡量避免使用中文的“對象”這一名詞,而直接使用file或object進(jìn)行說明。
PG(Placement Group)—— 顧名思義,PG的用途是對object的存儲進(jìn)行組織和位置映射。具體而言,一個(gè)PG負(fù)責(zé)組織若干個(gè)object(可以為數(shù)千個(gè)甚至更多),但一個(gè)object只能被映射到一個(gè)PG中,即,PG和object之間是“一對多”映射關(guān)系。同時(shí),一個(gè)PG會被映射到n個(gè)OSD上,而每個(gè)OSD上都會承載大量的PG,即,PG和OSD之間是“多對多”映射關(guān)系。在實(shí)踐當(dāng)中,n至少為2,如果用于生產(chǎn)環(huán)境,則至少為3。一個(gè)OSD上的PG則可達(dá)到數(shù)百個(gè)。事實(shí)上,PG數(shù)量的設(shè)置牽扯到數(shù)據(jù)分布的均勻性問題。關(guān)于這一點(diǎn),下文還將有所展開。
OSD —— 即object storage device,前文已經(jīng)詳細(xì)介紹,此處不再展開。唯一需要說明的是,OSD的數(shù)量事實(shí)上也關(guān)系到系統(tǒng)的數(shù)據(jù)分布均勻性,因此其數(shù)量不應(yīng)太少。在實(shí)踐當(dāng)中,至少也應(yīng)該是數(shù)十上百個(gè)的量級才有助于Ceph系統(tǒng)的設(shè)計(jì)發(fā)揮其應(yīng)有的優(yōu)勢。
Failure domain —— 這個(gè)概念在論文中并沒有進(jìn)行定義,好在對分布式存儲系統(tǒng)有一定概念的讀者應(yīng)該能夠了解其大意。
基于上述定義,便可以對尋址流程進(jìn)行解釋了。具體而言, Ceph中的尋址至少要經(jīng)歷以下三次映射:
(1)File -> object映射
這次映射的目的是,將用戶要操作的file,映射為RADOS能夠處理的object。其映射十分簡單,本質(zhì)上就是按照object的最大size對file進(jìn)行切分,相當(dāng)于RAID中的條帶化過程。這種切分的好處有二:一是讓大小不限的file變成最大size一致、可以被RADOS高效管理的object;二是讓對單一file實(shí)施的串行處理變?yōu)閷Χ鄠€(gè)object實(shí)施的并行化處理。
每一個(gè)切分后產(chǎn)生的object將獲得唯一的oid,即object id。其產(chǎn)生方式也是線性映射,極其簡單。圖中,ino是待操作file的元數(shù)據(jù),可以簡單理解為該file的唯一id。ono則是由該file切分產(chǎn)生的某個(gè)object的序號。而oid就是將這個(gè)序號簡單連綴在該file id之后得到的。舉例而言,如果一個(gè)id為filename的file被切分成了三個(gè)object,則其object序號依次為0、1和2,而最終得到的oid就依次為filename0、filename1和filename2。
這里隱含的問題是,ino的唯一性必須得到保證,否則后續(xù)映射無法正確進(jìn)行。
(2)Object -> PG映射
在file被映射為一個(gè)或多個(gè)object之后,就需要將每個(gè)object獨(dú)立地映射到一個(gè)PG中去。這個(gè)映射過程也很簡單,如圖中所示,其計(jì)算公式是:
hash(oid) & mask -> pgid
由此可見,其計(jì)算由兩步組成。首先是使用Ceph系統(tǒng)指定的一個(gè)靜態(tài)哈希函數(shù)計(jì)算oid的哈希值,將oid映射成為一個(gè)近似均勻分布的偽隨機(jī)值。然后,將這個(gè)偽隨機(jī)值和mask按位相與,得到最終的PG序號(pgid)。根據(jù)RADOS的設(shè)計(jì),給定PG的總數(shù)為m(m應(yīng)該為2的整數(shù)冪),則mask的值為m-1。因此,哈希值計(jì)算和按位與操作的整體結(jié)果事實(shí)上是從所有m個(gè)PG中近似均勻地隨機(jī)選擇一個(gè)。基于這一機(jī)制,當(dāng)有大量object和大量PG時(shí),RADOS能夠保證object和PG之間的近似均勻映射。又因?yàn)閛bject是由file切分而來,大部分object的size相同,因而,這一映射最終保證了,各個(gè)PG中存儲的object的總數(shù)據(jù)量近似均勻。
從介紹不難看出,這里反復(fù)強(qiáng)調(diào)了“大量”。只有當(dāng)object和PG的數(shù)量較多時(shí),這種偽隨機(jī)關(guān)系的近似均勻性才能成立,Ceph的數(shù)據(jù)存儲均勻性才有保證。為保證“大量”的成立,一方面,object的最大size應(yīng)該被合理配置,以使得同樣數(shù)量的file能夠被切分成更多的object;另一方面,Ceph也推薦PG總數(shù)應(yīng)該為OSD總數(shù)的數(shù)百倍,以保證有足夠數(shù)量的PG可供映射。
(3)PG -> OSD映射
第三次映射就是將作為object的邏輯組織單元的PG映射到數(shù)據(jù)的實(shí)際存儲單元OSD。如圖所示,RADOS采用一個(gè)名為CRUSH的算法,將pgid代入其中,然后得到一組共n個(gè)OSD。這n個(gè)OSD即共同負(fù)責(zé)存儲和維護(hù)一個(gè)PG中的所有object。前已述及,n的數(shù)值可以根據(jù)實(shí)際應(yīng)用中對于可靠性的需求而配置,在生產(chǎn)環(huán)境下通常為3。具體到每個(gè)OSD,則由其上運(yùn)行的OSD deamon負(fù)責(zé)執(zhí)行映射到本地的object在本地文件系統(tǒng)中的存儲、訪問、元數(shù)據(jù)維護(hù)等操作。
和“object -> PG”映射中采用的哈希算法不同,這個(gè)CRUSH算法的結(jié)果不是絕對不變的,而是受到其他因素的影響。其影響因素主要有二:
一是當(dāng)前系統(tǒng)狀態(tài),也就是在《“Ceph淺析”系列之四——邏輯結(jié)構(gòu)》中曾經(jīng)提及的cluster map。當(dāng)系統(tǒng)中的OSD狀態(tài)、數(shù)量發(fā)生變化時(shí),cluster map可能發(fā)生變化,而這種變化將會影響到PG與OSD之間的映射。
二是存儲策略配置。這里的策略主要與安全相關(guān)。利用策略配置,系統(tǒng)管理員可以指定承載同一個(gè)PG的3個(gè)OSD分別位于數(shù)據(jù)中心的不同服務(wù)器乃至機(jī)架上,從而進(jìn)一步改善存儲的可靠性。
因此,只有在系統(tǒng)狀態(tài)(cluster map)和存儲策略都不發(fā)生變化的時(shí)候,PG和OSD之間的映射關(guān)系才是固定不變的。在實(shí)際使用當(dāng)中,策略一經(jīng)配置通常不會改變。而系統(tǒng)狀態(tài)的改變或者是由于設(shè)備損壞,或者是因?yàn)榇鎯阂?guī)模擴(kuò)大。好在Ceph本身提供了對于這種變化的自動化支持,因而,即便PG與OSD之間的映射關(guān)系發(fā)生了變化,也并不會對應(yīng)用造成困擾。事實(shí)上,Ceph正是需要有目的的利用這種動態(tài)映射關(guān)系。正是利用了CRUSH的動態(tài)特性,Ceph可以將一個(gè)PG根據(jù)需要動態(tài)遷移到不同的OSD組合上,從而自動化地實(shí)現(xiàn)高可靠性、數(shù)據(jù)分布re-blancing等特性。
之所以在此次映射中使用CRUSH算法,而不是其他哈希算法,原因之一正是CRUSH具有上述可配置特性,可以根據(jù)管理員的配置參數(shù)決定OSD的物理位置映射策略;另一方面是因?yàn)镃RUSH具有特殊的“穩(wěn)定性”,也即,當(dāng)系統(tǒng)中加入新的OSD,導(dǎo)致系統(tǒng)規(guī)模增大時(shí),大部分PG與OSD之間的映射關(guān)系不會發(fā)生改變,只有少部分PG的映射關(guān)系會發(fā)生變化并引發(fā)數(shù)據(jù)遷移。這種可配置性和穩(wěn)定性都不是普通哈希算法所能提供的。因此,CRUSH算法的設(shè)計(jì)也是Ceph的核心內(nèi)容之一,具體介紹可以參考[2]。
至此為止,Ceph通過三次映射,完成了從file到object、PG和OSD整個(gè)映射過程。通觀整個(gè)過程,可以看到,這里沒有任何的全局性查表操作需求。至于唯一的全局性數(shù)據(jù)結(jié)構(gòu)cluster map,在后文中將加以介紹。可以在這里指明的是,cluster map的維護(hù)和操作都是輕量級的,不會對系統(tǒng)的可擴(kuò)展性、性能等因素造成不良影響。
一個(gè)可能出現(xiàn)的困惑是:為什么需要同時(shí)設(shè)計(jì)第二次和第三次映射?難道不重復(fù)么?關(guān)于這一點(diǎn),Sage在其論文中解說不多,而筆者個(gè)人的分析如下:
我們可以反過來想像一下,如果沒有PG這一層映射,又會怎么樣呢?在這種情況下,一定需要采用某種算法,將object直接映射到一組OSD上。如果這種算法是某種固定映射的哈希算法,則意味著一個(gè)object將被固定映射在一組OSD上,當(dāng)其中一個(gè)或多個(gè)OSD損壞時(shí),object無法被自動遷移至其他OSD上(因?yàn)橛成浜瘮?shù)不允許),當(dāng)系統(tǒng)為了擴(kuò)容新增了OSD時(shí),object也無法被re-balance到新的OSD上(同樣因?yàn)橛成浜瘮?shù)不允許)。這些限制都違背了Ceph系統(tǒng)高可靠性、高自動化的設(shè)計(jì)初衷。
如果采用一個(gè)動態(tài)算法(例如仍然采用CRUSH算法)來完成這一映射,似乎是可以避免靜態(tài)映射導(dǎo)致的問題。但是,其結(jié)果將是各個(gè)OSD所處理的本地元數(shù)據(jù)量爆增,由此帶來的計(jì)算復(fù)雜度和維護(hù)工作量也是難以承受的。
例如,在Ceph的現(xiàn)有機(jī)制中,一個(gè)OSD平時(shí)需要和與其共同承載同一個(gè)PG的其他OSD交換信息,以確定各自是否工作正常,是否需要進(jìn)行維護(hù)操作。由于一個(gè)OSD上大約承載數(shù)百個(gè)PG,每個(gè)PG內(nèi)通常有3個(gè)OSD,因此,一段時(shí)間內(nèi),一個(gè)OSD大約需要進(jìn)行數(shù)百至數(shù)千次OSD信息交換。
然而,如果沒有PG的存在,則一個(gè)OSD需要和與其共同承載同一個(gè)object的其他OSD交換信息。由于每個(gè)OSD上承載的object很可能高達(dá)數(shù)百萬個(gè),因此,同樣長度的一段時(shí)間內(nèi),一個(gè)OSD大約需要進(jìn)行的OSD間信息交換將暴漲至數(shù)百萬乃至數(shù)千萬次。而這種狀態(tài)維護(hù)成本顯然過高。
綜上所述,筆者認(rèn)為,引入PG的好處至少有二:一方面實(shí)現(xiàn)了object和OSD之間的動態(tài)映射,從而為Ceph的可靠性、自動化等特性的實(shí)現(xiàn)留下了空間;另一方面也有效簡化了數(shù)據(jù)的存儲組織,大大降低了系統(tǒng)的維護(hù)管理開銷。理解這一點(diǎn),對于徹底理解Ceph的對象尋址機(jī)制,是十分重要的。
5.2 數(shù)據(jù)操作流程
此處將首先以file寫入過程為例,對數(shù)據(jù)操作流程進(jìn)行說明。
為簡化說明,便于理解,此處進(jìn)行若干假定。首先,假定待寫入的file較小,無需切分,僅被映射為一個(gè)object。其次,假定系統(tǒng)中一個(gè)PG被映射到3個(gè)OSD上。
基于上述假定,則file寫入流程可以被下圖表示[3]:
如圖所示,當(dāng)某個(gè)client需要向Ceph集群寫入一個(gè)file時(shí),首先需要在本地完成5.1節(jié)中所敘述的尋址流程,將file變?yōu)橐粋€(gè)object,然后找出存儲該object的一組三個(gè)OSD。這三個(gè)OSD具有各自不同的序號,序號最靠前的那個(gè)OSD就是這一組中的Primary OSD,而后兩個(gè)則依次是Secondary OSD和Tertiary OSD。
找出三個(gè)OSD后,client將直接和Primary OSD通信,發(fā)起寫入操作(步驟1)。Primary OSD收到請求后,分別向Secondary OSD和Tertiary OSD發(fā)起寫入操作(步驟2、3)。當(dāng)Secondary OSD和Tertiary OSD各自完成寫入操作后,將分別向Primary OSD發(fā)送確認(rèn)信息(步驟4、5)。當(dāng)Primary OSD確信其他兩個(gè)OSD的寫入完成后,則自己也完成數(shù)據(jù)寫入,并向client確認(rèn)object寫入操作完成(步驟6)。
之所以采用這樣的寫入流程,本質(zhì)上是為了保證寫入過程中的可靠性,盡可能避免造成數(shù)據(jù)丟失。同時(shí),由于client只需要向Primary OSD發(fā)送數(shù)據(jù),因此,在Internet使用場景下的外網(wǎng)帶寬和整體訪問延遲又得到了一定程度的優(yōu)化。
當(dāng)然,這種可靠性機(jī)制必然導(dǎo)致較長的延遲,特別是,如果等到所有的OSD都將數(shù)據(jù)寫入磁盤后再向client發(fā)送確認(rèn)信號,則整體延遲可能難以忍受。因此,Ceph可以分兩次向client進(jìn)行確認(rèn)。當(dāng)各個(gè)OSD都將數(shù)據(jù)寫入內(nèi)存緩沖區(qū)后,就先向client發(fā)送一次確認(rèn),此時(shí)client即可以向下執(zhí)行。待各個(gè)OSD都將數(shù)據(jù)寫入磁盤后,會向client發(fā)送一個(gè)最終確認(rèn)信號,此時(shí)client可以根據(jù)需要刪除本地?cái)?shù)據(jù)。
分析上述流程可以看出,在正常情況下,client可以獨(dú)立完成OSD尋址操作,而不必依賴于其他系統(tǒng)模塊。因此,大量的client可以同時(shí)和大量的OSD進(jìn)行并行操作。同時(shí),如果一個(gè)file被切分成多個(gè)object,這多個(gè)object也可被并行發(fā)送至多個(gè)OSD。
從OSD的角度來看,由于同一個(gè)OSD在不同的PG中的角色不同,因此,其工作壓力也可以被盡可能均勻地分擔(dān),從而避免單個(gè)OSD變成性能瓶頸。
如果需要讀取數(shù)據(jù),client只需完成同樣的尋址過程,并直接和Primary OSD聯(lián)系。目前的Ceph設(shè)計(jì)中,被讀取的數(shù)據(jù)僅由Primary OSD提供。但目前也有分散讀取壓力以提高性能的討論。
5.3 集群維護(hù)
前面的介紹中已經(jīng)提到,由若干個(gè)monitor共同負(fù)責(zé)整個(gè)Ceph集群中所有OSD狀態(tài)的發(fā)現(xiàn)與記錄,并且共同形成cluster map的master版本,然后擴(kuò)散至全體OSD以及client。OSD使用cluster map進(jìn)行數(shù)據(jù)的維護(hù),而client使用cluster map進(jìn)行數(shù)據(jù)的尋址。
在集群中,各個(gè)monitor的功能總體上是一樣的,其相互間的關(guān)系可以被簡單理解為主從備份關(guān)系。因此,在下面的討論中不對各個(gè)monitor加以區(qū)分。
略顯出乎意料的是,monitor并不主動輪詢各個(gè)OSD的當(dāng)前狀態(tài)。正相反,OSD需要向monitor上報(bào)狀態(tài)信息。常見的上報(bào)有兩種情況:一是新的OSD被加入集群,二是某個(gè)OSD發(fā)現(xiàn)自身或者其他OSD發(fā)生異常。在收到這些上報(bào)信息后,monitor將更新cluster map信息并加以擴(kuò)散。其細(xì)節(jié)將在下文中加以介紹。
Cluster map的實(shí)際內(nèi)容包括:
(1) Epoch,即版本號。Cluster map的epoch是一個(gè)單調(diào)遞增序列。Epoch越大,則cluster map版本越新。因此,持有不同版本cluster map的OSD或client可以簡單地通過比較epoch決定應(yīng)該遵從誰手中的版本。而monitor手中必定有epoch最大、版本最新的cluster map。當(dāng)任意兩方在通信時(shí)發(fā)現(xiàn)彼此epoch值不同時(shí),將默認(rèn)先將cluster map同步至高版本一方的狀態(tài),再進(jìn)行后續(xù)操作。
(2)各個(gè)OSD的網(wǎng)絡(luò)地址。
(3)各個(gè)OSD的狀態(tài)。OSD狀態(tài)的描述分為兩個(gè)維度:up或者down(表明OSD是否正常工作),in或者out(表明OSD是否在至少一個(gè)PG中)。因此,對于任意一個(gè)OSD,共有四種可能的狀態(tài):
—— Up且in:說明該OSD正常運(yùn)行,且已經(jīng)承載至少一個(gè)PG的數(shù)據(jù)。這是一個(gè)OSD的標(biāo)準(zhǔn)工作狀態(tài);
—— Up且out:說明該OSD正常運(yùn)行,但并未承載任何PG,其中也沒有數(shù)據(jù)。一個(gè)新的OSD剛剛被加入Ceph集群后,便會處于這一狀態(tài)。而一個(gè)出現(xiàn)故障的OSD被修復(fù)后,重新加入Ceph集群時(shí),也是處于這一狀態(tài);
—— Down且in:說明該OSD發(fā)生異常,但仍然承載著至少一個(gè)PG,其中仍然存儲著數(shù)據(jù)。這種狀態(tài)下的OSD剛剛被發(fā)現(xiàn)存在異常,可能仍能恢復(fù)正常,也可能會徹底無法工作;
—— Down且out:說明該OSD已經(jīng)徹底發(fā)生故障,且已經(jīng)不再承載任何PG。
(4)CRUSH算法配置參數(shù)。表明了Ceph集群的物理層級關(guān)系(cluster hierarchy),位置映射規(guī)則(placement rules)。
根據(jù)cluster map的定義可以看出,其版本變化通常只會由(3)和(4)兩項(xiàng)信息的變化觸發(fā)。而這兩者相比,(3)發(fā)生變化的概率更高一些。這可以通過下面對OSD工作狀態(tài)變化過程的介紹加以反映。
一個(gè)新的OSD上線后,首先根據(jù)配置信息與monitor通信。Monitor將其加入cluster map,并設(shè)置為up且out狀態(tài),再將最新版本的cluster map發(fā)給這個(gè)新OSD。
收到monitor發(fā)來的cluster map之后,這個(gè)新OSD計(jì)算出自己所承載的PG(為簡化討論,此處我們假定這個(gè)新的OSD開始只承載一個(gè)PG),以及和自己承載同一個(gè)PG的其他OSD。然后,新OSD將與這些OSD取得聯(lián)系。如果這個(gè)PG目前處于降級狀態(tài)(即承載該P(yáng)G的OSD個(gè)數(shù)少于正常值,如正常應(yīng)該是3個(gè),此時(shí)只有2個(gè)或1個(gè)。這種情況通常是OSD故障所致),則其他OSD將把這個(gè)PG內(nèi)的所有對象和元數(shù)據(jù)復(fù)制給新OSD。數(shù)據(jù)復(fù)制完成后,新OSD被置為up且in狀態(tài)。而cluster map內(nèi)容也將據(jù)此更新。這事實(shí)上是一個(gè)自動化的failure recovery過程。當(dāng)然,即便沒有新的OSD加入,降級的PG也將計(jì)算出其他OSD實(shí)現(xiàn)failure recovery。
如果該P(yáng)G目前一切正常,則這個(gè)新OSD將替換掉現(xiàn)有OSD中的一個(gè)(PG內(nèi)將重新選出Primary OSD),并承擔(dān)其數(shù)據(jù)。在數(shù)據(jù)復(fù)制完成后,新OSD被置為up且in狀態(tài),而被替換的OSD將退出該P(yáng)G(但狀態(tài)通常仍然為up且in,因?yàn)檫€要承載其他PG)。而cluster map內(nèi)容也將據(jù)此更新。這事實(shí)上是一個(gè)自動化的數(shù)據(jù)re-balancing過程。
如果一個(gè)OSD發(fā)現(xiàn)和自己共同承載一個(gè)PG的另一個(gè)OSD無法聯(lián)通,則會將這一情況上報(bào)monitor。此外,如果一個(gè)OSD deamon發(fā)現(xiàn)自身工作狀態(tài)異常,也將把異常情況主動上報(bào)給monitor。在上述情況下,monitor將把出現(xiàn)問題的OSD的狀態(tài)設(shè)為down且in。如果超過某一預(yù)訂時(shí)間期限,該OSD仍然無法恢復(fù)正常,則其狀態(tài)將被設(shè)置為down且out。反之,如果該OSD能夠恢復(fù)正常,則其狀態(tài)會恢復(fù)為up且in。在上述這些狀態(tài)變化發(fā)生之后,monitor都將更新cluster map并進(jìn)行擴(kuò)散。這事實(shí)上是自動化的failure detection過程。
由之前介紹可以看出,對于一個(gè)Ceph集群而言,即便由數(shù)千個(gè)甚至更多OSD組成,cluster map的數(shù)據(jù)結(jié)構(gòu)大小也并不驚人。同時(shí),cluster map的狀態(tài)更新并不會頻繁發(fā)生。即便如此,Ceph依然對cluster map信息的擴(kuò)散機(jī)制進(jìn)行了優(yōu)化,以便減輕相關(guān)計(jì)算和通信壓力。
首先,cluster map信息是以增量形式擴(kuò)散的。如果任意一次通信的雙方發(fā)現(xiàn)其epoch不一致,則版本更新的一方將把二者所擁有的cluster map的差異發(fā)送給另外一方。
其次,cluster map信息是以異步且lazy的形式擴(kuò)散的。也即,monitor并不會在每一次cluster map版本更新后都將新版本廣播至全體OSD,而是在有OSD向自己上報(bào)信息時(shí),將更新回復(fù)給對方。類似的,各個(gè)OSD也是在和其他OSD通信時(shí),將更新發(fā)送給版本低于自己的對方。
基于上述機(jī)制,Ceph避免了由于cluster map版本更新而引起的廣播風(fēng)暴。這雖然是一種異步且lazy的機(jī)制,但根據(jù)Sage論文中的結(jié)論,對于一個(gè)由n個(gè)OSD組成的Ceph集群,任何一次版本更新能夠在O(log(n))時(shí)間復(fù)雜度內(nèi)擴(kuò)散到集群中的任何一個(gè)OSD上。
一個(gè)可能被問到的問題是:既然這是一種異步和lazy的擴(kuò)散機(jī)制,則在版本擴(kuò)散過程中,系統(tǒng)必定出現(xiàn)各個(gè)OSD看到的cluster map不一致的情況,這是否會導(dǎo)致問題?答案是:不會。事實(shí)上,如果一個(gè)client和它要訪問的PG內(nèi)部的各個(gè)OSD看到的cluster map狀態(tài)一致,則訪問操作就可以正確進(jìn)行。而如果這個(gè)client或者PG中的某個(gè)OSD和其他幾方的cluster map不一致,則根據(jù)Ceph的機(jī)制設(shè)計(jì),這幾方將首先同步cluster map至最新狀態(tài),并進(jìn)行必要的數(shù)據(jù)re-balancing操作,然后即可繼續(xù)正常訪問。
通過上述介紹,我們可以簡要了解Ceph究竟是如果基于cluster map機(jī)制,并由monitor、OSD和client共同配合完成集群狀態(tài)的維護(hù)與數(shù)據(jù)訪問的。特別的,基于這個(gè)機(jī)制,事實(shí)上可以自然而然的完成自動化的數(shù)據(jù)備份、數(shù)據(jù)re-balancing、故障探測和故障恢復(fù),并不需要復(fù)雜的特殊設(shè)計(jì)。這一點(diǎn)確實(shí)讓人印象深刻。
上述就是小編為大家分享的CEPH的工作原理及流程是怎樣的呢了,如果剛好有類似的疑惑,不妨參照上述分析進(jìn)行理解。如果想知道更多相關(guān)知識,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。