近年來(lái),大型企業(yè)以及開(kāi)源社區(qū)不斷的推動(dòng)中國(guó)開(kāi)源技術(shù)的發(fā)展,今天的中國(guó)已然成為OpenStack & Ceph等開(kāi)源技術(shù)大放光彩的樂(lè)土。
在順義等地區(qū),都構(gòu)建了全面的區(qū)域性戰(zhàn)略布局,加強(qiáng)發(fā)展的系統(tǒng)性、市場(chǎng)前瞻性、產(chǎn)品創(chuàng)新能力,以專注、極致的服務(wù)理念,為客戶提供成都網(wǎng)站制作、成都做網(wǎng)站、外貿(mào)營(yíng)銷網(wǎng)站建設(shè) 網(wǎng)站設(shè)計(jì)制作按需策劃設(shè)計(jì),公司網(wǎng)站建設(shè),企業(yè)網(wǎng)站建設(shè),品牌網(wǎng)站制作,全網(wǎng)整合營(yíng)銷推廣,外貿(mào)網(wǎng)站建設(shè),順義網(wǎng)站建設(shè)費(fèi)用合理。圖為 Ceph中國(guó)行各地沙龍
Ceph國(guó)內(nèi)用戶生態(tài)
Ceph作為全球最火熱的開(kāi)源分布式存儲(chǔ)項(xiàng)目,同樣在中國(guó)的發(fā)展也是非?;馃幔粩嚅_(kāi)始在不同領(lǐng)域不同行業(yè)及客戶系統(tǒng)相融合。典型應(yīng)用在國(guó)內(nèi)一線互聯(lián)網(wǎng)公司以及運(yùn)營(yíng)商、政府、金融、廣電、能源、游戲、直播等行業(yè)。
當(dāng)前中國(guó)Ceph形勢(shì)對(duì)比前幾年已經(jīng)發(fā)生了決定性的變化,隨著國(guó)內(nèi)越來(lái)越多的各行業(yè)用戶的使用,足以見(jiàn)證它的穩(wěn)定性可靠性。Ceph中國(guó)用戶生態(tài)已然形成,可以看到國(guó)內(nèi)如:中國(guó)移動(dòng)、騰訊、阿里、網(wǎng)易、樂(lè)視、攜程、今日頭條、中國(guó)電信、中興、恒豐銀行、平安科技、YY、B站、360等。正是由于眾多用戶的使用驗(yàn)證了它的穩(wěn)定性和可靠性的同時(shí)也促進(jìn)了Ceph的進(jìn)步,使其出現(xiàn)了很多新東西,如 SPDK、BlueStore、RDMA等等這些高性能底層技術(shù)。
Ceph國(guó)內(nèi)貢獻(xiàn)
豪邁在之前的文章也談到過(guò)Ceph社區(qū)的貢獻(xiàn)者,非常有意思的是 Ceph 的使用用戶占據(jù)了相當(dāng)?shù)呢暙I(xiàn)排名,一定程度上反映了 Ceph 目前的現(xiàn)狀,要能夠真正掌控Ceph 必須得深入社區(qū)并隨之成長(zhǎng)。因此,對(duì)于一個(gè)并不是像 Linux 一樣成熟的開(kāi)源項(xiàng)目,特別還是一個(gè)存儲(chǔ)系統(tǒng)來(lái)說(shuō),代碼貢獻(xiàn)程度基本決定了對(duì)于Ceph 的理解,風(fēng)險(xiǎn)控制和使用程度。社區(qū)內(nèi)部的形成的開(kāi)發(fā),使用問(wèn)題,迭代,修復(fù),升級(jí),測(cè)試流程閉環(huán)產(chǎn)生的效應(yīng)能夠大大提高參與公司對(duì)于Ceph 的理解。大部分真正大規(guī)模使用或者基于 Ceph 的產(chǎn)品的公司都參與或間接參與到了社區(qū)其中,這非常類似于早期的Linux 和 OpenStack 情況。
那么國(guó)內(nèi)都有哪些公司參與社區(qū)的貢獻(xiàn)呢?我來(lái)說(shuō)下,如:中國(guó)移動(dòng)、XSKY、中興、浪潮、H3C、阿里、網(wǎng)易、樂(lè)視、360、United Stack、99cloud等等,我這里就不展開(kāi)說(shuō)了(以上公司不分排名),詳情可以查看社區(qū)mail list。
大家可能會(huì)說(shuō)國(guó)內(nèi)企業(yè)對(duì)Ceph社區(qū)貢獻(xiàn)的參與度遠(yuǎn)遠(yuǎn)低于OpenStack社區(qū)貢獻(xiàn),我覺(jué)得這樣反而沒(méi)什么不好,因?yàn)榇鎯?chǔ)是一個(gè)很嚴(yán)肅的事情,控制層面的東西遠(yuǎn)遠(yuǎn)不能和數(shù)據(jù)層面的東西相比較,另外存儲(chǔ)的門檻很高,不是隨隨便便就可以玩的。社區(qū)要求高質(zhì)量的代碼,拒絕刷榜污染開(kāi)源技術(shù)文化環(huán)境。例如樂(lè)視小伙伴提交的Ceph RGW:Lifecycle還有XSKY小伙伴提交的DPDK、SPDK、RDMA、AsyncMessenger等等。
Ceph社區(qū):持續(xù)的創(chuàng)新環(huán)境
從傳統(tǒng)IT基礎(chǔ)架構(gòu)的生態(tài)鏈看,各個(gè)層級(jí)的行業(yè)領(lǐng)導(dǎo)者紛紛為Ceph投入人力,物力來(lái)持續(xù)推動(dòng)不斷創(chuàng)新的運(yùn)行,開(kāi)發(fā)和生產(chǎn)環(huán)境。
如圖所示RedHat、SUSE、Canonical、FreeBSD等構(gòu)成了Ceph 軟件發(fā)行包的廠商,Intel,Mellanox,AMD 和 Cisco 分別在不同的硬件組件層面推動(dòng)自身融入Ceph 體系,SanDisk,HDS 和 Fujitsu 都在自身的存儲(chǔ)系統(tǒng)上采用 Ceph 整合,CERN 和德國(guó)電信分別是 Ceph 社區(qū)參與和回饋?zhàn)疃嗟钠髽I(yè)用戶。同時(shí)近年來(lái)國(guó)內(nèi)運(yùn)營(yíng)商級(jí)別用戶中國(guó)移動(dòng)也在參與Ceph社區(qū)的貢獻(xiàn)。
Ceph 通過(guò)其開(kāi)放的社區(qū)和插件化的代碼架構(gòu)來(lái)包容越來(lái)越多的底層廠商參與其中,不管是 Mellanox 推動(dòng) Infiniband/RDMA,還是希捷的 Kinetic API,或是 Intel x86 架構(gòu),ARM 都在積極的參與其中,利用自身的優(yōu)勢(shì)來(lái)持續(xù)對(duì) Ceph 軟件體系進(jìn)行創(chuàng)新發(fā)展。
比如在網(wǎng)絡(luò)層面,Mellanox 聯(lián)合 XSKY提供了基于 RDMA 的網(wǎng)絡(luò)方案,Chelsio 跟 XSKY 合作實(shí)現(xiàn)基于 iWARP 的 RDMA 存儲(chǔ)網(wǎng)絡(luò)等。
Ceph存儲(chǔ)引擎
Ceph在存儲(chǔ)后端支持多種不同的存儲(chǔ)引擎,有點(diǎn)類似MySQL支持InnoDB,MyISAM等等一樣。之前有FileStore,KeyValueStore、NewStore和MemStore,但在這些存儲(chǔ)引擎中真正被用來(lái)做在線系統(tǒng)只有FileStore。但是FileStore由于歷史問(wèn)題,存在先天的過(guò)多依賴本地文件系統(tǒng)的問(wèn)題,在高利用率下存在較為嚴(yán)重的性能瓶頸問(wèn)題。
因此,從Infernails版本開(kāi)始,Sage開(kāi)始NewStore的開(kāi)發(fā),通過(guò)結(jié)合鍵值數(shù)據(jù)庫(kù)的高效管理和本地文件系統(tǒng)對(duì)于數(shù)據(jù)的空間管理來(lái)實(shí)現(xiàn)高效的后端存儲(chǔ)。但是由于RocksDB和XFS的完美結(jié)合困難,在遭受若干次打擊后,Sage Weil決定一捅到底,直接替換XFS使用一個(gè)簡(jiǎn)易的用戶態(tài)文件系統(tǒng)進(jìn)行管理。這個(gè)項(xiàng)目命名為BlueStore。
BlueStore架構(gòu)圖
在這個(gè)嶄新的 BlueStore設(shè)計(jì)和實(shí)現(xiàn)中,RocksDB被寄予厚望去管理起整個(gè)元數(shù)據(jù)系統(tǒng),同時(shí)整個(gè)數(shù)據(jù)空間會(huì)采用一些為Ceph優(yōu)化的空間分配器進(jìn)行工作。目前Ceph已經(jīng)支持離線 FileStore 到 BlueStore 的轉(zhuǎn)換。
Ceph備份容災(zāi)
作為一個(gè)分布式存儲(chǔ)系統(tǒng),Ceph 很少會(huì)提及整集群全量備份,畢竟作為一個(gè)龐大的多副本存儲(chǔ)池,很難再投入更大規(guī)模的備份系統(tǒng)作為支撐,更多的是由Ceph 自身通過(guò)副本和后臺(tái)校驗(yàn)加上并行恢復(fù)來(lái)達(dá)到傳統(tǒng)存儲(chǔ)加備份機(jī)的可靠性。
但是 Ceph 仍然在不同的接口系統(tǒng)中提供了多種方式,在塊存儲(chǔ)中,用戶往往需要備份幾個(gè)重要的卷即使Ceph 集群在最差情況完全無(wú)法啟動(dòng)也能保證重要數(shù)據(jù)不至于丟失。
Ceph RBD異地災(zāi)備叫做Ceph RBD Mirroring,在Ceph Jewel版本中宣布可用。在此之前Ceph塊存儲(chǔ)解決方案(俗稱RBD)還不能很好的跨地域復(fù)制(災(zāi)備)。這里需要提醒一下,由于Ceph是強(qiáng)一致性,所以只有在所有副本都寫完的時(shí)候才認(rèn)為一個(gè)寫操作完成。這就是為什么建立一個(gè)跨很長(zhǎng)距離地域的集群通常都不是一個(gè)好主意,因?yàn)檫@種情況延時(shí)一般都很高。集群必須等到所有的寫操作都完成,所以客戶端可能需要大量的時(shí)間來(lái)進(jìn)行確認(rèn)。
因此,需要一種機(jī)制來(lái)允許在不同地域的集群之間復(fù)制塊設(shè)備。在當(dāng)前Jewel版本中,主要是實(shí)現(xiàn)兩個(gè)守護(hù)進(jìn)程之間一對(duì)一的關(guān)系,而在未來(lái)將會(huì)擴(kuò)展到1對(duì)N。這樣,在Jewel以后的版本中,你將能夠配置一個(gè)集群備份到多個(gè)目標(biāo)備份集群中。
RBD Mirror功能的啟用和禁用可以作用在整個(gè)Pool或者一個(gè)p_w_picpath上。如果在資源池級(jí)別啟用了RBD Mirror功能,這樣資源池中的每一個(gè)啟用了日志特性的鏡像將會(huì)被Mirroragent復(fù)制。
目前Ceph在多集群方案聚焦于接口層的方案,而不是在 RADOS 層面實(shí)現(xiàn)。比如 RADOS Object Storage在集群間通過(guò)Agent的方式進(jìn)行數(shù)據(jù)同步,當(dāng)然,在Jewel 版本中RADOS Object Storage V2種已經(jīng)支持多讀多寫的機(jī)制,由于對(duì)象存儲(chǔ)的弱語(yǔ)意,RADOS Object Storage的跨站仍然是最終一致性。其定義了 Zone,ZoneGroup 和聯(lián)合集群概念,每個(gè) Zone 可以理解為一個(gè)傳統(tǒng) Ceph 集群的部分,ZoneGroup 是多個(gè)Zone的集合,通常由不同地的Ceph集群中的Zone構(gòu)成,而整個(gè)聯(lián)合集群中只允許一個(gè)Master ZoneGroup 來(lái)進(jìn)行寫操作。因此從邏輯上來(lái)部署的話,Master ZoneGroup可以由多個(gè)Ceph集群構(gòu)成,而Slave ZoneGroup也可以將這些Ceph集群的其他池作為Zone。這樣就完成了多地多活的集群方案。
新版 Multi-Site 沿用記日志再同步的架構(gòu),代碼基本重寫,引入了boost 的協(xié)程框架,配置更清晰。同一個(gè)域下多 Zone之間的數(shù)據(jù)為多主模式,可以同時(shí)寫;元數(shù)據(jù)為主從模式,由主Zone寫入并同步到從Zone,保證元數(shù)據(jù)一致性。并且即將支持桶級(jí)同步。最近主線合并了同步模型的插件框架,用戶可以自定義插件來(lái)對(duì)接 elasticsearch 實(shí)現(xiàn)元數(shù)據(jù)索引,或者自定義的向云端備份等操作。
Ceph未來(lái)展望
1.Ceph與Elasticsearch
前段時(shí)間看到Ceph支持了Elasticsearch,RGW+Elasticsearch是今年Ceph對(duì)象存儲(chǔ)的一個(gè)熱點(diǎn)功能,相信Ceph在大數(shù)據(jù)時(shí)代下對(duì)數(shù)據(jù)搜索分析方面也將會(huì)更加的完善。
2.CephFS
CephFS在社區(qū)Jewel版本宣稱生產(chǎn)環(huán)境就緒, 目前 Active/Standby 模式比較穩(wěn)定,Multi Active模式不太穩(wěn)定,另外大規(guī)模使用的時(shí)候還是有一些問(wèn)題,希望社區(qū)盡快完善CephFS相關(guān)功能,從用戶角度還是有很多人期待使用CephFS的。
Ebay之前測(cè)試過(guò)J版本的CephFS,感興趣的可以看看他們的測(cè)試報(bào)告在Slideshare上(http://www.slideshare.net/XiaoxiChen3/cephfs-jewel-mds-performance-benchmark)
3.Ceph與新型硬件
同時(shí)在硬件高速發(fā)展的今天,也希望Ceph能夠在Intel的最新硬件3D Xpoint能跑出更好更高的性能,能夠使Ceph更加適應(yīng)高性能的場(chǎng)景。
4.Ceph人才培養(yǎng)
最后說(shuō)下對(duì)于Ceph人才的培養(yǎng)看法,國(guó)家工信部的三年計(jì)劃里面也公示了,”要建立創(chuàng)新人才培養(yǎng)模式,鼓勵(lì)高校加強(qiáng)云計(jì)算相關(guān)學(xué)科建設(shè),支持企業(yè)與高校聯(lián)合開(kāi)展在職人員培訓(xùn),簡(jiǎn)歷一批人才實(shí)訓(xùn)基地?!?隨著Ceph在中國(guó)的運(yùn)營(yíng)商、政府、金融、廣電、能源、游戲、直播等行業(yè)紛紛落地,導(dǎo)致出現(xiàn)了大量職位空缺。
所以現(xiàn)在需要建立起一套標(biāo)準(zhǔn)的Ceph培訓(xùn)體系來(lái)緩解目前對(duì)Ceph人才的稀缺問(wèn)題,同時(shí)進(jìn)行Ceph校園行以京津冀地區(qū)高校為試點(diǎn)輻射全國(guó),所謂開(kāi)源、Ceph宣傳推廣從校園開(kāi)始,響應(yīng)國(guó)家號(hào)召促進(jìn)大學(xué)生就業(yè)和積極參與開(kāi)源社區(qū)貢獻(xiàn)。
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)cdcxhl.cn,海內(nèi)外云服務(wù)器15元起步,三天無(wú)理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì),專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。