今天記錄一次raid5磁盤陣列數(shù)據(jù)恢復(fù)的成功案例。首先簡(jiǎn)單介紹一下需要數(shù)據(jù)恢復(fù)的服務(wù)器基礎(chǔ)配置情況:
·
客戶的服務(wù)器設(shè)備為EMC存儲(chǔ),raid5磁盤陣列,由多塊stat硬盤組成一組磁盤陣列,包含兩塊熱備盤。服務(wù)器發(fā)生故障崩潰時(shí)底層硬盤有2塊出現(xiàn)故障,熱備盤中有一塊被激活。
·
南岸ssl適用于網(wǎng)站、小程序/APP、API接口等需要進(jìn)行數(shù)據(jù)傳輸應(yīng)用場(chǎng)景,ssl證書未來(lái)市場(chǎng)廣闊!成為創(chuàng)新互聯(lián)的ssl證書銷售渠道,可以享受市場(chǎng)價(jià)格4-6折優(yōu)惠!如果有意向歡迎電話聯(lián)系或者加微信:18980820575(備注:SSL證書合作)期待與您的合作!
數(shù)據(jù)恢復(fù)中心的數(shù)據(jù)恢復(fù)工程師前往客戶現(xiàn)場(chǎng)對(duì)服務(wù)器設(shè)備進(jìn)行故障檢測(cè)。服務(wù)器數(shù)據(jù)恢復(fù)工程師對(duì)客戶服務(wù)器設(shè)備進(jìn)行了簡(jiǎn)單排查,確認(rèn)raid5陣列癱瘓;上層lun無(wú)法正常使用,2塊熱備盤中有一塊已經(jīng)啟動(dòng)。
·
數(shù)據(jù)恢復(fù)工程師對(duì)掉線的硬盤進(jìn)行物理排查,兩塊硬盤中均未檢測(cè)到壞道、磁頭故障等物理?yè)p壞。進(jìn)行接下來(lái)的數(shù)據(jù)恢復(fù)操作時(shí)可以不需要進(jìn)行物理修復(fù)即可。
·
在數(shù)據(jù)恢復(fù)操作之前,需要將服務(wù)器設(shè)備上的所有原始數(shù)據(jù)進(jìn)行鏡像備份,在本次數(shù)據(jù)恢復(fù)案例中,服務(wù)器數(shù)據(jù)恢復(fù)工程師將所有硬盤連接到北亞數(shù)據(jù)恢復(fù)中心的數(shù)據(jù)恢復(fù)專用存儲(chǔ)池中,對(duì)所有硬盤進(jìn)行了扇區(qū)級(jí)鏡像操作。
·
服務(wù)器數(shù)據(jù)恢復(fù)操作通常都是基于恢復(fù)raid組進(jìn)行數(shù)據(jù)恢復(fù)操作的,因此本次數(shù)據(jù)恢復(fù)操作也同樣需要對(duì)raid陣列基礎(chǔ)信息進(jìn)行分析,從而重組raid結(jié)構(gòu)。
·
經(jīng)過(guò)數(shù)據(jù)恢復(fù)工程師對(duì)每一塊硬盤的分析發(fā)現(xiàn),客戶原服務(wù)器內(nèi)的兩塊熱備盤內(nèi)全部沒有任何數(shù)據(jù),也就是說(shuō)即使被激活的熱備盤也同樣沒有同步到任何數(shù)據(jù),兩塊熱備盤從實(shí)際上而言并沒有發(fā)生任何作用。想要恢復(fù)數(shù)據(jù),只好繼續(xù)恢復(fù)原raid5陣列的其他基本數(shù)據(jù),重組raid5.
·
根據(jù)上述數(shù)據(jù)恢復(fù)思路,服務(wù)器數(shù)據(jù)恢復(fù)工程師使用自主研發(fā)的數(shù)據(jù)恢復(fù)工具分析出該組raid5陣列的基礎(chǔ)信息,并虛擬重組出了raid5磁盤陣列。在raid數(shù)據(jù)恢復(fù)常規(guī)流程下,我們會(huì)將多塊硬盤掉線的陣列中最早掉線的硬盤從陣列中剔除。通常我們進(jìn)行數(shù)據(jù)分析的方法是比對(duì)每塊硬盤在同一個(gè)條帶上的數(shù)據(jù)是否一致,將明顯不同的硬盤剔除后進(jìn)行條帶校驗(yàn),直至找到數(shù)據(jù)恢復(fù)的最佳狀態(tài)為止。
·
成功重組出raid5陣列后,工程師開始對(duì)lun信息進(jìn)行分析,在本次數(shù)據(jù)恢復(fù)案例中,客戶的服務(wù)器上層只有一個(gè)lun,工程師只需要將這唯一的一個(gè)lun信息進(jìn)行分析,然后使用raid數(shù)據(jù)恢復(fù)程序?qū)un數(shù)據(jù)的map進(jìn)行解析和導(dǎo)出。
·
使用數(shù)據(jù)恢復(fù)工具對(duì)上層的文件系統(tǒng)進(jìn)行解析和恢復(fù)。客戶上層采用的是zfs文件系統(tǒng),服務(wù)器數(shù)據(jù)恢復(fù)工程師對(duì)文件系統(tǒng)解析時(shí)發(fā)現(xiàn)部分文件系統(tǒng)元文件報(bào)錯(cuò),于是數(shù)據(jù)恢復(fù)工程師對(duì)現(xiàn)有的數(shù)據(jù)恢復(fù)工具進(jìn)行debug調(diào)試,使程序適應(yīng)本次數(shù)據(jù)恢復(fù)的實(shí)際情況。
·
經(jīng)過(guò)調(diào)試,導(dǎo)致zfs文件系統(tǒng)解析報(bào)錯(cuò)的原因是由于客戶的服務(wù)器突然癱瘓導(dǎo)致文件系統(tǒng)中某些元文件被損壞,導(dǎo)致數(shù)據(jù)恢復(fù)工具無(wú)法正常解析。服務(wù)器數(shù)據(jù)恢復(fù)工程師針對(duì)損壞的元文件采用人工修復(fù)等方法,保障zfs文件系統(tǒng)可以被正常解析。
·
通過(guò)對(duì)文件系統(tǒng)的完整解析,服務(wù)器數(shù)據(jù)恢復(fù)工程師最終將客戶raid陣列內(nèi)的數(shù)據(jù)完整導(dǎo)出,由客戶工程師配合搭建數(shù)據(jù)驗(yàn)證環(huán)境,恢復(fù)出來(lái)的所有數(shù)據(jù)進(jìn)行驗(yàn)證,經(jīng)過(guò)驗(yàn)證,客戶原服務(wù)器內(nèi)的所有數(shù)據(jù)均被成功恢復(fù),本次數(shù)據(jù)恢復(fù)成功。