本次進行數(shù)據(jù)恢復(fù)的是一組6塊750G磁盤的 RAID6,先后有兩塊磁盤離線,但維護人員在此情況下依然沒有更換磁盤,所以在第三塊硬盤離線后raid直接崩潰了。由此導(dǎo)致數(shù)據(jù)全部丟失。這臺服務(wù)器是WEB服務(wù)器,運行MySQL數(shù)據(jù)庫,同時存放了大量其它文件,管理員在數(shù)據(jù)丟失后便第一時間尋求數(shù)據(jù)恢復(fù)公司的幫助,但是經(jīng)過某公司的操作后仍有近一個月的文件損壞或丟失,MYSQL數(shù)據(jù)庫也嚴重損壞。后來經(jīng)其它運維人員的介紹,這位管理員同志就聯(lián)系到了我們。
創(chuàng)新互聯(lián)建站專注于企業(yè)營銷型網(wǎng)站、網(wǎng)站重做改版、扎賚特網(wǎng)站定制設(shè)計、自適應(yīng)品牌網(wǎng)站建設(shè)、H5技術(shù)、成都商城網(wǎng)站開發(fā)、集團公司官網(wǎng)建設(shè)、成都外貿(mào)網(wǎng)站建設(shè)、高端網(wǎng)站制作、響應(yīng)式網(wǎng)頁設(shè)計等建站業(yè)務(wù),價格優(yōu)惠性價比高,為扎賚特等各大城市提供網(wǎng)站開發(fā)制作服務(wù)。
了解了服務(wù)器故障的基本情況以后,我們的工程師先將這6塊磁盤鏡像備份到我們的安全存儲池中,就不再對原存儲進行任何的操作,這樣就保障了客戶數(shù)據(jù)的原始性。通過對服務(wù)器備份鏡像的分析,數(shù)據(jù)恢復(fù)工程師發(fā)現(xiàn)有兩塊磁盤離線時間很早,最新的數(shù)據(jù)已經(jīng)不再寫入。此RAID6用的是雙校驗,第一個校驗是由普通的XOR運算生成,而第二個校驗是由Reed-Solomon算法生成,相當(dāng)復(fù)雜,運用了相當(dāng)奇妙的數(shù)學(xué)原理。此RAID6有兩塊磁盤早已不寫入新數(shù)據(jù),要想完整恢復(fù)數(shù)據(jù)就必須運用第二個校驗,否則會導(dǎo)致最新的數(shù)據(jù)丟失或損壞。目前市面上還沒有公開的數(shù)據(jù)恢復(fù)軟件能解決這個問題,雖然有部分軟件設(shè)有這一功能,但不過是擺設(shè)而已,實則無法使用。這也就是其他公司并沒能夠完整的恢復(fù)所有數(shù)據(jù)的根本原因所在。
服務(wù)器數(shù)據(jù)恢復(fù)工程師分析出原始RAID的一些參數(shù),然后使用了我們自己寫的完全RAID6恢復(fù)軟件,生成出一個完整鏡像,再將鏡像導(dǎo)回客戶用新磁盤搭好的存儲上,開機,一切正常,經(jīng)過管理員的驗證,數(shù)據(jù)沒任何問題,本次服務(wù)器數(shù)據(jù)恢復(fù)成功
本次進行數(shù)據(jù)恢復(fù)的服務(wù)器由4塊18GB的硬盤做成RAID 5磁盤陣列,其陣列卡是NetRaid;操作系統(tǒng)為Window 2000,數(shù)據(jù)庫是Server 2000。服務(wù)器在正常工作時一塊硬盤紅燈閃亮,機器還在正常運行,但沒有多久,系統(tǒng)就不能正常運行,這時才發(fā)現(xiàn)另一塊硬盤的紅燈也在閃亮。
本次服務(wù)器數(shù)據(jù)恢復(fù)的過程首先是由數(shù)據(jù)恢復(fù)國內(nèi)工程師檢測服務(wù)器。自檢至陣列時按Ctrl+M進入NetRaid管理程序。查看陣列信息,發(fā)現(xiàn)硬盤狀態(tài)為Failed,運用修改配置將一硬盤強行設(shè)置成OnLine。重新啟動服務(wù)器,在進入系統(tǒng)前的硬件自檢時無效,啟動失敗。
數(shù)據(jù)恢復(fù)工程師再次啟動服務(wù)器,自檢至陣列時按Ctrl+M進入NetRaid管理程序。選擇磁盤陣列,將原來OnLine掛起來的硬盤手工Fail掉,然后再把另一塊Failed的硬盤手工設(shè)置成OnLine,重新啟動服務(wù)器就可以進入系統(tǒng)了。查看系統(tǒng)及數(shù)據(jù)庫都運行正常后,再進陣列配置工具把Failed的硬盤手工設(shè)置成Rebuild,100%完成重建后再重啟服務(wù)器,所有的陣列及系統(tǒng)都恢復(fù)原狀了,本次服務(wù)器數(shù)據(jù)恢復(fù)成功。
本次數(shù)據(jù)恢復(fù)案例的背景是一臺裝有20塊硬盤的普通服務(wù)器,由于未知原因上層業(yè)務(wù)突然崩潰,機房管理員對服務(wù)器進行檢查發(fā)現(xiàn)導(dǎo)致服務(wù)器崩潰的主要原因是服務(wù)器上有3塊硬盤離線,管理員將服務(wù)器內(nèi)的所有硬盤按照現(xiàn)有盤序從槽位取出后攜帶硬盤來到北京某數(shù)據(jù)恢復(fù)中心進行服務(wù)器數(shù)據(jù)恢復(fù)操作。
服務(wù)器數(shù)據(jù)恢復(fù)工程師接到客戶的硬盤后使用數(shù)據(jù)恢復(fù)檢測設(shè)備對20塊硬盤進行檢測,結(jié)果發(fā)現(xiàn)所有硬盤在數(shù)據(jù)恢復(fù)設(shè)備下均可識別,這就避免了修復(fù)硬件的過程和由于硬盤物理損傷過于嚴重?zé)o法修復(fù)導(dǎo)致的服務(wù)器數(shù)據(jù)恢復(fù)風(fēng)險,是一件值得慶幸的事情,隨后對該服務(wù)器內(nèi)的所有硬盤進行鏡像,鏡像過程中發(fā)現(xiàn)原來服務(wù)器中提示離線的3塊硬盤鏡像個過程十分緩慢,這也與之前硬盤離線的原因有一定的關(guān)系,多數(shù)原因是因為這三塊硬盤內(nèi)存在大量的壞道或者不穩(wěn)定扇區(qū),所以在正常的服務(wù)器環(huán)境下出現(xiàn)離線情況,在專業(yè)的數(shù)據(jù)恢復(fù)設(shè)備中則可以識別,在鏡像過程中就會出現(xiàn)鏡像十分緩慢的情況,通過調(diào)整鏡像策略來調(diào)過硬盤的壞扇區(qū)來進行調(diào)整,直至所有硬盤都成功鏡像完成。
所有硬盤都成功鏡像以后,數(shù)據(jù)恢復(fù)工程師繼續(xù)使用服務(wù)器數(shù)據(jù)恢復(fù)工具將所有的鏡像文件展開進行底層數(shù)據(jù)分析,根據(jù)ext3文件系統(tǒng)的逆向分析得到服務(wù)器內(nèi)硬盤的盤序和校驗信息,分析過程這里就不贅述了。最后利用這些分析出來的信息進行重組raid陣列,通過和用戶溝通提取出了一些oracle的dmp文件,在dmp恢復(fù)的過程中,數(shù)據(jù)庫報告為imp-0008錯誤,通過仔細分析導(dǎo)入dmp文件的日志文件,發(fā)現(xiàn)恢復(fù)的dmp文件存在問題而導(dǎo)致dmp導(dǎo)入數(shù)據(jù)失敗。立刻重新分析raid結(jié)構(gòu),以及進一步確定ext3文件系統(tǒng)被破壞的程度,又經(jīng)過數(shù)小時的工作,重新恢復(fù)dmp文件和dbf原始庫文件,將恢復(fù)出來的dmp文件移交給用戶進行數(shù)據(jù)導(dǎo)入測試,結(jié)果測試順利沒有發(fā)現(xiàn)問題,說明這次的數(shù)據(jù)恢復(fù)是成功的,接著對恢復(fù)出來的dbf原始庫文件進行校驗檢測,所有文件均能通過測試。
服務(wù)器數(shù)據(jù)恢復(fù)工程師聯(lián)系客戶進行數(shù)據(jù)恢復(fù)結(jié)果的驗證,經(jīng)過客戶驗證所有數(shù)據(jù)均已經(jīng)成功恢復(fù),于是在服務(wù)器上又搭建了一組新的raid陣列,由數(shù)據(jù)恢復(fù)工程師配合將所有恢復(fù)成功的服務(wù)器數(shù)據(jù)遷移回客戶的服務(wù)器上,本次服務(wù)器數(shù)據(jù)恢復(fù)成功。