在工作中有時(shí)會(huì)出現(xiàn)Exchange服務(wù)器在意外重啟后藍(lán)屏并且無法直接恢復(fù)的情況,通過災(zāi)難恢復(fù)方式處理之后穩(wěn)定運(yùn)行一個(gè)月該服務(wù)器又出現(xiàn)脫域的現(xiàn)象。在此我總結(jié)處理問題的過程及思路,希望能對(duì)同行有所幫助。
環(huán)境:
創(chuàng)新互聯(lián)擁有十多年的建站服務(wù)經(jīng)驗(yàn),在此期間,我們發(fā)現(xiàn)較多的客戶在挑選建站服務(wù)商前都非常的猶豫。主要問題集中:在無法預(yù)知自己的網(wǎng)站呈現(xiàn)的效果是什么樣的?也無法判斷選擇的服務(wù)商設(shè)計(jì)出來的網(wǎng)頁效果自己是否會(huì)滿意?創(chuàng)新互聯(lián)業(yè)務(wù)涵蓋了互聯(lián)網(wǎng)平臺(tái)網(wǎng)站建設(shè)、移動(dòng)平臺(tái)網(wǎng)站制作、網(wǎng)絡(luò)推廣、按需開發(fā)網(wǎng)站等服務(wù)。創(chuàng)新互聯(lián)網(wǎng)站開發(fā)公司本著不拘一格的網(wǎng)站視覺設(shè)計(jì)和網(wǎng)站開發(fā)技術(shù)相結(jié)合,為企業(yè)做網(wǎng)站提供成熟的網(wǎng)站設(shè)計(jì)方案。
操作系統(tǒng):Windows Server 2008 R2 sp1
Exchange版本:Exchange2010sp3 CU8
架構(gòu):3臺(tái)CAS+4臺(tái)MBX
現(xiàn)象:CAS服務(wù)器中的一臺(tái)(用CAS2表示)系統(tǒng)在意外重啟后無法進(jìn)入系統(tǒng)。測(cè)試同樣無法進(jìn)入安全模式和最后一次正確配置。
解決過程:
根據(jù)微軟官方文檔
https://technet.microsoft.com/zh-cn/library/dd876880(v=exchg.141).aspx
提供的信息得知恢復(fù)操作需要滿足先決條件:
執(zhí)行恢復(fù)操作的服務(wù)器必須運(yùn)行與丟失服務(wù)器相同的操作系統(tǒng);
執(zhí)行恢復(fù)操作的服務(wù)器必須與丟失服務(wù)器擁有相同的性能特征和硬件配置;
可在安裝了客戶端訪問、集線器傳輸、郵箱或統(tǒng)一消息服務(wù)器角色的 Exchange 2010 服務(wù)器上運(yùn)行。
客戶處的Exchange2010環(huán)境中沒有安裝邊緣服務(wù)器的角色,完全能滿足上述條件。另外能確定的時(shí)原有Exchange服務(wù)器上安裝程序的路徑為默認(rèn)值,使得恢復(fù)過程變得更加便利,不需要指定自定義的安裝路徑。
整個(gè)恢復(fù)過程還算順利,等用戶信息同步完成后測(cè)試新裝CAS2的OWA和outlook功能都能正常使用。最后將新加服務(wù)器加入NLB群集即可。如果環(huán)境中使用的是硬件負(fù)載設(shè)備,只需啟用對(duì)應(yīng)IP策略即可。
本以為事情就這樣結(jié)束了,事實(shí)觀察使用兩周的情況都還不錯(cuò),沒有出現(xiàn)批量用戶報(bào)障。大約一個(gè)月后的周一,上班時(shí)大量用戶反饋outlook彈窗需要輸入密碼,并且在輸入密碼后也不能使用。馬上分別檢查三臺(tái)CAS的owa訪問是否正常,恰好是CAS2無法正常使用:可以彈出登錄界面,輸入密碼后無法進(jìn)行進(jìn)一步跳轉(zhuǎn)。使用郵箱管理員賬號(hào)亦無法登錄至該服務(wù)器,本地管理員可登陸。登陸后立即做了基礎(chǔ)診斷:
網(wǎng)絡(luò)配置正常,與DC和其他Exchange服務(wù)器之間網(wǎng)絡(luò)暢通;
系統(tǒng)資源正常:磁盤使用情況、CPU和內(nèi)存在使用率都在正常范圍內(nèi);
切換其他域管理員賬號(hào)登錄提示無法建立信任關(guān)系。
為了進(jìn)一步確認(rèn)是脫域,我使用nltest測(cè)試了域安全通道信任關(guān)系:
nltest /server:servername /sc_query:domainname
系統(tǒng)提示Status = 1355 0x54b ERROR_NO_SUCH_DOMAIN
為了盡快恢復(fù)業(yè)務(wù),沒有深究脫域的原因而是恢復(fù)信任關(guān)系。通??蛻舳嗣撚蛑笞詈?jiǎn)單的處理辦法時(shí)退域之后重新加域即可,比較簡(jiǎn)單的判斷是否正常的手段是檢查網(wǎng)絡(luò)適配器是否連接到了域網(wǎng)絡(luò),根據(jù)我的經(jīng)驗(yàn)脫域的計(jì)算機(jī)多顯示為公用網(wǎng)絡(luò)。
郵箱服務(wù)器不便采用退域重新加域的方式處理,防止在退域的時(shí)候AD數(shù)據(jù)庫會(huì)抹除部分Exchange服務(wù)器特有的信息,需要使用netdom工具來重建信任關(guān)系
在脫域的服務(wù)器上運(yùn)行
netdom resetpwd /Server:dcname /ud:mailadminaccount /pd:password
有驚無險(xiǎn),重啟后郵箱恢復(fù)正常,不過整個(gè)處理的過程倒是循序漸進(jìn)。后續(xù)檢查了系統(tǒng)日志試圖確認(rèn)服務(wù)器脫域的原因,未找到有相關(guān)信息。微軟論壇求助等多方資源求助無果后便沒再深究。
造成服務(wù)器脫域的因素時(shí)多方面的,諸如計(jì)算機(jī)重名、長時(shí)間關(guān)機(jī)未與域通信或者sid沖突等都有可能。
【總結(jié)】
兩次故障都能恢復(fù)有一個(gè)很大的條件時(shí),當(dāng)前客戶環(huán)境是3CAS提供服務(wù),配置信息可以從正常服務(wù)器上同步過來。其中藍(lán)屏和脫域的恢復(fù)都需要的一個(gè)動(dòng)作是重置計(jì)算機(jī)賬號(hào),而不是直接刪除。這是比較關(guān)鍵的點(diǎn),既能保留原有信息又防止因?yàn)橛?jì)算機(jī)名沖突SID不一致導(dǎo)致無法正常入域的現(xiàn)象。
再者,命令處理的方式對(duì)于問題的診斷和恢復(fù)都更有針對(duì)性,對(duì)定位問題提供了更明確的方向。