真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

大型系統(tǒng)的運(yùn)維要從哪些方面抓起——全面質(zhì)量管理

一個(gè)大型的互聯(lián)網(wǎng)系統(tǒng),意味著大用戶量、業(yè)務(wù)模塊多、服務(wù)器多、各種資源占用多,在拿到一個(gè)大型的互聯(lián)網(wǎng)應(yīng)用,運(yùn)維保障工作應(yīng)該從哪些方面抓起呢?

我們提供的服務(wù)有:成都做網(wǎng)站、成都網(wǎng)站設(shè)計(jì)、微信公眾號(hào)開發(fā)、網(wǎng)站優(yōu)化、網(wǎng)站認(rèn)證、九江ssl等。為數(shù)千家企事業(yè)單位解決了網(wǎng)站和推廣的問題。提供周到的售前咨詢和貼心的售后服務(wù),是有科學(xué)管理、有技術(shù)的九江網(wǎng)站制作公司

首先還是先看運(yùn)維的目標(biāo),追求更高的SLA、更低的成本。所有事情都是以這個(gè)目標(biāo)為出發(fā)點(diǎn),SLA指更高的服務(wù)質(zhì)量,落實(shí)到數(shù)據(jù)上就是線上服務(wù)的可用性和性能,可用性是3個(gè)9的時(shí)候能不能達(dá)到4個(gè)9?能不能持續(xù)保持4個(gè)9?平均響應(yīng)時(shí)間是100ms的時(shí)候能不能優(yōu)化到80ms?更低的成本指的是在同樣的SLA下,能不能用更少的服務(wù)器、更精簡(jiǎn)的架構(gòu)跑起來?所有的制度和自動(dòng)化工具,都是為完成這一目標(biāo)。

再看SLA和成本,兩者并不是獨(dú)立的,一般而言高SLA意味著高成本,例如用10臺(tái)服務(wù)器跑的服務(wù)改用100臺(tái)服務(wù)器跑,服務(wù)性能和質(zhì)量的SLA肯定是有提升的,所以這兩個(gè)指標(biāo)其實(shí)是一個(gè)對(duì)立與統(tǒng)一的平衡,兩個(gè)之間此消彼長(zhǎng),共同進(jìn)步。當(dāng)SLA和成本產(chǎn)生沖突時(shí),為了服務(wù)的穩(wěn)定性,我們一般的做法也是先穩(wěn)住服務(wù)質(zhì)量,再考慮優(yōu)化成本,也可以說用成本先穩(wěn)定住質(zhì)量,再慢慢找出用這么多服務(wù)器、這么多資源的原因,畢竟如果服務(wù)質(zhì)量沒有了、用戶流失了,一切都是零。

更高的SLA其實(shí)意味著更少的線上故障,如果我們以此為出發(fā)點(diǎn)去梳理運(yùn)維的工作的全貌,其實(shí)要抓的工作階段就變成了故障前、故障中、故障后,我們要盡量加大故障前的工作投入,減少流入故障中的問題數(shù)量,一旦流入故障中,我們要想辦法快速止損,止損完在故障后做好故障復(fù)盤,形成改進(jìn)措施避免同類問題再次發(fā)生,繼而流轉(zhuǎn)到故障前,循環(huán)往復(fù).........為了更形象的理解,畫了一張圖來展現(xiàn)。

大型系統(tǒng)的運(yùn)維要從哪些方面抓起——全面質(zhì)量管理

上圖將運(yùn)維的工作從故障生的角度分成了8大塊,每一塊可能對(duì)應(yīng)了很多個(gè)系統(tǒng)和制度作為支撐,全部形成了整個(gè)運(yùn)維服務(wù)體系,我們?nèi)粘W龅墓ぞ吆椭贫染褪菫榱嗣總€(gè)業(yè)務(wù)環(huán)節(jié)執(zhí)行的更高效,PS 對(duì)于大型系統(tǒng)運(yùn)維的一個(gè)關(guān)鍵在于各種標(biāo)準(zhǔn)化,標(biāo)準(zhǔn)化意味著批量操作意味著整齊劃一,現(xiàn)在拆開了說一下這8塊工作。

1、故障前—目標(biāo):減少問題流入“故障中”

①抓-變更

故障不是無緣無故的就生發(fā)了,很多發(fā)生在于變化,變化當(dāng)中很大的一個(gè)又是迭代上線,從每年故障的歷史數(shù)據(jù)看,有很大一部分故障都是由于上線變更造成的,所以要嚴(yán)管變更,控制好質(zhì)量后再上線。

管理變更主要是控制線上的“馬路殺手”,要做好單元測(cè)試、集成測(cè)試、線上灰度,然后再全量上線,保障萬無一失,從成本的角度看,上線后再回滾也是成本最大的一種方式,影響了用戶,然后還要重新返工。

有些變更類故障不是上線后馬上能發(fā)現(xiàn)的,比如java程序的full gc,可能上線一天后才能發(fā)生,所以這個(gè)時(shí)候要一些制度作為輔助,比如說重大節(jié)日前幾天就不允許上線了,下班時(shí)間要找老板審批后走緊急上線等等,加大非正常時(shí)間上線的變更成本,讓開發(fā)和運(yùn)維對(duì)線上服務(wù)慢慢培養(yǎng)起敬畏之心。

②抓-容量

容量的管理關(guān)乎到質(zhì)量和成本,很多時(shí)候?qū)τ谌萘渴悄:腿笔У?,具體表現(xiàn)就是發(fā)生了容量故障、看到了cpu和內(nèi)存報(bào)警了才想到擴(kuò)容,公司要優(yōu)化成本抓機(jī)器使用達(dá)標(biāo)率才知道縮容,基本是被動(dòng)的,而且沒有量化數(shù)據(jù)。沒有量化的容量管理就像中國廚師做飯一下,根據(jù)經(jīng)驗(yàn)多加點(diǎn)鹽、少加點(diǎn)醋,這個(gè)多和少憑的是感覺,基本是不可主動(dòng)管理的,對(duì)某個(gè)人的經(jīng)驗(yàn)依賴性很大。

再提成本,容量的管理對(duì)成本是至關(guān)重要的,有了容量數(shù)據(jù),再結(jié)合目前的用戶就知道目前的服務(wù)器數(shù)量合理不合理,有多少浪費(fèi)的,又或是需要擴(kuò)容了,有了容量數(shù)據(jù)也可以暴露很多性能問題,比如一臺(tái)32核128G的機(jī)器才跑10個(gè)QPS,這顯然是不合理和需要重點(diǎn)優(yōu)化的。

根據(jù)實(shí)際經(jīng)驗(yàn),容量的指標(biāo)一定要用業(yè)務(wù)指標(biāo)不要用機(jī)器指標(biāo),舉個(gè)例子,很多時(shí)候如果代碼質(zhì)量差,比如前面說的10QPS,機(jī)器的CPU、內(nèi)存等跑的反而挺高的,這個(gè)時(shí)候應(yīng)該擴(kuò)容么?業(yè)務(wù)指標(biāo)一般指像QPS、在線用戶數(shù)、長(zhǎng)鏈接數(shù)量等這些,理論情況下,先有了不同配置的單機(jī)容量數(shù)據(jù),再計(jì)算出集群的容量,繼而算出模塊的容量,再繼而算出整個(gè)產(chǎn)品的容量,在做容量測(cè)量用的最多的工具是壓測(cè)和全鏈路壓測(cè),這個(gè)根據(jù)不同的情景使用。

對(duì)于容量數(shù)據(jù)首先保證有,再爭(zhēng)取越來越準(zhǔn),然后根據(jù)代碼、架構(gòu)、機(jī)型改動(dòng)情況動(dòng)態(tài)更新。

③抓-災(zāi)備

災(zāi)備和成本也是相互矛盾的一對(duì),做多機(jī)房災(zāi)備成本一定高,因?yàn)闄C(jī)房之間要保有相互承載用戶的余量,不做多機(jī)房災(zāi)備成本肯定是要低的,但如果某個(gè)機(jī)房垮了無法服務(wù),業(yè)務(wù)就無處可切,就真的垮了,所以我們要根據(jù)業(yè)務(wù)的級(jí)別做合理的災(zāi)備。

災(zāi)備意味著做冗余,合理的災(zāi)備可以保障在故障出現(xiàn)時(shí),快速進(jìn)行業(yè)務(wù)切換,保障用戶的可用性。一般而言災(zāi)備分為熱備和冷備,冷備是指準(zhǔn)備好資源平時(shí)空放,只有故障時(shí)才用一下,造成很大的資源浪費(fèi),所以一般能做熱備的就不做冷備。

做熱備的方法有很多,現(xiàn)在很多業(yè)務(wù)都是面向服務(wù)的,最常見的熱備方案其一是搭載負(fù)載均衡,通過心跳健康檢查服務(wù)自動(dòng)調(diào)度,其二如果是移動(dòng)、聯(lián)通、電信某條鏈路出現(xiàn)故障就通過域名解析進(jìn)行切換。

最典型的冷備方案就是keepalived,通過vip漂移的方式對(duì)某個(gè)服務(wù)進(jìn)行冷備,原理就不說了。

災(zāi)備做好了,可以大大降低故障出現(xiàn)時(shí)的業(yè)務(wù)壓力,先把服務(wù)切了再查故障,心態(tài)要輕松很多,加之如果能夠自動(dòng)切換(好像可以叫故障自愈)那就更好了。

④抓-巡檢

巡檢的意義在于發(fā)現(xiàn)潛在的問題,將尚未形成故障的問題提前暴露,提前解決。在方法上,可以人工巡檢也可以通過系統(tǒng)實(shí)現(xiàn),巡檢完后發(fā)送巡檢報(bào)告,將一些核心指標(biāo)的變化情況根據(jù)業(yè)務(wù)的屬性進(jìn)行標(biāo)記通知。

無論是手動(dòng)還是系統(tǒng)巡檢,都要對(duì)每個(gè)模塊的核心指標(biāo)進(jìn)行梳理,形成每個(gè)模塊的核心指標(biāo)的鳥瞰screen,一來每天到辦公室首先要巡檢一下業(yè)務(wù)情況,二來在遇到故障的時(shí)候要迅速看一下各個(gè)指標(biāo)的變化做故障定位。

各模塊的巡檢screen一般要包括QPS、錯(cuò)誤、時(shí)延、外部依賴錯(cuò)誤、機(jī)器指標(biāo)這幾個(gè)大項(xiàng),便于一眼發(fā)現(xiàn)問題所在,快速找到根因,定位故障影響范圍。

2、故障中—目標(biāo):快速發(fā)現(xiàn)問題、快速止損

如果前面的工作都保質(zhì)保量的做了,故障依然出現(xiàn),那就考慮怎么應(yīng)對(duì)處理吧,故障的處理關(guān)鍵有3個(gè)環(huán)節(jié)。

⑤抓-告警

不說告警沒配等特殊情況,告警應(yīng)該是故障的第一事件,當(dāng)oncall人員收到告警,判斷影響后,分發(fā)給相應(yīng)的同學(xué)處理,直到故障恢復(fù)。

所以在告警一定要管理好,告警要根據(jù)事件的影響程度分級(jí),告警短信和郵件里盡可能攜帶更多的判斷信息,做的好的甚至可以做一下故障參考預(yù)判。

告警的建設(shè)上一定要圍繞3個(gè)點(diǎn)準(zhǔn)、少、快,準(zhǔn)是告警的信息準(zhǔn),少是告警的數(shù)量少都是收斂后的有效告警,快指的是告警的實(shí)效性高速度快。

⑥抓-定位

oncall同學(xué)收到告警簡(jiǎn)單的判斷后,會(huì)把告警分發(fā)給處理人,這個(gè)時(shí)候就到了故障定位環(huán)節(jié)。

故障定位依賴于對(duì)業(yè)務(wù)架構(gòu)細(xì)致的了解、依賴于線上的經(jīng)驗(yàn),一般會(huì)借助監(jiān)控進(jìn)行排查,這時(shí)候在巡檢階段建的核心指標(biāo)screen就派上用場(chǎng)了,通過screen和核心指標(biāo)基本可以做個(gè)預(yù)判,然后再通過日志分析或登錄服務(wù)器查看詳細(xì)日志進(jìn)行根因排障。

定位也是有輕重緩急的,首先要找到故障模塊和故障范圍,找到后先根據(jù)預(yù)案將業(yè)務(wù)切掉再去排查原因,減少線上用戶的影響。

⑦抓-預(yù)案

預(yù)案是指在定位到故障模塊和故障范圍后為了保障業(yè)務(wù)的穩(wěn)定,及時(shí)止損所進(jìn)行的操作,

為了故障發(fā)生后盡快止損減少影響,在平時(shí)要考慮好各種故障發(fā)生的肯能性,并做好預(yù)案是非常重要的,預(yù)案也分為容災(zāi)預(yù)案和降級(jí)預(yù)案,容災(zāi)預(yù)案基本無損,降級(jí)預(yù)案可能會(huì)影響一些用戶體驗(yàn)了,但是不影響主體功能,如果什么預(yù)案都沒有只能生抗了。

3、故障后—目標(biāo):消滅同類故障

⑧故障管理

故障管理是整個(gè)故障的善后工作,追責(zé)任的部分除外,那他的意義就是防止同類故障再次發(fā)生。一般會(huì)以故障復(fù)盤會(huì)的方式約所有相關(guān)方進(jìn)行全過程復(fù)盤,最后形成的文檔叫“故障報(bào)告”,我認(rèn)為里面最重要的兩個(gè)內(nèi)容一個(gè)是故障原因(到底是天災(zāi)還是人禍?根因找到了沒有),一個(gè)是后續(xù)的改進(jìn)措施。

管理中有句話叫“再好的制度如果不執(zhí)行等于沒有“,在改進(jìn)措施的執(zhí)行上,很多好了傷疤忘了痛的做法屢見不鮮,改進(jìn)措施改著改著就沒了,造成了同類故障重復(fù)出現(xiàn),這個(gè)過程中一定要確保形成的改進(jìn)措施保質(zhì)保量的完成。


文章題目:大型系統(tǒng)的運(yùn)維要從哪些方面抓起——全面質(zhì)量管理
網(wǎng)頁URL:http://weahome.cn/article/igodph.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部