個人體會,希望能幫助大家~。
報警 + 消息通道 + 自愈處理,優(yōu)化監(jiān)控報警
1、報警類,可以分為灰色報警、藍(lán)色報警(重要)、紅色報警(高危);如使用zabbix;
2、每類報警單獨(dú)一個報警群,黃色、15分鐘必須有SRE回復(fù),紅色必須10分鐘內(nèi)回復(fù);后臺埋點(diǎn)使用自動化標(biāo)記統(tǒng)計 報警與回復(fù)時間差,超期沒有人員回復(fù)跟進(jìn),直接自動電話通知相關(guān)人員,在自動電話后5分鐘未回復(fù) 處理中,那么直接后臺記錄超時;每日、周統(tǒng)計按產(chǎn)品線、或人員 統(tǒng)計總報警數(shù)、及超時數(shù)、進(jìn)行考核。可以使用某釘?shù)腶pi接口二次開發(fā)實(shí)現(xiàn)用戶是否恢復(fù)記錄,及自動電話通知。
3、有些異常類,報警后 + 自愈自動處理。 或 巡檢類 + 自愈自動處理。
所有報警類消息,及 回復(fù)記錄 全部自動搜集入庫,如回復(fù)信息 ,進(jìn)行分類 ,如:更新,cpu 、內(nèi)存、故障、系統(tǒng)bug等 ,在一個報警時候,通過消息中心發(fā)到相關(guān)群里,然后后面加上最近 1天、3 天、7天出現(xiàn)次數(shù); 及 之前此類報警的 人員回復(fù)的信息數(shù)據(jù)展示,如 之前人員回復(fù) 更新 60%, 內(nèi)存30%; 推薦 最高值操作。
4、報警類的回復(fù)統(tǒng)計,進(jìn)行分類后查看每日、周 的排名情況 ,若是更新類報警較多,那么直接在每次更新時候,通過屏蔽消息通道接口 屏蔽此類更新相關(guān)的報警(屏蔽5分鐘、10分鐘自定),這樣更新時候 就不報警到 相關(guān)報警群里了,但是 監(jiān)控工具如zabbix還要繼續(xù)展示出來。減少了更新導(dǎo)致的報警;
5、因?yàn)樽杂?、自動處理,給隱瞞了部分問題。
”如果一個機(jī)器經(jīng)常出現(xiàn) CPU_IDLE 報警,那么我們可以將現(xiàn)在的監(jiān)控策略進(jìn)行調(diào)整,比如說,以前 5min 內(nèi)出現(xiàn) 5 次就報警,現(xiàn)在可以調(diào)整為 10min 內(nèi)出現(xiàn) 20 次再報警,或者直接刪除這個報警策略,或者將報警短信調(diào)整為報警郵件,或者各種類似的手段。但這個機(jī)器為什么出現(xiàn) CPU_IDLE 報警,卻并沒有人去關(guān)注,更別提解決了“
每日、周統(tǒng)計 自愈處理的名稱、次數(shù); 按人員、 部門業(yè)務(wù)線 進(jìn)行維度統(tǒng)計,某個自愈較多的,就要優(yōu)化程序或其他問題,來減少自愈次數(shù);某個機(jī)器突然出現(xiàn)同類報警數(shù)增多,有可能就有問題的預(yù)兆,報警類較多,直接有報警儀表盤展示各類報警曲線,通過曲線也發(fā)現(xiàn)問題。~~ 后期報警少了后,再返回來跟進(jìn)為啥能引起自愈的問題,如磁盤報警一直報警就自動處理,那么某個時間自愈較多了是否代碼debug日志了或者 有異常了導(dǎo)致日志多,導(dǎo)致頻繁清理?
魚峰網(wǎng)站制作公司哪家好,找創(chuàng)新互聯(lián)建站!從網(wǎng)頁設(shè)計、網(wǎng)站建設(shè)、微信開發(fā)、APP開發(fā)、成都響應(yīng)式網(wǎng)站建設(shè)等網(wǎng)站項目制作,到程序開發(fā),運(yùn)營維護(hù)。創(chuàng)新互聯(lián)建站從2013年成立到現(xiàn)在10年的時間,我們擁有了豐富的建站經(jīng)驗(yàn)和運(yùn)維經(jīng)驗(yàn),來保證我們的工作的順利進(jìn)行。專注于網(wǎng)站建設(shè)就選創(chuàng)新互聯(lián)建站。
參考:
https://www.infoq.cn/article/1AofGj2SvqrjW3BKwXlN?utm_source=infoq&utm_medium=article&utm_campaign=newinfoq&utm_content=language2019&utm_term=701
擺脫無效報警?十年運(yùn)維監(jiān)控報警優(yōu)化經(jīng)驗(yàn)總結(jié)