事態(tài)管理(Event Management),原來稱作事件管理,是ITIL運營管理體系中的一個主要流程之一。所謂Event(事態(tài))是指對于配置項或IT服務有重要意義的狀態(tài)變化。比如IT系統(tǒng)中的服務器。
從啟動狀態(tài)變?yōu)殛P機狀態(tài)、一個應用服務狀態(tài)從Up到down的狀態(tài)變化等等。Event一詞還用于表示任何 IT 服務、配置項或監(jiān)視工具創(chuàng)建通知。事態(tài)通常需要 IT 運營人員采取行動,并且通常導致事件記入日志。在ITIL V4中事態(tài)管理已經更新為監(jiān)控與事態(tài)管理。
高效的IT服務運營有賴于對于基礎設施、操作系統(tǒng)、應用系統(tǒng)等IT系統(tǒng)的狀態(tài)的及時了解,并發(fā)現(xiàn)較于正常以及預期工作的任何偏差。以便盡快采取措施修正系統(tǒng)的偏差,這一功能需要通過出色的監(jiān)控系統(tǒng)來實現(xiàn)。
人們往往會混淆監(jiān)控和事態(tài)管理,兩者雖然密切相關,但是還是有著本質的區(qū)別。監(jiān)控通常以高度自動化的方式進行,并可以主動或被動地進行采集被監(jiān)控項的狀態(tài)。事態(tài)管理則側重于記錄和管理由組織定義為事態(tài)的狀態(tài)監(jiān)視和狀態(tài)變更。強調對于運營管理有意義的狀態(tài)變化并進行管理,確定事態(tài)的重要性、以及識別和啟動正確的操作以管理它們。
監(jiān)控對于事態(tài)管理是必要的,但不是所有監(jiān)控都會導致檢測到事態(tài),并非所有事態(tài)都具有相同的意義或需要相同的響應。事態(tài)可以分級、通??梢苑譃樾畔ⅲ↖nformation)、告警(Warning)、例外(Exception)。信息在識別時不需要采取行動,但可以在事后的分析過程中提供數(shù)據支撐以采取措施改進服務。告警通常在達到一定的條件下觸發(fā),使團隊能夠在業(yè)務發(fā)生實際負面影響之前采取措施應對。而例外則表明已經實際發(fā)生了違反預定義規(guī)范的事態(tài),異常事態(tài)一定要采取措施。
通過監(jiān)控工具或自動化監(jiān)控對象的做法可能會產生大量數(shù)據,但如果沒有關于如何限制,過濾和使用此數(shù)據的明確政策和策略,那么它將毫無價值。
JITStack集合主流開源監(jiān)控平臺并結合在監(jiān)控領域的實施經驗,為客戶組織打造縱向層次化、橫向大規(guī)模可擴展的靈活、成熟、可擴展的可視化統(tǒng)一監(jiān)控解決方案。方案以Zabbix、Prometheus、ELK為開源監(jiān)控平臺,Grafana技術框架為開源可視化平臺,結合Ansible開源自動化技術,打造縱向可以監(jiān)控從硬件基礎設施、系統(tǒng)、應用狀態(tài)、業(yè)務數(shù)據,虛擬化環(huán)境、容器,日志等全方位信息系統(tǒng)以及對監(jiān)控數(shù)據的分析、展示;橫向可以實現(xiàn)從監(jiān)控小規(guī)模幾臺到幾十臺的中小規(guī)模的集中式高可用部署,到監(jiān)控幾千臺設備的分布式監(jiān)控系統(tǒng)部署。
客戶組織利用JITStack監(jiān)控系統(tǒng)平臺實行監(jiān)控和事態(tài)管理流程中的重要活動:
定義監(jiān)控項:確定哪些配置項,設備、系統(tǒng)、服務及其組件并確定監(jiān)控策略。
實施和維護監(jiān)控:利用設備、系統(tǒng)自身的監(jiān)控功能或者使用專用的監(jiān)控工具可實現(xiàn)監(jiān)控,不同的系統(tǒng)產生的大量監(jiān)控數(shù)據,各種事件分布在不同的系統(tǒng)中,如主機、網絡設備的本身往往都有不同的監(jiān)控系統(tǒng),其監(jiān)控信息、事態(tài)告警都分布在各自的監(jiān)控系統(tǒng)中,通過JITStack統(tǒng)一監(jiān)控系統(tǒng)將各種監(jiān)數(shù)據匯集到統(tǒng)一監(jiān)控系統(tǒng)、有利于簡化事態(tài)管理復雜性,提高運維效率。
修正降噪:由于系統(tǒng)之間的耦合,同一個故障可能會導致各個不同的層級關聯(lián)系統(tǒng)產生一系列相關的事態(tài)信息、告警和例外,使運營團隊淹沒于大量告警之中,增加了排查處理問題的難度。JITStack通過修正降噪方案,將相同原因的事態(tài)告警合并,只顯示有限數(shù)量的事態(tài)通知,幫助運營團隊專注于處理有意義的告警通知,提高效率。
建立維護閾值:確定哪些狀態(tài)變化將被視為事態(tài)、并選擇標準對事態(tài)進行分級。JITStack監(jiān)控系統(tǒng)默認支持6級安全級別定義,滿足更精細、靈活的響應操作管理。
JITStack監(jiān)控系統(tǒng)支持分級層次多途徑通知,結合客戶組織實際,建立和維護應如何處理每級事態(tài)的政策以及適當?shù)墓芾?,在JITStack監(jiān)控平臺實施定義的閾值,標準和策略所需流程,并結合自動化工具實現(xiàn)運維管理的自動化。
利用JITStack監(jiān)控平臺進行監(jiān)控與事態(tài)管理對于業(yè)務和運營管理價值:
其重要之處在于監(jiān)控系統(tǒng)結合事態(tài)事態(tài)管理流程提供了早期發(fā)現(xiàn)故障的機制,在實際服務中斷發(fā)生之前,就可以檢測到故障并分配給相關團隊采取措施。當整合服務管理的其他流程時,如故障管理、問題管理時,事態(tài)管理能夠利用監(jiān)控信息作為輸入提供事態(tài)基礎數(shù)據,顯示出狀態(tài)變化、異?,F(xiàn)象,使相關人員或團隊能夠盡早響應,提高響應效率,從而使業(yè)務受益于整體運維效率的提升。監(jiān)控與事態(tài)管理為自動化操作奠定了基石,運維自動化可以提高運營效率,并使昂貴的人力資源解放出來投入到更具創(chuàng)新價值的工作中去。
另外有需要云服務器可以了解下創(chuàng)新互聯(lián)cdcxhl.cn,海內外云服務器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務器、裸金屬服務器、高防服務器、香港服務器、美國服務器、虛擬主機、免備案服務器”等云主機租用服務以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應用場景需求。