提升K8S故障排查效率的示例分析,針對這個問題,這篇文章詳細介紹了相對應的分析和解答,希望可以幫助更多想解決這個問題的小伙伴找到更簡單易行的方法。
創(chuàng)新互聯(lián)是由多位在大型網(wǎng)絡公司、廣告設計公司的優(yōu)秀設計人員和策劃人員組成的一個具有豐富經(jīng)驗的團隊,其中包括網(wǎng)站策劃、網(wǎng)頁美工、網(wǎng)站程序員、網(wǎng)頁設計師、平面廣告設計師、網(wǎng)絡營銷人員及形象策劃。承接:網(wǎng)站建設、網(wǎng)站制作、網(wǎng)站改版、網(wǎng)頁設計制作、網(wǎng)站建設與維護、網(wǎng)絡推廣、數(shù)據(jù)庫開發(fā),以高性價比制作企業(yè)網(wǎng)站、行業(yè)門戶平臺等全方位的服務。
作為領先的多集群Kubernetes管理平臺,Rancher使運維團隊可以部署、管理和保護企業(yè)的Kubernetes集群。Rancher還為用戶提供了一系列容器網(wǎng)絡接口(CNI)選項可供選擇,包括開源項目Calico(https://www.projectcalico.org/)。Calico為Kubernetes Pod提供了原生Layer3路由功能,從而簡化了網(wǎng)絡架構,提高了網(wǎng)絡性能,并提供了豐富的網(wǎng)絡策略模型,可以輕松地阻止通信。因此,只有你指定的流量才能流動。
在部署Kubernetes過程一個常見的問題是獲取對集群環(huán)境的可見性,以有效監(jiān)控網(wǎng)絡和安全問題并進行故障排除??梢娦院凸收吓挪槭俏覀冊赥igera上看到的3大Kubernetes用例之一。這在生產(chǎn)部署中尤其重要,因為宕機時間十分寶貴并且分布式應用很難進行故障排查。如果你是平臺團隊的一員,你還需要承受SLA的壓力。如果你是DevOps團隊的一員,則需要啟動生產(chǎn)工作負載。對于兩個團隊來說,共同的目標都是盡快解決問題。
為什么K8S故障排查如此具有挑戰(zhàn)性?
由于Kubernetes工作負載是動態(tài)的,因此連接問題十分難以解決。而常規(guī)的網(wǎng)絡監(jiān)控工具是為靜態(tài)環(huán)境設計的。它們無法理解Kubernetes上下文并且當應用到Kubernetes時并不高效。如果沒有特定的Kubernetes診斷工具,對于平臺團隊而言,進行故障排除會令人沮喪。例如,當pod-to-pod的連接被拒絕時,幾乎無法確定哪個網(wǎng)絡安全策略拒絕了流量。當然,你可以手動登錄到節(jié)點并查看系統(tǒng)日志,但這并不可行也無法擴展到多個節(jié)點。
基于此,你十分需要一種方法來快速查明任何連接或安全問題的根源。或者更好的是,能夠有一些具備預見性的工具,從而避免出現(xiàn)問題。隨著Kubernetes部署規(guī)模的擴大,圍繞可見性、監(jiān)控和日志記錄的限制可能導致無法診斷的系統(tǒng)故障,從而導致服務中斷并影響客戶滿意度和你的業(yè)務。
對在生產(chǎn)上運行Rancher的用戶,Calico Enterprise(https://www.tigera.io/tigera-products/calico-enterprise/ )網(wǎng)絡流量日志可以為解決Kubernetes網(wǎng)絡和安全問題提供了堅實的基礎。例如,流量日志可用于運行queries以分析來自既定命名空間或工作負載標簽的所有流量。但是,要有效地對Kubernetes環(huán)境進行故障排查,你需要帶有Kubernetes特定數(shù)據(jù)的流量日志,例如pod、標簽和命名空間,以及哪些策略接受或拒絕了連接。
Calico Enterprise Flow Visualizer
Rancher用戶中有很大一部分屬于DevOps團隊。盡管傳統(tǒng)的ITOps具有管理網(wǎng)絡和安全策略,但我們看到DevOps團隊正在尋找能夠實現(xiàn)自給自足并加快CI/CD流程的解決方案。對于在生產(chǎn)環(huán)境中運行的Rancher用戶,Calico Enterprise包含F(xiàn)low Visualizer,這是一個功能強大的工具,可簡化連接故障排查。這種方法可以直觀地與網(wǎng)絡流量進行交互并對其進行深入研究。DevOps可以使用此工具進行故障排查和策略創(chuàng)建,而ITOps可以使用RBAC建立策略層次結構以實施保護,因此DevOps團隊不會覆蓋任何企業(yè)范圍的策略。
Kubernetes工作負載大量使用網(wǎng)絡并產(chǎn)生大量東西流量。如果你在Kubernetes架構中部署常規(guī)的防火墻,則將無法可視化流量以及故障排查。防火墻并不了解Kubernetes流量所需的上下文(命名空間、Pod、標簽、container id等)。這樣就無法對網(wǎng)絡問題進行故障排除,進行取證分析或報告安全控制措施是否合規(guī)。
為了獲得所需的可見性,Rancher用戶可以部署Calico Enterprise,將基于區(qū)域的防火墻規(guī)則轉換為Kubernetes網(wǎng)絡策略,該策略將集群劃分為各個區(qū)域并應用正確的防火墻規(guī)則。然后,可以使用現(xiàn)有的防火墻和防火墻管理器來定義區(qū)域并在Kubernetes中創(chuàng)建規(guī)則,就像創(chuàng)建所有其他規(guī)則一樣。可以將流量穿越區(qū)域發(fā)送到安全團隊的安全信息和事件管理平臺(SIEM),從而為它們提供與常規(guī)防火墻相同的可見性,以進行故障排除。
對于使用Rancher平臺的平臺、網(wǎng)絡、DevOps和安全團隊,Tigera提供了其他可見性和監(jiān)控工具,可幫助你更快地進行故障排除:
可以向所有監(jiān)控的數(shù)據(jù)添加閾值和警報。例如,拒絕的流量激增會向你的DevOps團隊或安全運維中心(SOC)發(fā)出警報,以進行進一步調查。
Filter使你能夠按命名空間、pod和視圖狀態(tài)(例如允許或拒絕的流量)進行深入分析。
能夠將日志存儲在EFK(Elasticsearch、Fluentd和Kibana)堆棧中以供將來訪問。
無論你是剛剛接觸Kubernetes,還是僅僅想簡單了解集群意外行為的“原因”,亦或是處于生產(chǎn)環(huán)境中部署了大規(guī)模的工作負載狀態(tài),使用正確的工具進行有效的故障排除將有助于你避免出現(xiàn)宕機和服務中斷的情況。
關于提升K8S故障排查效率的示例分析問題的解答就分享到這里了,希望以上內容可以對大家有一定的幫助,如果你還有很多疑惑沒有解開,可以關注創(chuàng)新互聯(lián)行業(yè)資訊頻道了解更多相關知識。