這期內(nèi)容當(dāng)中小編將會給大家?guī)碛嘘P(guān)基于K8s的自定義控制器Enhanced Statefulset怎么用,文章內(nèi)容豐富且以專業(yè)的角度為大家分析和敘述,閱讀完這篇文章希望大家可以有所收獲。
成都創(chuàng)新互聯(lián)長期為1000+客戶提供的網(wǎng)站建設(shè)服務(wù),團隊從業(yè)經(jīng)驗10年,關(guān)注不同地域、不同群體,并針對不同對象提供差異化的產(chǎn)品和服務(wù);打造開放共贏平臺,與合作伙伴共同營造健康的互聯(lián)網(wǎng)生態(tài)環(huán)境。為通許企業(yè)提供專業(yè)的成都網(wǎng)站建設(shè)、成都網(wǎng)站制作,通許網(wǎng)站改版等技術(shù)服務(wù)。擁有十年豐富建站經(jīng)驗和眾多成功案例,為您定制開發(fā)。
下面要講的產(chǎn)品——Enhanced statefulset。
顧名思義,Enhanced statefulset就是我們在statefulset的基礎(chǔ)上對控制器做了進一步的擴展。它主要解決Pod綁定靜態(tài)IP問題,同時也解決了statefulset在升級過程中不允許同時升級多個實例的限制。另外,它還可以在節(jié)點故障時支持Pod和IP的遷移。
前面已經(jīng)提到了靜態(tài)IP的重要場景是業(yè)務(wù)依賴的周邊組件都以IP作為實例唯一標(biāo)識,所以上到Kubernetes后仍然需要Pod實例保持IP不變。相信很多用戶也面臨著類似的問題,下面就來分享一下實現(xiàn)原理。
我們主要是通過對Enhanced Statefulset Controller 、 Scheduler、CNI這幾個模塊擴展來支持Enhanced Statefulset的Pod綁定靜態(tài)IP。
Enhanced Statefulset Controller 對靜態(tài)IP的管理主要是維護更新Static IP CR來實現(xiàn)的。當(dāng)Controller收到創(chuàng)建請求時,會首先檢查要創(chuàng)建的實例是否已經(jīng)有對應(yīng)的static IP CR記錄,若記錄不存在則會創(chuàng)建一個新的記錄。在稍后scheduler完成調(diào)度,CNI完成靜態(tài)IP分配后,controller會監(jiān)聽Pod信息并將其更新到Static IP CR中。反之若創(chuàng)建實例時,對應(yīng)的static IP CR記錄已經(jīng)存在則表示這個Pod是刪除重建,Controller會將static IP CR中的信息更新到Pod上,scheduler和CNI根據(jù)pod上的配置進行親和性調(diào)度和IP分配。
StaticIP CRD中記錄了負載類型、負載名稱、節(jié)點、IP和Pod信息。其中IP信息在Pod實例上以annotation
新增緩存:原有 Node 緩存基礎(chǔ)上新增 staticIPNode 緩存,用于計算和緩存 staticIPPod 資源占用情況、緩存 IP 數(shù)量、Pod cpu/內(nèi)存 使用量;
新增predicate :
PodFitsResourcesWithStaticIPPodPred Node 現(xiàn)有資源基礎(chǔ)上基于 staticIPPod 占用資源再次過濾,達到資源預(yù)占目的;
CheckPodAnnotationWithStaticIPPred 檢查pod 是否包含 static ip 的指定 node annotation, 并僅保留指定 node 結(jié)果只 fit node 列表。
概括起來核心思路就是將靜態(tài)IP Pod所占用的資源作為一種特殊資源單獨標(biāo)識,在調(diào)度時進行匹配調(diào)度達到資源預(yù)占目的。
CNI 在靜態(tài)IP場景下主要實現(xiàn)以下三個功能:
按照Pod annotation上指定的IP分配,若無IP則從IP池中隨機分配一個IP并將此記錄更新到Pod中 ;
IP地址預(yù)留,當(dāng)綁定靜態(tài)IP的Pod刪除重建時,CNI會檢查static IP CR記錄,如果記錄未刪除則IP地址不釋放,確保重建的Pod能夠拿到綁定的IP;
在大規(guī)模集群場景下,為了提高SDN網(wǎng)絡(luò)性能,我們要求CNI必須使用IP range模式。在這種模式下,彈性網(wǎng)卡上綁定的是IP CIDR,例如10.0.0.0/24,而不是某一個具體IP。IP遷移,釋放和申請都是以CIDR的形式進行。
最后,我們通過一個創(chuàng)建流程來展示一下Enhanced statefulset對象如何綁定靜態(tài)IP:
用戶創(chuàng)建一個enhanced statefulset對象,該請求首先發(fā)送到API server;
enhanced statefulset controller監(jiān)聽到該請求,首先查詢是否有該Pod對應(yīng)的CR記錄,若沒有則創(chuàng)建新的CR,若已經(jīng)有CR,則將CR中的信息更新的新建的Pod中;
enhanced statefulset controller開始創(chuàng)建Pod;
Scheduler根據(jù)Pod的affinity信息將其調(diào)度到相應(yīng)的節(jié)點上,若無affinity信息則是新建pod正常調(diào)度。同時調(diào)度時會觸發(fā)資源預(yù)留邏輯確保已有的靜態(tài)IP Pod的資源不被占用;
CNI查看Pod靜態(tài)IP記錄,如無記錄則隨機分配IP并將IP信息更新到Pod上,若有記錄則按記錄分配;
StaticIP controller監(jiān)聽到Pod上靜態(tài)IP信息變更,并將此信息更新到CR中。
除了支持靜態(tài)IP這個強需求,我們考慮的第二個重點就是盡可能將Kubernetes的DevOps能力賦能給業(yè)務(wù)場景。社區(qū)原生的 StatefulSet 在升級過程中不允許同時升級多個實例,這主要是為了某些有狀態(tài)應(yīng)用需要依次按序升級的需求。但這樣帶來的問題是效率太低,而集團業(yè)務(wù)對升級失敗和順序有一定容忍度,為了提升升級效率,我們定義了MaxUnavailable 參數(shù),它允許應(yīng)用實例被并行升級,且始終保持最大不可用的實例數(shù)不超過 MaxUnavailable 的限制數(shù)。
此外,為了保證升級足夠可控,Enhanced Statefulset可以通過Partitions進行分批升級。每個批次升級完成后通過再次更新Partitions觸發(fā)下一次升級,如果發(fā)現(xiàn)升級過程中遇到問題也可以進行Rollback回滾或Paused暫停。
通過這些優(yōu)化,Enhanced Statefulset具備更好了靈活性,既可以兼容原生Statefulset規(guī)則嚴格按照實例順序升級,確保有狀態(tài)服務(wù)的可靠性。又可以兼具類似Deployment的能力,以更高效的方式并發(fā)升級。同時還可以分批手工觸發(fā),基本覆蓋了集團業(yè)務(wù)的絕大部分場景。
下面通過一個示例來具體了解下:
用戶創(chuàng)建了一個Enhanced Statefulset的應(yīng)用,副本數(shù)為6,應(yīng)用從staticip-example-0到staticip-example-5,Partitions設(shè)置為3, MaxUnavailable設(shè)置為2。
1apiVersion: jke.jdcloud.com/v1alpha1
2kind: EnhancedStatefulSet
3metadata:
4 name: staticip-example
5 annotations:
6 staticip.jke.jdcloud.com/enable: "true" #打開靜態(tài)IP功能
7spec:
8 serviceName: enhanced-sts-service-example
9 replicas: 6
10 selector:
11 matchLabels:
12 apps: staticip-example
13 updateStrategy:
14 rollingUpdate:
15 maxUnavailable: 2 #最大不可用數(shù)量,允許并行升級,并且容忍副本不可用
16 partition: 3 #enhanced statefulset創(chuàng)建的Pod都有index,命名從0開始,例如pod-0 pod-1 所有index大于等于partition值的實例升級,通過變更partition值來實現(xiàn)分批升級
17 paused: false
18 podUpdatePolicy: ReCreate
19 type: RollingUpdate
20 template:
21 metadata:
22 labels:
23 apps: staticip-example
24 spec:
25 containers:
26 - image: nginx:v1 # nginx:v1 變更為 nginx:v2 觸發(fā)升級
當(dāng)用戶將鏡像從v1升級到v2時,升級流程如下:
Enhanced Statefulset Controller將staticip-example-3到staticip-example-5這3個副本并發(fā)升級到v2版本,其中staticip-example-4不可用,因為MaxUnavailable當(dāng)前值為2,不影響應(yīng)用繼續(xù)升級;
用戶將Partitions設(shè)置為0,enhanced statefulset controller將剩余3個副本staticip-example-0到staticip-example-2并發(fā)升級到v2版本,其中staticip-example-2不可用;
隨后用戶對不可用Pod進行手工修復(fù),所有實例均恢復(fù)正常。
在執(zhí)行第二步時,如果第一步升級有兩個實例不可用觸發(fā)MaxUnavailable閾值,則用戶在第二步即使將Partitions設(shè)置為0也不會觸發(fā)再次升級。
最后,再和大家聊一下故障遷移功能。靜態(tài)IP為業(yè)務(wù)上Kubernetes帶來便利的同時也帶來了問題,其中一個比較突出的問題就是故障遷移場景。故障遷移有幾個前提條件:
靜態(tài)IP Pod和其所綁定的IP需要遷移到同一個目標(biāo)節(jié)點上,這樣才能保證Pod遷移后IP不變;
前面已經(jīng)提到在大規(guī)模集群下我們要求CNI必須配置成IP Range模式,這種模式下IP CIDR不能拆分到更細粒度遷移,一個節(jié)點綁定的一個IP CIDR只能遷移到一個目標(biāo)節(jié)點。這就意味著,所有綁定靜態(tài)IP的Pod也必須遷移到同一個目標(biāo)。這樣就帶來了一個問題,怎樣才能保證目標(biāo)節(jié)點有足夠的資源;
故障遷移后,業(yè)務(wù)希望最大程度保留原來的物理拓撲,虛機配置與規(guī)格;
針對這些問題,我們當(dāng)前給出的方案是node migration?;玖鞒倘缦拢?/p>
當(dāng)節(jié)點處于失聯(lián)狀態(tài)超過容忍的時間窗口后(用戶可根據(jù)業(yè)務(wù)情況配置時間窗口閾值),node operator會將此節(jié)點禁用;
node operator會創(chuàng)建一臺與故障節(jié)點同規(guī)格同AZ的目標(biāo)節(jié)點;
node operator將故障節(jié)點的IP和Pod 指定遷移到新節(jié)點重新創(chuàng)建,并更新元數(shù)據(jù)信息;
將故障節(jié)點刪除。
上述就是小編為大家分享的基于K8s的自定義控制器Enhanced Statefulset怎么用了,如果剛好有類似的疑惑,不妨參照上述分析進行理解。如果想知道更多相關(guān)知識,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。