Eureka是Netflix開源的、用于實現(xiàn)服務(wù)注冊和發(fā)現(xiàn)的服務(wù)。Spring Cloud Eureka基于Eureka進(jìn)行二次封裝,增加了更人性化的UI,使用更為方便。但是由于Eureka本身存在較多緩存,服務(wù)狀態(tài)更新滯后,最常見的狀況是:服務(wù)下線后狀態(tài)沒有及時更新,服務(wù)消費者調(diào)用到已下線的服務(wù)導(dǎo)致請求失敗。本文基于Spring Cloud Eureka 1.4.4.RELEASE,在默認(rèn)region和zone的前提下,介紹Eureka的緩存機制。
創(chuàng)新互聯(lián)建站是一家專注網(wǎng)站建設(shè)、網(wǎng)絡(luò)營銷策劃、成都微信小程序、電子商務(wù)建設(shè)、網(wǎng)絡(luò)推廣、移動互聯(lián)開發(fā)、研究、服務(wù)為一體的技術(shù)型公司。公司成立十多年以來,已經(jīng)為上千多家成都門簾各業(yè)的企業(yè)公司提供互聯(lián)網(wǎng)服務(wù)?,F(xiàn)在,服務(wù)的上千多家客戶與我們一路同行,見證我們的成長;未來,我們一起分享成功的喜悅。
從CAP理論看,Eureka是一個AP系統(tǒng),優(yōu)先保證可用性(A)和分區(qū)容錯性(P),不保證強一致性(C),只保證最終一致性,因此在架構(gòu)中設(shè)計了較多緩存。
Eureka服務(wù)狀態(tài)enum類:com.netflix.appinfo.InstanceInfo.InstanceStatus
狀態(tài) | 說明 | 狀態(tài) | 說明 |
---|---|---|---|
UP | 在線 | OUT_OF_SERVICE | 失效 |
DOWN | 下線 | UNKNOWN | 未知 |
STARTING | 正在啟動 |
在Eureka高可用架構(gòu)中,Eureka Server也可以作為Client向其他server注冊,多節(jié)點相互注冊組成Eureka集群,集群間相互視為peer。Eureka Client向Server注冊、續(xù)約、更新狀態(tài)時,接受節(jié)點更新自己的服務(wù)注冊信息后,逐個同步至其他peer節(jié)點。
【注意】如果server-A向server-B節(jié)點單向注冊,則server-A視server-B為peer節(jié)點,server-A接受的數(shù)據(jù)會同步給server-B,但server-B接受的數(shù)據(jù)不會同步給server-A。
Eureka Server存在三個變量:(registry、readWriteCacheMap、readOnlyCacheMap)保存服務(wù)注冊信息,默認(rèn)情況下定時任務(wù)每30s將readWriteCacheMap同步至readOnlyCacheMap,每60s清理超過90s未續(xù)約的節(jié)點,Eureka Client每30s從readOnlyCacheMap更新服務(wù)注冊信息,而UI則從registry更新服務(wù)注冊信息。
三級緩存
緩存 | 類型 | 說明 |
---|---|---|
registry | ConcurrentHashMap | 實時更新,類AbstractInstanceRegistry成員變量,UI端請求的是這里的服務(wù)注冊信息 |
readWriteCacheMap | Guava Cache/LoadingCache | 實時更新,類ResponseCacheImpl成員變量,緩存時間180秒 |
readOnlyCacheMap | ConcurrentHashMap | 周期更新,類ResponseCacheImpl成員變量,默認(rèn)每30s從readWriteCacheMap更新,Eureka client默認(rèn)從這里更新服務(wù)注冊信息,可配置直接從readWriteCacheMap更新 |
緩存相關(guān)配置
###
配置 | 默認(rèn) | 說明 |
---|---|---|
eureka.server.useReadOnlyResponseCache |
true | Client從readOnlyCacheMap更新數(shù)據(jù),false則跳過readOnlyCacheMap直接從readWriteCacheMap更新 |
eureka.server.responsecCacheUpdateIntervalMs |
30000 | readWriteCacheMap更新至readOnlyCacheMap周期,默認(rèn)30s |
eureka.server.evictionIntervalTimerInMs |
60000 | 清理未續(xù)約節(jié)點(evict)周期,默認(rèn)60s |
eureka.instance.leaseExpirationDurationInSeconds |
90 | 清理未續(xù)約節(jié)點超時時間,默認(rèn)90s |
關(guān)鍵類
類名 | 說明 |
---|---|
com.netflix.eureka.registry.AbstractInstanceRegistry |
保存服務(wù)注冊信息,持有registry和responseCache成員變量 |
com.netflix.eureka.registry.ResponseCacheImpl |
持有readWriteCacheMap和readOnlyCacheMap成員變量 |
Eureka Client存在兩種角色:服務(wù)提供者和服務(wù)消費者,作為服務(wù)消費者一般配合Ribbon或Feign(Feign內(nèi)部使用Ribbon)使用。Eureka Client啟動后,作為服務(wù)提供者立即向Server注冊,默認(rèn)情況下每30s續(xù)約(renew);作為服務(wù)消費者立即向Server全量更新服務(wù)注冊信息,默認(rèn)情況下每30s增量更新服務(wù)注冊信息;Ribbon延時1s向Client獲取使用的服務(wù)注冊信息,默認(rèn)每30s更新使用的服務(wù)注冊信息,只保存狀態(tài)為UP的服務(wù)。
二級緩存
緩存 | 類型 | 說明 |
---|---|---|
localRegionApps | AtomicReference | 周期更新,類DiscoveryClient成員變量,Eureka Client保存服務(wù)注冊信息,啟動后立即向Server全量更新,默認(rèn)每30s增量更新 |
upServerListZoneMap | ConcurrentHashMap | 周期更新,類LoadBalancerStats成員變量,Ribbon保存使用且狀態(tài)為UP的服務(wù)注冊信息,啟動后延時1s向Client更新,默認(rèn)每30s更新 |
緩存相關(guān)配置
配置 | 默認(rèn) | 說明 |
---|---|---|
eureka.instance.leaseRenewalIntervalInSeconds |
30 | Eureka Client 續(xù)約周期,默認(rèn)30s |
eureka.client.registryFetchIntervalSeconds |
30 | Eureka Client 增量更新周期,默認(rèn)30s(正常情況下增量更新,超時或與Server端不一致等情況則全量更新) |
ribbon.ServerListRefreshInterval |
30000 | Ribbon 更新周期,默認(rèn)30s |
關(guān)鍵類
類名 | 說明 |
---|---|
com.netflix.discovery.DiscoveryClient |
Eureka Client 負(fù)責(zé)注冊、續(xù)約和更新,方法initScheduledTasks()分別初始化續(xù)約和更新定時任務(wù) |
com.netflix.loadbalancer.PollingServerListUpdater |
Ribbon 更新使用的服務(wù)注冊信息,start初始化更新定時任務(wù) |
com.netflix.loadbalancer.LoadBalancerStats |
Ribbon,保存使用且狀態(tài)為UP的服務(wù)注冊信息 |
Eureka Client | 時間 | 說明 |
---|---|---|
上線 | 30(readOnly)+30(Client)+30(Ribbon)=90s | readWrite -> readOnly -> Client -> Ribbon 各30s |
正常下線 | 30(readonly)+30(Client)+30(Ribbon)=90s | 服務(wù)正常下線(kill或kill -15殺死進(jìn)程)會給進(jìn)程善后機會,DiscoveryClient.shutdown()將向Server更新自身狀態(tài)為DOWN,然后發(fā)送DELETE請求注銷自己,registry和readWriteCacheMap實時更新,故UI將不再顯示該服務(wù)實例 |
非正常下線 | 30+60(evict)*2+30+30+30= 240s | 服務(wù)非正常下線(kill -9殺死進(jìn)程或進(jìn)程崩潰)不會觸發(fā)DiscoveryClient.shutdown()方法,Eureka Server將依賴每60s清理超過90s未續(xù)約服務(wù)從registry和readWriteCacheMap中刪除該服務(wù)實例 |
考慮如下情況
因此,極限情況下服務(wù)消費者最長感知時間將無限趨近240s。
服務(wù)注冊中心在選擇使用Eureka時說明已經(jīng)接受了其優(yōu)先保證可用性(A)和分區(qū)容錯性(P)、不保證強一致性(C)的特點。如果需要優(yōu)先保證強一致性(C),則應(yīng)該考慮使用ZooKeeper等CP系統(tǒng)作為服務(wù)注冊中心。分布式系統(tǒng)中一般配置多節(jié)點,單個節(jié)點服務(wù)上線的狀態(tài)更新滯后并沒有什么影響,這里主要考慮服務(wù)下線后狀態(tài)更新滯后的應(yīng)對措施。
1.縮短readOnlyCacheMap更新周期??s短該定時任務(wù)周期可減少滯后時間。
eureka.server.responsecCacheUpdateIntervalMs: 10000 # Eureka Server readOnlyCacheMap更新周期
2.關(guān)閉readOnlyCacheMap。中小型系統(tǒng)可以考慮該方案,Eureka Client直接從readWriteCacheMap更新服務(wù)注冊信息。
eureka.server.useReadOnlyResponseCache: false # 是否使用readOnlyCacheMap
1.服務(wù)消費者使用容錯機制。如Spring Cloud Retry和Hystrix,Ribbon、Feign、Zuul都可以配置Retry,服務(wù)消費者訪問某個已下線節(jié)點時一般報ConnectTimeout,這時可以通過Retry機制重試下一個節(jié)點。
2.服務(wù)消費者縮短更新周期。Eureka Client和Ribbon二級緩存影響狀態(tài)更新,縮短這兩個定時任務(wù)周期可減少滯后時間,例如配置:
eureka.client.registryFetchIntervalSeconds: 5 # Eureka Client更新周期
ribbon.ServerListRefreshInterval: 2000 # Ribbon更新周期
3.服務(wù)提供者保證服務(wù)正常下線。服務(wù)下線時使用kill或kill -15命令,避免使用kill -9命令,kill或kill -15命令殺死進(jìn)程時將觸發(fā)Eureka Client的shutdown()方法,主動刪除Server的registry和readWriteCacheMap中的注冊信息,不必依賴Server的evict清除。
在軟件工程中,沒有一個問題是中間層解決不了的,而網(wǎng)關(guān)是服務(wù)提供者和服務(wù)消費者的中間層。以Spring Cloud Zuul網(wǎng)關(guān)為例,網(wǎng)關(guān)作為Eureka Client保存了服務(wù)注冊信息,服務(wù)消費者通過網(wǎng)關(guān)將請求轉(zhuǎn)發(fā)給服務(wù)提供者,只需要做到服務(wù)提供者下線時通知網(wǎng)關(guān)在自己保存的服務(wù)列表中使該服務(wù)失效。為了保持網(wǎng)關(guān)的獨立性,可實現(xiàn)一個獨立服務(wù)接收下線通知并協(xié)調(diào)網(wǎng)關(guān)集群。下篇文章將詳細(xì)介紹網(wǎng)關(guān)如何實現(xiàn)服務(wù)下線實時感知,敬請期待!
作者:馮永彪
內(nèi)容來源:宜信技術(shù)學(xué)院