上一篇介紹了redis的主從服務(wù)器之間是如何同步數(shù)據(jù)的。試想下,在一主一從或一主多從的結(jié)構(gòu)下,如果主服務(wù)器掛了,整個(gè)集群就不可用了,單點(diǎn)問題并沒有解決。Redis使用Sentinel解決該問題,保障集群的高可用。
創(chuàng)新互聯(lián)專注于企業(yè)成都全網(wǎng)營銷推廣、網(wǎng)站重做改版、開州網(wǎng)站定制設(shè)計(jì)、自適應(yīng)品牌網(wǎng)站建設(shè)、H5開發(fā)、商城系統(tǒng)網(wǎng)站開發(fā)、集團(tuán)公司官網(wǎng)建設(shè)、外貿(mào)網(wǎng)站建設(shè)、高端網(wǎng)站制作、響應(yīng)式網(wǎng)頁設(shè)計(jì)等建站業(yè)務(wù),價(jià)格優(yōu)惠性價(jià)比高,為開州等各大城市提供網(wǎng)站開發(fā)制作服務(wù)。
保障集群高可用,要具備如下能力:
能監(jiān)測(cè)服務(wù)器的狀態(tài),當(dāng)主服務(wù)器不可用時(shí),能及時(shí)發(fā)現(xiàn)
當(dāng)主服務(wù)器不可用時(shí),選擇一臺(tái)最合適的從服務(wù)器替代原有主服務(wù)器
存儲(chǔ)相同數(shù)據(jù)的主服務(wù)器同一時(shí)刻只有一臺(tái)
要實(shí)現(xiàn)上述功能,最直觀的做法就是,使用一臺(tái)監(jiān)控服務(wù)器來監(jiān)視Redis
服務(wù)器的狀態(tài)。
監(jiān)控服務(wù)器和主從服務(wù)器間維護(hù)一個(gè)心跳連接,當(dāng)超出一定時(shí)間沒有收到主服務(wù)器心跳時(shí),主服務(wù)器就會(huì)被標(biāo)記為下線,然后通知從服務(wù)器上線成為主服務(wù)器。
當(dāng)原來的主服務(wù)器上線后,監(jiān)控服務(wù)器會(huì)將其轉(zhuǎn)換為從服務(wù)器。
按照上述流程似乎解決了集群高可用的問題,但似乎有哪里不對(duì):如果監(jiān)控服務(wù)器出了問題怎么辦?我們可以在加上一個(gè)從監(jiān)控服務(wù)器,當(dāng)主服務(wù)器不可用的時(shí)候頂上。
但問題是誰來監(jiān)控’監(jiān)控服務(wù)器’呢?子子孫孫無窮盡也。。
先把疑問放在一旁,先來看下Redis Sentinel集群的實(shí)現(xiàn)
和上一小節(jié)的想法一樣,Redis通過增加額外的Sentinel服務(wù)器來監(jiān)控?cái)?shù)據(jù)服務(wù)器,Sentinel會(huì)與所有的主服務(wù)器和從服務(wù)器保存連接,用以監(jiān)聽服務(wù)器狀態(tài)以及向服務(wù)器下達(dá)命令。
Sentinel本身是一個(gè)特殊狀態(tài)的Redis服務(wù)器,啟動(dòng)命令:redis-server /xxx/sentinel.conf --sentinel
,sentinel模式下的啟動(dòng)流程與普通redis server是不一樣的,比如說不會(huì)去加載RDB文件以及AOF文件,本身也不會(huì)存儲(chǔ)業(yè)務(wù)數(shù)據(jù)。
Sentinel啟動(dòng)后,會(huì)與配置文件中提供的所有主服務(wù)器建立兩個(gè)連接,一個(gè)是命令連接,一個(gè)是訂閱連接。
命令連接用于向服務(wù)器發(fā)送命令。
訂閱連接則是用于訂閱服務(wù)器的_sentinel_:hello
頻道,用于獲取其他Sentinel信息,下文會(huì)詳細(xì)說。
Sentinel會(huì)以一定頻率向主服務(wù)器發(fā)送Info
命令獲取信息,包括主服務(wù)器自身的信息比如說服務(wù)器id等,以及對(duì)應(yīng)的從服務(wù)器信息,包括ip和port。Sentinel會(huì)根據(jù)info命令返回的信息更新自己保存的服務(wù)器信息,并會(huì)與從服務(wù)器建立連接。
與和主服務(wù)器的交互相似,Sentinel也會(huì)以一定頻率通過Info
命令獲取從服務(wù)器信息,包括:從服務(wù)器ID,從服務(wù)器與主服務(wù)器的連接狀態(tài),從服務(wù)器的優(yōu)先級(jí),從服務(wù)器的復(fù)制偏移等等。
在如何保障集群高可用小節(jié)留下了一個(gè)疑問:用如何保證監(jiān)視服務(wù)器的高可用? 在這里我們可以先給出簡單回答:用一個(gè)監(jiān)視服務(wù)器集群(也就是Sentinel集群)。如何實(shí)現(xiàn),如何保證監(jiān)視服務(wù)器的一致性暫且先不說,我們只要記住需要用若干臺(tái)Sentinel來保障高可用,那一個(gè)Sentinel是如何感知其他的Sentinel的呢?
前面說過,Sentinel在與服務(wù)器建立連接時(shí),會(huì)建立兩個(gè)連接,其中一個(gè)是訂閱連接。Sentinel會(huì)定時(shí)的通過訂閱連接向_sentinel_:hello
頻道頻道發(fā)送消息(對(duì)Redis發(fā)布訂閱功能不太了解的同學(xué)可以去去了解下),其中包括:
Sentinel本身的信息,如ip地址、端口號(hào)、配置紀(jì)元(見下文)等
Sentinel監(jiān)視的主服務(wù)器的信息,包括ip、端口、配置紀(jì)元(見下文)等
同時(shí),Sentinel也會(huì)訂閱_sentinel_:hello
頻道的消息,也就是說Sentinel即向該頻道發(fā)布消息,又從該頻道訂閱消息。
Sentinel有一個(gè)字典對(duì)象sentinels
,保存著監(jiān)視同一主服務(wù)器的其他所有Sentinel服務(wù)器,當(dāng)一個(gè)Sentinel接收到來自_sentinel_:hello
頻道的消息時(shí),會(huì)先比較發(fā)送該消息的是不是自己,如果是則忽略,否則將更新sentinels
中的內(nèi)容,并對(duì)新的Sentinel建立連接。
Sentinel默認(rèn)會(huì)以每秒一次的頻率向所有建立連接的服務(wù)器(主服務(wù)器,從服務(wù)器,Sentinel服務(wù)器)發(fā)送PING
命令,如果在down-after-milliseconds
內(nèi)都沒有收到有效回復(fù),Sentinel會(huì)將該服務(wù)器標(biāo)記為主觀下線,代表該Sentinel認(rèn)為這臺(tái)服務(wù)器已經(jīng)下線了。需要注意的是不同Sentinel的down-after-milliseconds
是可以不同的。
為了確保服務(wù)器真的已經(jīng)下線,當(dāng)Sentinel將某個(gè)服務(wù)器標(biāo)記為主觀下線后,它會(huì)向其他的Sentinel實(shí)例發(fā)送Sentinel is-master-down-by-addr
命令,接收到該命令的Sentinel實(shí)例會(huì)回復(fù)主服務(wù)器的狀態(tài),代表該Sentinel對(duì)該主服務(wù)器的連接情況。
Sentinel會(huì)統(tǒng)計(jì)發(fā)出的所有Sentinel is-master-down-by-addr
命令的回復(fù),并統(tǒng)計(jì)同意將主服務(wù)器下線的數(shù)量,如果該數(shù)量超出了某個(gè)閾值,就會(huì)將該主服務(wù)器標(biāo)記為客觀下線。
當(dāng)Sentinel將一個(gè)主服務(wù)器標(biāo)記為客觀下線后,監(jiān)視該服務(wù)器的各個(gè)Sentinel會(huì)通過Raft
算法進(jìn)行協(xié)商,選舉出一個(gè)領(lǐng)頭的Sentinel。
建議你先看Raft
算法的基礎(chǔ)知識(shí),再來看下文。
規(guī)則:
所有的Sentinel都有可能成為領(lǐng)頭Sentinel的資格
每次選舉后,無論有沒有選出領(lǐng)頭Sentinel,配置紀(jì)元都會(huì)+1
在某個(gè)紀(jì)元里,每個(gè)Sentinel都有為投票的機(jī)會(huì)
我們稱要求其他人選舉自己的Sentinel稱為源Sentinel,將被要求投票的Sentinel稱為目標(biāo)Sentinel
每個(gè)發(fā)現(xiàn)主服務(wù)器被標(biāo)記為客觀下線且還沒有被其他Sentinel要求投票的Sentinel都會(huì)要求其他Sentinel將自己設(shè)置為頭
目標(biāo)Sentinel在一個(gè)配置紀(jì)元里,一旦為某個(gè)Sentinel(也可能是它自己)投票后,對(duì)于之后收到的要求投票的命令,將拒絕
目標(biāo)Sentinel對(duì)于要求投票的命令將回復(fù)自己選舉的Sentinel的id以及當(dāng)前配置紀(jì)元
源Sentinel在接收到要求投票的回復(fù)后:如果回復(fù)的配置紀(jì)元與自己的相同,則再檢測(cè)目標(biāo)Sentinel選舉的頭Sentinel是不是自己
如果某個(gè)Sentinel被半數(shù)以上的Sentinel設(shè)置成了領(lǐng)頭Sentinel,那它將稱為領(lǐng)頭Sentinel
一個(gè)配置紀(jì)元只會(huì)選出一個(gè)頭(因?yàn)橐粋€(gè)頭需要半數(shù)以上的支持)
如果在給定時(shí)間內(nèi),還沒有選出頭,則過段時(shí)間再次選舉(配置紀(jì)元會(huì)+1)
還記得我們?cè)谖恼麻_頭提出的如何保證Redis服務(wù)器高可用的問題嗎?
答案就是使用若干臺(tái)Sentinel服務(wù)器,通過Raft
一致性算法來保障集群的高可用,只要Sentinel服務(wù)器有一半以上的節(jié)點(diǎn)都正常,那集群就是可用的。
領(lǐng)頭Sentinel將會(huì)進(jìn)行以下3個(gè)步驟進(jìn)行故障轉(zhuǎn)移:
1.在已下線主服務(wù)器的所有從服務(wù)器中,挑選出一個(gè)作為新的主服務(wù)器
2.將其他從服務(wù)器的主服務(wù)器設(shè)置成新的
3.將已下線的主服務(wù)器的role改成從服務(wù)器,并將其主服務(wù)器設(shè)置成新的,當(dāng)該服務(wù)器重新上線后,就會(huì)一個(gè)從服務(wù)器的角色繼續(xù)工作
第一步中挑選新的主服務(wù)器的規(guī)則如下:
1.過濾掉所有已下線的從服務(wù)器
2.過濾掉最近5秒沒有回復(fù)過Sentinel命令的從服務(wù)器
3.過濾掉與原主服務(wù)器斷開時(shí)間超過down-after-milliseconds*10的從服務(wù)器
4.根據(jù)從服務(wù)器的優(yōu)先級(jí)進(jìn)行排序,選擇優(yōu)先級(jí)最高的那個(gè)
5.如果有多個(gè)從服務(wù)器優(yōu)先級(jí)相同,則選取復(fù)制偏移量最大的那個(gè)
6.如果上一步的服務(wù)器還有多個(gè),則選取id最小的那個(gè)