這篇文章主要講解了“Cluster集群能支撐的數(shù)據(jù)有多大”,文中的講解內(nèi)容簡單清晰,易于學(xué)習(xí)與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學(xué)習(xí)“Cluster集群能支撐的數(shù)據(jù)有多大”吧!
創(chuàng)新互聯(lián)公司是專業(yè)的喀什網(wǎng)站建設(shè)公司,喀什接單;提供網(wǎng)站設(shè)計(jì)、成都做網(wǎng)站,網(wǎng)頁設(shè)計(jì),網(wǎng)站設(shè)計(jì),建網(wǎng)站,PHP網(wǎng)站建設(shè)等專業(yè)做網(wǎng)站服務(wù);采用PHP框架,可快速的進(jìn)行喀什網(wǎng)站開發(fā)網(wǎng)頁制作和功能擴(kuò)展;專業(yè)做搜索引擎喜愛的網(wǎng)站,專業(yè)的做網(wǎng)站團(tuán)隊(duì),希望更多企業(yè)前來合作!
本文將對集群的節(jié)點(diǎn)、槽指派、命令執(zhí)行、重新分片、轉(zhuǎn)向、故障轉(zhuǎn)移、消息等各個方面進(jìn)行深入拆解。
redis 集群原理總覽
目的在于掌握什么是 Cluster ?Cluster 分片原理,客戶端定位數(shù)據(jù)原理、故障切換,選主,什么場景使用 Cluster,如何部署集群 …...
將數(shù)據(jù)分成多份存在不同實(shí)例上
哈希槽與 Redis 實(shí)例映射
復(fù)制與故障轉(zhuǎn)移
故障檢測
故障轉(zhuǎn)移
選主流程
用表保存鍵值對和實(shí)例的關(guān)聯(lián)關(guān)系可行么
重新分配哈希槽
MOVED 錯誤
ASK 錯誤
Gossip 消息
實(shí)例的通信頻率
降低實(shí)例間的通信開銷
65 哥:碼哥,自從用上了你說的哨兵集群實(shí)現(xiàn)故障自動轉(zhuǎn)移后,我終于可以開心的跟女朋友么么噠也不怕 Redis 宕機(jī)深夜宕機(jī)了。
可是最近遇到一個糟心的問題,Redis 需要保存 800 萬個鍵值對,占用 20 GB 的內(nèi)存。
我就使用了一臺 32G 的內(nèi)存主機(jī)部署,但是 Redis 響應(yīng)有時候非常慢,使用 INFO 命令查看 latest_fork_usec 指標(biāo)(最近一次 fork 耗時),發(fā)現(xiàn)特別高。
主要是 Redis RDB 持久化機(jī)制導(dǎo)致的,Redis 會 Fork 子進(jìn)程完成 RDB 持久化操作,fork 執(zhí)行的耗時與 Redis 數(shù)據(jù)量成正相關(guān)。
而 Fork 執(zhí)行的時候會阻塞主線程,由于數(shù)據(jù)量過大導(dǎo)致阻塞主線程過長,所以出現(xiàn)了 Redis 響應(yīng)慢的表象。
65 哥:隨著業(yè)務(wù)規(guī)模的拓展,數(shù)據(jù)量越來越大。主從架構(gòu)升級單個實(shí)例硬件難以拓展,且保存大數(shù)據(jù)量會導(dǎo)致響應(yīng)慢問題,有什么辦法可以解決么?
保存大量數(shù)據(jù),除了使用大內(nèi)存主機(jī)的方式,我們還可以使用切片集群。俗話說「眾人拾材火焰高」,一臺機(jī)器無法保存所有數(shù)據(jù),那就多臺分擔(dān)。
使用 Redis Cluster 集群,主要解決了大數(shù)據(jù)量存儲導(dǎo)致的各種慢問題,同時也便于橫向拓展。
兩種方案對應(yīng)著 Redis 數(shù)據(jù)增多的兩種拓展方案:垂直擴(kuò)展(scale up)、水平擴(kuò)展(scale out)。
鴻蒙官方戰(zhàn)略合作共建——HarmonyOS技術(shù)社區(qū)
垂直拓展:升級單個 Redis 的硬件配置,比如增加內(nèi)存容量、磁盤容量、使用更強(qiáng)大的 CPU。
水平拓展:橫向增加 Redis 實(shí)例個數(shù),每個節(jié)點(diǎn)負(fù)責(zé)一部分?jǐn)?shù)據(jù)。
比如需要一個內(nèi)存 24 GB 磁盤 150 GB 的服務(wù)器資源,有以下兩種方案:
水平拓展與垂直拓展
在面向百萬、千萬級別的用戶規(guī)模時,橫向擴(kuò)展的 Redis 切片集群會是一個非常好的選擇。
65 哥:那這兩種方案都有什么優(yōu)缺點(diǎn)呢?
垂直拓展部署簡單,但是當(dāng)數(shù)據(jù)量大并且使用 RDB 實(shí)現(xiàn)持久化,會造成阻塞導(dǎo)致響應(yīng)慢。另外受限于硬件和成本,拓展內(nèi)存的成本太大,比如拓展到 1T 內(nèi)存。
水平拓展便于拓展,同時不需要擔(dān)心單個實(shí)例的硬件和成本的限制。但是,切片集群會涉及多個實(shí)例的分布式管理問題,需要解決如何將數(shù)據(jù)合理分布到不同實(shí)例,同時還要讓客戶端能正確訪問到實(shí)例上的數(shù)據(jù)。
Redis 集群是一種分布式數(shù)據(jù)庫方案,集群通過分片(sharding)來進(jìn)行數(shù)據(jù)管理(「分治思想」的一種實(shí)踐),并提供復(fù)制和故障轉(zhuǎn)移功能。
將數(shù)據(jù)劃分為 16384 的 slots,每個節(jié)點(diǎn)負(fù)責(zé)一部分槽位。槽位的信息存儲于每個節(jié)點(diǎn)中。
它是去中心化的,如圖所示,該集群有三個 Redis 節(jié)點(diǎn)組成,每個節(jié)點(diǎn)負(fù)責(zé)整個集群的一部分?jǐn)?shù)據(jù),每個節(jié)點(diǎn)負(fù)責(zé)的數(shù)據(jù)多少可能不一樣。
Redis 集群架構(gòu)
三個節(jié)點(diǎn)相互連接組成一個對等的集群,它們之間通過 Gossip協(xié)議相互交互集群信息,最后每個節(jié)點(diǎn)都保存著其他節(jié)點(diǎn)的 slots 分配情況。
技術(shù)不是萬能的,程序員也不是最厲害的,一定要搞清楚,不要覺得「老子天下第一」。一旦有了這個意識,可能會耽誤我們的成長。
技術(shù)是為了解決問題的,如果說一個技術(shù)不能解決問題,那這個技術(shù)就一文不值。
不要去炫技,沒有意義。
點(diǎn)擊 -> 《Redis 6.X Cluster 集群搭建》查看
一個 Redis 集群通常由多個節(jié)點(diǎn)(node)組成,在剛開始的時候,每個節(jié)點(diǎn)都是相互獨(dú)立的,它們都處于一個只包含自己的集群當(dāng)中,要組建一個真正可工作的集群,我們必須將各個獨(dú)立的節(jié)點(diǎn)連接起來,構(gòu)成一個包含多個節(jié)點(diǎn)的集群。
連接各個節(jié)點(diǎn)的工作可以通過 CLUSTER MEET 命令完成:CLUSTER MEET
向一個節(jié)點(diǎn) node 發(fā)送 CLUSTER MEET 命令,可以讓 node 節(jié)點(diǎn)與 ip 和 port 所指定的節(jié)點(diǎn)進(jìn)行握手(handshake),當(dāng)握手成功時,node 節(jié)點(diǎn)就會將 ip 和 port 所指定的節(jié)點(diǎn)添加到 node 節(jié)點(diǎn)當(dāng)前所在的集群中。
CLUSTER MEET
就好像 node 節(jié)點(diǎn)說:“喂,ip = xx,port = xx 的老哥,要不要加入「碼哥字節(jié)」技術(shù)群,加入集群就找到了一條大神成長之路,關(guān)注「碼哥字節(jié)」公眾號回復(fù)「加群」,是兄弟就跟我一起來!”
關(guān)于 Redis Cluster 集群搭建詳細(xì)步驟,請點(diǎn)擊文末左下角「閱讀原文」或者點(diǎn)擊 -> 《Redis 6.X Cluster 集群搭建》查看,官方關(guān)于 Redis Cluster 的詳情請看:https://redis.io/topics/cluster-tutorial。
65 哥:數(shù)據(jù)切片后,需要將數(shù)據(jù)分布在不同實(shí)例上,數(shù)據(jù)和實(shí)例之間如何對應(yīng)上呢?
”Redis 3.0 開始,官方提供了 Redis Cluster 方案實(shí)現(xiàn)了切片集群,該方案就實(shí)現(xiàn)了數(shù)據(jù)和實(shí)例的規(guī)則。Redis Cluster 方案采用哈希槽(Hash Slot,接下來我會直接稱之為 Slot),來處理數(shù)據(jù)和實(shí)例之間的映射關(guān)系。
跟著「碼哥字節(jié)」一起進(jìn)入 Cluster 實(shí)現(xiàn)原理探索之旅…...
集群的整個數(shù)據(jù)庫被分為 16384 個槽(slot),數(shù)據(jù)庫中的每個鍵都屬于這 16384 個槽的其中一個,集群中的每個節(jié)點(diǎn)可以處理 0 個或最多 16384 個槽。
Key 與哈希槽映射過程可以分為兩大步驟:
根據(jù)鍵值對的 key,使用 CRC16 算法,計(jì)算出一個 16 bit 的值;
將 16 bit 的值對 16384 執(zhí)行取模,得到 0 ~ 16383 的數(shù)表示 key 對應(yīng)的哈希槽。
Cluster 還允許用戶強(qiáng)制某個 key 掛在特定槽位上,通過在 key 字符串里面嵌入 tag 標(biāo)記,這就可以強(qiáng)制 key 所掛在的槽位等于 tag 所在的槽位。
65 哥:哈希槽又是如何映射到 Redis 實(shí)例上呢?
”在 部署集群的樣例中通過 cluster create 創(chuàng)建,Redis 會自動將 16384 個 哈希槽平均分布在集群實(shí)例上,比如 N 個節(jié)點(diǎn),每個節(jié)點(diǎn)上的哈希槽數(shù) = 16384 / N 個。
除此之外,可以通過 CLUSTER MEET 命令將 7000、7001、7002 三個節(jié)點(diǎn)連在一個集群,但是集群目前依然處于下線狀態(tài),因?yàn)槿齻€實(shí)例都沒有處理任何哈希槽。
可以使用 cluster addslots 命令,指定每個實(shí)例上的哈希槽個數(shù)。
65 哥:為啥要手動制定呢?
能者多勞嘛,加入集群中的 Redis 實(shí)例配置不一樣,如果承擔(dān)一樣的壓力,對于垃圾機(jī)器來說就太難了,讓牛逼的機(jī)器多支持一點(diǎn)。
三個實(shí)例的集群,通過下面的指令為每個實(shí)例分配哈希槽:實(shí)例 1負(fù)責(zé) 0 ~ 5460 哈希槽,實(shí)例 2 負(fù)責(zé) 5461~10922 哈希槽,實(shí)例 3 負(fù)責(zé) 10923 ~ 16383 哈希槽。
redis-cli -h 172.16.19.1 –p 6379 cluster addslots 0,5460 redis-cli -h 172.16.19.2 –p 6379 cluster addslots 5461,10922 redis-cli -h 172.16.19.3 –p 6379 cluster addslots 10923,16383
鍵值對數(shù)據(jù)、哈希槽、Redis 實(shí)例之間的映射關(guān)系如下:
數(shù)據(jù)、Slot與實(shí)例的映射
Redis 鍵值對的 key 「碼哥字節(jié)」「牛逼」經(jīng)過 CRC16 計(jì)算后再對哈希槽總個數(shù) 16394 取模,模數(shù)結(jié)果分別映射到實(shí)例 1 與實(shí)例 2 上。
切記,當(dāng) 16384 個槽都分配完全,Redis 集群才能正常工作。
65 哥:Redis 集群如何實(shí)現(xiàn)高可用呢?Master 與 Slave 還是讀寫分離么?
Master 用于處理槽,Slave 節(jié)點(diǎn)則通過《Redis 主從架構(gòu)數(shù)據(jù)同步》方式同步主節(jié)點(diǎn)數(shù)據(jù)。
當(dāng) Master 下線,Slave 代替主節(jié)點(diǎn)繼續(xù)處理請求。主從節(jié)點(diǎn)之間并沒有讀寫分離, Slave 只用作 Master 宕機(jī)的高可用備份。
Redis Cluster 可以為每個主節(jié)點(diǎn)設(shè)置若干個從節(jié)點(diǎn),單主節(jié)點(diǎn)故障時,集群會自動將其中某個從節(jié)點(diǎn)提升為主節(jié)點(diǎn)。
如果某個主節(jié)點(diǎn)沒有從節(jié)點(diǎn),那么當(dāng)它發(fā)生故障時,集群將完全處于不可用狀態(tài)。
不過 Redis 也提供了一個參數(shù)cluster-require-full-coverage可以允許部分節(jié)點(diǎn)故障,其它節(jié)點(diǎn)還可以繼續(xù)提供對外訪問。
比如 7000 主節(jié)點(diǎn)宕機(jī),作為 slave 的 7003 成為 Master 節(jié)點(diǎn)繼續(xù)提供服務(wù)。當(dāng)下線的節(jié)點(diǎn) 7000 重新上線,它將成為當(dāng)前 70003 的從節(jié)點(diǎn)。
65 哥:在《Redis 高可用篇:Sentinel 哨兵集群原理》我知道哨兵通過監(jiān)控、自動切換主庫、通知客戶端實(shí)現(xiàn)故障自動切換,Cluster 又如何實(shí)現(xiàn)故障自動轉(zhuǎn)移呢?
一個節(jié)點(diǎn)認(rèn)為某個節(jié)點(diǎn)失聯(lián)了并不代表所有的節(jié)點(diǎn)都認(rèn)為它失聯(lián)了。只有當(dāng)大多數(shù)負(fù)責(zé)處理 slot 節(jié)點(diǎn)都認(rèn)定了某個節(jié)點(diǎn)下線了,集群才認(rèn)為該節(jié)點(diǎn)需要進(jìn)行主從切換。
Redis 集群節(jié)點(diǎn)采用 Gossip 協(xié)議來廣播自己的狀態(tài)以及自己對整個集群認(rèn)知的改變。比如一個節(jié)點(diǎn)發(fā)現(xiàn)某個節(jié)點(diǎn)失聯(lián)了 (PFail),它會將這條信息向整個集群廣播,其它節(jié)點(diǎn)也就可以收到這點(diǎn)失聯(lián)信息。
關(guān)于 Gossip 協(xié)議可閱讀悟空哥的一篇文章:《病毒入侵,全靠分布式》
如果一個節(jié)點(diǎn)收到了某個節(jié)點(diǎn)失聯(lián)的數(shù)量 (PFail Count) 已經(jīng)達(dá)到了集群的大多數(shù),就可以標(biāo)記該節(jié)點(diǎn)為確定下線狀態(tài) (Fail),然后向整個集群廣播,強(qiáng)迫其它節(jié)點(diǎn)也接收該節(jié)點(diǎn)已經(jīng)下線的事實(shí),并立即對該失聯(lián)節(jié)點(diǎn)進(jìn)行主從切換。
當(dāng)一個 Slave 發(fā)現(xiàn)自己的主節(jié)點(diǎn)進(jìn)入已下線狀態(tài)后,從節(jié)點(diǎn)將開始對下線的主節(jié)點(diǎn)進(jìn)行故障轉(zhuǎn)移。
鴻蒙官方戰(zhàn)略合作共建——HarmonyOS技術(shù)社區(qū)
從下線的 Master 及節(jié)點(diǎn)的 Slave 節(jié)點(diǎn)列表選擇一個節(jié)點(diǎn)成為新主節(jié)點(diǎn)。
新主節(jié)點(diǎn)會撤銷所有對已下線主節(jié)點(diǎn)的 slot 指派,并將這些 slots 指派給自己。
新的主節(jié)點(diǎn)向集群廣播一條 PONG 消息,這條 PONG 消息可以讓集群中的其他節(jié)點(diǎn)立即知道這個節(jié)點(diǎn)已經(jīng)由從節(jié)點(diǎn)變成了主節(jié)點(diǎn),并且這個主節(jié)點(diǎn)已經(jīng)接管了原本由已下線節(jié)點(diǎn)負(fù)責(zé)處理的槽。
新的主節(jié)點(diǎn)開始接收處理槽有關(guān)的命令請求,故障轉(zhuǎn)移完成。
65 哥:新的主節(jié)點(diǎn)如何選舉產(chǎn)生的?
鴻蒙官方戰(zhàn)略合作共建——HarmonyOS技術(shù)社區(qū)
集群的配置紀(jì)元 +1,是一個自曾計(jì)數(shù)器,初始值 0 ,每次執(zhí)行故障轉(zhuǎn)移都會 +1。
檢測到主節(jié)點(diǎn)下線的從節(jié)點(diǎn)向集群廣播一條CLUSTERMSG_TYPE_FAILOVER_AUTH_REQUEST消息,要求所有收到這條消息、并且具有投票權(quán)的主節(jié)點(diǎn)向這個從節(jié)點(diǎn)投票。
這個主節(jié)點(diǎn)尚未投票給其他從節(jié)點(diǎn),那么主節(jié)點(diǎn)將向要求投票的從節(jié)點(diǎn)返回一條CLUSTERMSG_TYPE_FAILOVER_AUTH_ACK消息,表示這個主節(jié)點(diǎn)支持從節(jié)點(diǎn)成為新的主節(jié)點(diǎn)。
參與選舉的從節(jié)點(diǎn)都會接收CLUSTERMSG_TYPE_FAILOVER_AUTH_ACK消息,如果收集到的票 >= (N/2) + 1 支持,那么這個從節(jié)點(diǎn)就被選舉為新主節(jié)點(diǎn)。
如果在一個配置紀(jì)元里面沒有從節(jié)點(diǎn)能收集到足夠多的支持票,那么集群進(jìn)入一個新的配置紀(jì)元,并再次進(jìn)行選舉,直到選出新的主節(jié)點(diǎn)為止。
跟哨兵類似,兩者都是基于 Raft 算法來實(shí)現(xiàn)的,流程如圖所示:
集群Leader選舉
65 哥,我來考考你:“Redis Cluster 方案通過哈希槽的方式把鍵值對分配到不同的實(shí)例上,這個過程需要對鍵值對的 key 做 CRC 計(jì)算并對 哈希槽總數(shù)取模映射到實(shí)例上。如果用一個表直接把鍵值對和實(shí)例的對應(yīng)關(guān)系記錄下來(例如鍵值對 1 在實(shí)例 2 上,鍵值對 2 在實(shí)例 1 上),這樣就不用計(jì)算 key 和哈希槽的對應(yīng)關(guān)系了,只用查表就行了,Redis 為什么不這么做呢?”
使用一個全局表記錄的話,假如鍵值對和實(shí)例之間的關(guān)系改變(重新分片、實(shí)例增減),需要修改表。如果是單線程操作,所有操作都要串行,性能太慢。
多線程的話,就涉及到加鎖,另外,如果鍵值對數(shù)據(jù)量非常大,保存鍵值對與實(shí)例關(guān)系的表數(shù)據(jù)所需要的存儲空間也會很大。
而哈希槽計(jì)算,雖然也要記錄哈希槽與實(shí)例時間的關(guān)系,但是哈希槽的數(shù)量少得多,只有 16384 個,開銷很小。
65 哥:客戶端又怎么確定訪問的數(shù)據(jù)到底分布在哪個實(shí)例上呢?
Redis 實(shí)例會將自己的哈希槽信息通過 Gossip 協(xié)議發(fā)送給集群中其他的實(shí)例,實(shí)現(xiàn)了哈希槽分配信息的擴(kuò)散。
這樣,集群中的每個實(shí)例都有所有哈希槽與實(shí)例之間的映射關(guān)系信息。
在切片數(shù)據(jù)的時候是將 key 通過 CRC16 計(jì)算出一個值再對 16384 取模得到對應(yīng)的 Slot,這個計(jì)算任務(wù)可以在客戶端上執(zhí)行發(fā)送請求的時候執(zhí)行。
但是,定位到槽以后還需要進(jìn)一步定位到該 Slot 所在 Redis 實(shí)例。
當(dāng)客戶端連接任何一個實(shí)例,實(shí)例就將哈希槽與實(shí)例的映射關(guān)系響應(yīng)給客戶端,客戶端就會將哈希槽與實(shí)例映射信息緩存在本地。
當(dāng)客戶端請求時,會計(jì)算出鍵所對應(yīng)的哈希槽,在通過本地緩存的哈希槽實(shí)例映射信息定位到數(shù)據(jù)所在實(shí)例上,再將請求發(fā)送給對應(yīng)的實(shí)例。
Redis 客戶端定位數(shù)據(jù)所在節(jié)點(diǎn)
65 哥:哈希槽與實(shí)例之間的映射關(guān)系由于新增實(shí)例或者負(fù)載均衡重新分配導(dǎo)致改變了咋辦?
集群中的實(shí)例通過 Gossip 協(xié)議互相傳遞消息獲取最新的哈希槽分配信息,但是,客戶端無法感知。
Redis Cluster 提供了重定向機(jī)制:客戶端將請求發(fā)送到實(shí)例上,這個實(shí)例沒有相應(yīng)的數(shù)據(jù),該 Redis 實(shí)例會告訴客戶端將請求發(fā)送到其他的實(shí)例上。
65 哥:Redis 如何告知客戶端重定向訪問新實(shí)例呢?
分為兩種情況:MOVED 錯誤、ASK 錯誤。
MOVED 錯誤(負(fù)載均衡,數(shù)據(jù)已經(jīng)遷移到其他實(shí)例上):當(dāng)客戶端將一個鍵值對操作請求發(fā)送給某個實(shí)例,而這個鍵所在的槽并非由自己負(fù)責(zé)的時候,該實(shí)例會返回一個 MOVED 錯誤指引轉(zhuǎn)向正在負(fù)責(zé)該槽的節(jié)點(diǎn)。
GET 公眾號:碼哥字節(jié) (error) MOVED 16330 172.17.18.2:6379
該響應(yīng)表示客戶端請求的鍵值對所在的哈希槽 16330 遷移到了 172.17.18.2 這個實(shí)例上,端口是 6379。這樣客戶端就與 172.17.18.2:6379 建立連接,并發(fā)送 GET 請求。
同時,客戶端還會更新本地緩存,將該 slot 與 Redis 實(shí)例對應(yīng)關(guān)系更新正確。
MOVED 指令
65 哥:如果某個 slot 的數(shù)據(jù)比較多,部分遷移到新實(shí)例,還有一部分沒有遷移咋辦?
如果請求的 key 在當(dāng)前節(jié)點(diǎn)找到就直接執(zhí)行命令,否則時候就需要 ASK 錯誤響應(yīng)了,槽部分遷移未完成的情況下,如果需要訪問的 key 所在 Slot 正在從從 實(shí)例 1 遷移到 實(shí)例 2,實(shí)例 1 會返回客戶端一條 ASK 報錯信息:客戶端請求的 key 所在的哈希槽正在遷移到實(shí)例 2 上,你先給實(shí)例 2 發(fā)送一個 ASKING 命令,接著發(fā)發(fā)送操作命令。
GET 公眾號:碼哥字節(jié) (error) ASK 16330 172.17.18.2:6379
比如客戶端請求定位到 key = 「公眾號:碼哥字節(jié)」的槽 16330 在實(shí)例 172.17.18.1 上,節(jié)點(diǎn) 1 如果找得到就直接執(zhí)行命令,否則響應(yīng) ASK 錯誤信息,并指引客戶端轉(zhuǎn)向正在遷移的目標(biāo)節(jié)點(diǎn) 172.17.18.2。
ASK 錯誤
注意:ASK 錯誤指令并不會更新客戶端緩存的哈希槽分配信息。
所以客戶端再次請求 Slot 16330 的數(shù)據(jù),還是會先給 172.17.18.1 實(shí)例發(fā)送請求,只不過節(jié)點(diǎn)會響應(yīng) ASK 命令讓客戶端給新實(shí)例發(fā)送一次請求。
MOVED指令則更新客戶端本地緩存,讓后續(xù)指令都發(fā)往新實(shí)例。
65 哥:有了 Redis Cluster,再也不怕大數(shù)據(jù)量了,我可以無限水平拓展么?
答案是否定的,Redis 官方給的 Redis Cluster 的規(guī)模上線是 1000 個實(shí)例。
65 哥:到底是什么限制了集群規(guī)模呢?
關(guān)鍵在于實(shí)例間的通信開銷,Cluster 集群中的每個實(shí)例都保存所有哈希槽與實(shí)例對應(yīng)關(guān)系信息(Slot 映射到節(jié)點(diǎn)的表),以及自身的狀態(tài)信息。
在集群之間每個實(shí)例通過 Gossip協(xié)議傳播節(jié)點(diǎn)的數(shù)據(jù),Gossip 協(xié)議工作原理大概如下:
從集群中隨機(jī)選擇一些實(shí)例按照一定的頻率發(fā)送 PING 消息發(fā)送給挑選出來的實(shí)例,用于檢測實(shí)例狀態(tài)以及交換彼此的信息。PING 消息中封裝了發(fā)送者自身的狀態(tài)信息、部分其他實(shí)例的狀態(tài)信息、Slot 與實(shí)例映射表信息。
實(shí)例接收到 PING 消息后,響應(yīng) PONG 消息,消息包含的信息跟 PING 消息一樣。
集群之間通過 Gossip協(xié)議可以在一段時間之后每個實(shí)例都能獲取其他所有實(shí)例的狀態(tài)信息。
所以在有新節(jié)點(diǎn)加入,節(jié)點(diǎn)故障,Slot 映射變更都可以通過 PING,PONG 的消息傳播完成集群狀態(tài)在每個實(shí)例的傳播同步。
發(fā)送的消息結(jié)構(gòu)是 clusterMsgDataGossip結(jié)構(gòu)體組成:
typedef struct { char nodename[CLUSTER_NAMELEN]; //40字節(jié) uint32_t ping_sent; //4字節(jié) uint32_t pong_received; //4字節(jié) char ip[NET_IP_STR_LEN]; //46字節(jié) uint16_t port; //2字節(jié) uint16_t cport; //2字節(jié) uint16_t flags; //2字節(jié) uint32_t notused1; //4字節(jié) } clusterMsgDataGossip;
所以每個實(shí)例發(fā)送一個 Gossip消息,就需要發(fā)送 104 字節(jié)。如果集群是 1000 個實(shí)例,那么每個實(shí)例發(fā)送一個 PING 消息則會占用 大約 10KB。
除此之外,實(shí)例間在傳播 Slot 映射表的時候,每個消息還包含了 一個長度為 16384 bit 的 Bitmap。
每一位對應(yīng)一個 Slot,如果值 = 1 則表示這個 Slot 屬于當(dāng)前實(shí)例,這個 Bitmap 占用 2KB,所以一個 PING 消息大約 12KB。
PONG與PING 消息一樣,一發(fā)一回兩個消息加起來就是 24 KB。集群規(guī)模的增加,心跳消息越來越多就會占據(jù)集群的網(wǎng)絡(luò)通信帶寬,降低了集群吞吐量。
65 哥:碼哥,發(fā)送 PING 消息的頻率也會影響集群帶寬吧?
Redis Cluster 的實(shí)例啟動后,默認(rèn)會每秒從本地的實(shí)例列表中隨機(jī)選出 5 個實(shí)例,再從這 5 個實(shí)例中找出一個最久沒有收到 PING 消息的實(shí)例,把 PING 消息發(fā)送給該實(shí)例。
65 哥:隨機(jī)選擇 5 個,但是無法保證選中的是整個集群最久沒有收到 PING 通信的實(shí)例,有的實(shí)例可能一直沒有收到消息,導(dǎo)致他們維護(hù)的集群信息早就過期了,咋辦呢?
”這個問題問的好,Redis Cluster 的實(shí)例每 100 ms 就會掃描本地實(shí)例列表,當(dāng)發(fā)現(xiàn)有實(shí)例最近一次收到 PONG 消息的時間 > cluster-node-timeout / 2。那么就立刻給這個實(shí)例發(fā)送 PING 消息,更新這個節(jié)點(diǎn)的集群狀態(tài)信息。
當(dāng)集群規(guī)模變大,就會進(jìn)一步導(dǎo)致實(shí)例間網(wǎng)絡(luò)通信延遲怎加??赡軙鸶嗟?PING 消息頻繁發(fā)送。
每個實(shí)例每秒發(fā)送一條 PING消息,降低這個頻率可能會導(dǎo)致集群每個實(shí)例的狀態(tài)信息無法及時傳播。
每 100 ms 檢測實(shí)例 PONG消息接收是否超過 cluster-node-timeout / 2,這個是 Redis 實(shí)例默認(rèn)的周期性檢測任務(wù)頻率,我們不會輕易修改。
所以,只能修改 cluster-node-timeout的值:集群中判斷實(shí)例是否故障的心跳時間,默認(rèn) 15 S。
所以,為了避免過多的心跳消息占用集群寬帶,將 cluster-node-timeout調(diào)成 20 秒或者 30 秒,這樣 PONG 消息接收超時的情況就會緩解。
但是,也不能設(shè)置的太大。都則就會導(dǎo)致實(shí)例發(fā)生故障了,卻要等待 cluster-node-timeout時長才能檢測出這個故障,影響集群正常服務(wù)、
《Redis 系列》至今已發(fā)布 7 篇,每一篇「碼哥字節(jié)」都耗費(fèi)大量精力,精益求精。確保每一篇都給讀者帶來價值,讓大家得到真正的提升。
哨兵集群實(shí)現(xiàn)故障自動轉(zhuǎn)移,但是當(dāng)數(shù)據(jù)量過大導(dǎo)致生成 RDB 時間過長。而 Fork 執(zhí)行的時候會阻塞主線程,由于數(shù)據(jù)量過大導(dǎo)致阻塞主線程過長,所以出現(xiàn)了 Redis 響應(yīng)慢的表象。
使用 Redis Cluster 集群,主要解決了大數(shù)據(jù)量存儲導(dǎo)致的各種慢問題,同時也便于橫向拓展。在面向百萬、千萬級別的用戶規(guī)模時,橫向擴(kuò)展的 Redis 切片集群會是一個非常好的選擇。
集群的整個數(shù)據(jù)庫被分為 16384 個槽(slot),數(shù)據(jù)庫中的每個鍵都屬于這 16384 個槽的其中一個,集群中的每個節(jié)點(diǎn)可以處理 0 個或最多 16384 個槽。
Redis 集群節(jié)點(diǎn)采用 Gossip 協(xié)議來廣播自己的狀態(tài)以及自己對整個集群認(rèn)知的改變。
客戶端連接到集群候任何一個實(shí)例后,實(shí)例會將哈希槽與實(shí)例映射信息發(fā)送給客戶端,客戶端將信息保存,用于將 key 定位到對應(yīng)的節(jié)點(diǎn)。
集群并不能無限增加,由于集群通過 Gossip協(xié)議傳播集群實(shí)例信息,所以通信頻率是限制集群大小的主要原因,主要可以通過修改 cluster-node-timeout調(diào)整頻率。
感謝各位的閱讀,以上就是“Cluster集群能支撐的數(shù)據(jù)有多大”的內(nèi)容了,經(jīng)過本文的學(xué)習(xí)后,相信大家對Cluster集群能支撐的數(shù)據(jù)有多大這一問題有了更深刻的體會,具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是創(chuàng)新互聯(lián),小編將為大家推送更多相關(guān)知識點(diǎn)的文章,歡迎關(guān)注!