真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

如何找到Kafka集群的吞吐量極限?-創(chuàng)新互聯(lián)

Kafka 是非常流行的分布式流式處理和大數(shù)據(jù)消息隊列解決方案,在技術(shù)行業(yè)已經(jīng)得到了廣泛采用,在 Dropbox 也不例外。Kafka 在 Dropbox 的很多分布式系統(tǒng)數(shù)據(jù)結(jié)構(gòu)中發(fā)揮著重要的作用:數(shù)據(jù)分析、機器學習、監(jiān)控、搜索和流式處理,等等。在 Dropbox,Kafka 集群由 Jetstream 團隊負責管理,他們的主要職責是提供高質(zhì)量的 Kafka 服務。他們的一個主要目標是了解 Kafka 在 Dropbox 基礎設施中的吞吐量極限,這對于針對不同用例做出適當?shù)呐渲脹Q策來說至關重要。最近,他們創(chuàng)建了一個自動化測試平臺來實現(xiàn)這一目標。這篇文章將分享他們所使用的方法和一些有趣的發(fā)現(xiàn)。

創(chuàng)新互聯(lián)-專業(yè)網(wǎng)站定制、快速模板網(wǎng)站建設、高性價比三明網(wǎng)站開發(fā)、企業(yè)建站全套包干低至880元,成熟完善的模板庫,直接使用。一站式三明網(wǎng)站制作公司更省心,省錢,快速模板網(wǎng)站建設找我們,業(yè)務覆蓋三明地區(qū)。費用合理售后完善,十載實體公司更值得信賴。

測試平臺
如何找到 Kafka 集群的吞吐量極限?
上圖描繪了本文所使用的測試平臺的設置。我們在 Spark 中使用 Kafka 客戶端,這樣就可以以任意規(guī)模生成和消費流量。我們搭建了三個不同大小的 Kafka 集群,要調(diào)整集群大小,只需要將流量重定向到不同的集群。我們創(chuàng)建了一個 Kafka 主題,用于生成測試流量。為簡單起見,我們將流量均勻地分布在 Kafka broker 之間。為實現(xiàn)這一目標,我們創(chuàng)建了測試主題,分區(qū)數(shù)量是 broker 數(shù)量的 10 倍,這樣每個 broker 都是 10 個分區(qū)的首領。因為寫入單個分區(qū)是串行的,所以如果每個 broker 的分區(qū)太少會導致寫入競爭,從而限制了吞吐量。根據(jù)我們的實驗,10 是一個恰到好處的數(shù)字,可以避免寫入競爭造成吞吐量瓶頸。

由于基礎設施的分布式特性,客戶端遍布在美國的不同地區(qū)。因為測試流量遠低于 Dropbox 網(wǎng)絡主干的限制,所以我們可以安全地假設跨區(qū)域流量的限制也適用于本地流量。

是什么影響了工作負載?
有一系列因素會影響 Kafka 集群的工作負載:生產(chǎn)者數(shù)量、消費者群組數(shù)量、初始消費者偏移量、每秒消息數(shù)量、每條消息的大小,以及所涉及的主題和分區(qū)的數(shù)量,等等。我們可以自由地設置參數(shù),因此,很有必要找到主導的影響因素,以便將測試復雜性降低到實用水平。

我們研究了不同的參數(shù)組合,最后得出結(jié)論,我們需要考慮的主要因素是每秒產(chǎn)生的消息數(shù)(mps)和每個消息的字節(jié)大?。╞pm)。

流量模型
我們采取了正式的方法來了解 Kafka 的吞吐量極限。特定的 Kafka 集群都有一個相關聯(lián)的流量空間,這個多維空間中的每一個點都對應一個 Kafka 流量模式,可以通過參數(shù)向量來表示:。所有不會導致 Kafka 過載的流量模式都形成了一個封閉的子空間,其表面就是 Kafka 集群的吞吐量極限。

對于初始測試,我們選擇將 mps 和 bpm 作為吞吐量極限的基礎,因此流量空間就降到二維平面。這一系列可接受的流量形成了一個封閉的區(qū)域,找到 Kafka 的吞吐量極限相當于繪制出該區(qū)域的邊界。

自動化測試
為了以合理的精度繪制出邊界,我們需要用不同的設置進行數(shù)百次實驗,通過手動操作的方式是不切實際的。因此,我們設計了一種算法,無需人工干預即可運行所有的實驗。

過載指示器
我們需要找到一系列能夠以編程方式判斷 Kafka 健康狀況的指標。我們研究了大量的候選指標,最后鎖定以下這些:

IO 線程空閑低于 20%:這意味著 Kafka 用于處理客戶端請求的工作線程池太忙而無法處理更多工作負載。

同步副本集變化超過 50%:這意味著在 50%的時間內(nèi)至少有一個 broker 無法及時復制首領的數(shù)據(jù)。

Jetstream 團隊還使用這些指標來監(jiān)控 Kafka 運行狀況,當集群承受過大壓力時,這些指標會首當其沖發(fā)出信號。

找到邊界
為了找到一個邊界點,我們讓 bpm 維度固定,并嘗試通過更改 mps 值來讓 Kafka 過載。當我們有一個安全的 mps 值和另一個導致集群接近過載的 mps 值時,邊界就找到了。我們將安全的值視為邊界點,然后通過重復這個過程來找到整條邊界線,如下所示:
如何找到 Kafka 集群的吞吐量極限?

值得注意的是,我們調(diào)整了具有相同生產(chǎn)速率的生產(chǎn)者(用 np 表示),而不是直接調(diào)整 mps。主要是因為批處理方式導致單個生產(chǎn)者的生產(chǎn)速率不易控制。相反,改變生產(chǎn)者的數(shù)量可以線性地縮放流量。根據(jù)我們早期的研究,單獨增加生產(chǎn)者數(shù)量不會給 Kafka 帶來明顯的負載差異。

我們通過二分查找來尋找單邊界點。二分查找從一個非常大的 np[0,max] 窗口開始,其中 max 是一個肯定會導致過載的值。在每次迭代中,選擇中間值來生成流量。如果 Kafka 在使用這個值時發(fā)生過載,那么這個值將成為新的上限,否則就成為新的下限。當窗口足夠窄時,停止該過程。我們將對應于當前下限的 mps 值視為邊界。

結(jié)果
如何找到 Kafka 集群的吞吐量極限?
我們在上圖中繪制了不同大小的 Kafka 的邊界。基于這個結(jié)果,我們可以得出結(jié)論,Dropbox 基礎設施可以承受的大吞吐量為每個 broker 60MB/s。

值得注意的是,這只是一個保守的極限,因為我們測試用的消息大小完全是隨機的,主要是為了最小化 Kafka 內(nèi)部消息壓縮機制所帶來的影響。在生產(chǎn)環(huán)境中,Kafka 消息通常遵循某種模式,因為它們通常由相似的過程生成,這為壓縮優(yōu)化提供了很大的空間。我們測試了一個極端情況,消息全部由相同的字符組成,這個時候我們可以看到更高的吞吐量極限。

此外,當有 5 個消費者群組訂閱測試主題時,這個吞吐量限制仍然有效。換句話說,當讀取吞吐量是當前 5 倍時,仍然可以實現(xiàn)這樣的寫入吞吐量。當消費者群組增加到 5 個以上時,隨著網(wǎng)絡成為瓶頸,寫入吞吐量開始下降。因為 Dropbox 生產(chǎn)環(huán)境中的讀寫流量比遠低于 5,所以我們得到的極限適用于所有生產(chǎn)集群。

這個結(jié)果為將來的 Kafka 配置提供了指導基礎。假設我們允許最多 20%的 broker 離線,那么單個 broker 的大安全吞吐量應為 60MB/s * 0.8 ~= 50MB/s。有了這個,我們可以根據(jù)未來用例的估算吞吐量來確定集群大小。

對未來工作的影響
這個平臺和自動化測試套件將成為 Jetstream 團隊的一筆寶貴的財富。當我們切換到新硬件、更改網(wǎng)絡配置或升級 Kafka 版本時,可以重新運行這些測試并獲得新的吞吐量極限。我們可以應用相同的方法來探索其他影響 Kafka 性能的因素。最后,這個平臺可以作為 Jetstream 的測試平臺,以便模擬新的流量模式或在隔離環(huán)境中重現(xiàn)問題。

總結(jié)
在這篇文章中,我們提出了一種系統(tǒng)方法來了解 Kafka 的吞吐量極限。值得注意的是,我們是基于 Dropbox 的基礎設施得到的這些結(jié)果,因此,由于硬件、軟件棧和網(wǎng)絡條件的不同,我們得到的數(shù)字可能不適用于其他 Kafka 實例。我們希望這里介紹的技術(shù)能夠幫助讀者去了解他們自己的 Kafka 系統(tǒng)。

另外有需要云服務器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務器、裸金屬服務器、高防服務器、香港服務器、美國服務器、虛擬主機、免備案服務器”等云主機租用服務以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應用場景需求。


本文標題:如何找到Kafka集群的吞吐量極限?-創(chuàng)新互聯(lián)
URL地址:http://weahome.cn/article/coicos.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部