真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

kafka的特點和組件

這篇文章主要介紹“kafka的特點和組件”,在日常操作中,相信很多人在kafka的特點和組件問題上存在疑惑,小編查閱了各式資料,整理出簡單好用的操作方法,希望對大家解答”kafka的特點和組件”的疑惑有所幫助!接下來,請跟著小編一起來學習吧!

創(chuàng)新互聯(lián)網(wǎng)站建設(shè)公司,提供網(wǎng)站設(shè)計、成都網(wǎng)站制作,網(wǎng)頁設(shè)計,建網(wǎng)站,PHP網(wǎng)站建設(shè)等專業(yè)做網(wǎng)站服務(wù);可快速的進行網(wǎng)站開發(fā)網(wǎng)頁制作和功能擴展;專業(yè)做搜索引擎喜愛的網(wǎng)站,是專業(yè)的做網(wǎng)站團隊,希望更多企業(yè)前來合作!

一、特點

MQ生來就是解決生產(chǎn)者和消費者速度不匹配的問題而誕生的,那么MQ系統(tǒng)一個最最基本的要求就是寫入速度必須要快,哪怕出隊速度慢點也無所謂,因為業(yè)務(wù)高峰期持續(xù)時間是有限的,高峰結(jié)束之后有的是時間讓消費者慢慢消化,更別說簡單粗暴多加幾臺消費者就好了。

1.同時為發(fā)布和訂閱提供高吞吐量。據(jù)了解,Kafka每秒可以生產(chǎn)約25萬消息(50 MB),每秒處理55萬消息(110 MB)。

2.可進行持久化操作。將消息持久化到磁盤,因此可用于批量消費,例如ETL,以及實時應用程序。通過將數(shù)據(jù)持久化到硬盤以及replication防止數(shù)據(jù)丟失。

3.分布式系統(tǒng),易于向外擴展。所有的producer、broker和consumer都會有多個,均為分布式的。無需停機即可擴展機器。

4.消息被處理的狀態(tài)是在consumer端維護,而不是由server端維護。當失敗時能自動平衡。

5.支持online和offline的場景。

二、組件

broker:發(fā)布和訂閱的中間者,堆積消息。

zookeeper:管理kafka集群,監(jiān)控每個broker的狀態(tài),使得發(fā)布和訂閱都與有效的broker進行。

producer:消息的發(fā)布者。Producer將消息發(fā)布到指定的Topic中,同時Producer也能決定將此消息發(fā)送到哪個partition。

consumer:異步消費者,通過訂閱感興趣的topic,從broker拉取消息進行消費。在kafka中,一個partition中的消息只會被group中的一個consumer消費(同一時刻);每個group中consumer消息消費互相獨立;我們可以認為一個group是一個"訂閱"者,一個Topic中的每個partions,只會被一個"訂閱者"中的一個consumer消費,不過一個consumer可以同時消費多個partitions中的消息.kafka只能保證一個partition中的消息被某個consumer消費時是順序的.事實上,從Topic角度來說,當有多個partitions時,消息仍不是全局有序的.

**Consumer group:每個consumer客戶端被創(chuàng)建時,會向zookeeper注冊自己的信息;此作用主要是為了"

三、原理

1.持久化

kafka使用文件存儲消息(append only log),這就直接決定kafka在性能上嚴重依賴文件系統(tǒng)的本身特性.且無論任何OS下,對文件系統(tǒng)本身的優(yōu)化是非常艱難的.文件緩存/直接內(nèi)存映射等是常用的手段.因為kafka是對日志文件進行append操作,因此磁盤檢索的開支是較小的;同時為了減少磁盤寫入的次數(shù),broker會將消息暫時buffer起來,當消息的個數(shù)(或尺寸)達到一定閥值時,再flush到磁盤,這樣減少了磁盤IO調(diào)用的次數(shù).對于kafka而言,較高性能的磁盤,將會帶來更加直接的性能提升.

2.性能

除磁盤IO之外,我們還需要考慮網(wǎng)絡(luò)IO,這直接關(guān)系到kafka的吞吐量問題.kafka并沒有提供太多高超的技巧;對于producer端,可以將消息buffer起來,當消息的條數(shù)達到一定閥值時,批量發(fā)送給broker;對于consumer端也是一樣,批量fetch多條消息.不過消息量的大小可以通過配置文件來指定.對于kafka broker端,似乎有個sendfile系統(tǒng)調(diào)用可以潛在的提升網(wǎng)絡(luò)IO的性能:將文件的數(shù)據(jù)映射到系統(tǒng)內(nèi)存中,socket直接讀取相應的內(nèi)存區(qū)域即可,而無需進程再次copy和交換(這里涉及到"磁盤IO數(shù)據(jù)"/"內(nèi)核內(nèi)存"/"進程內(nèi)存"/"網(wǎng)絡(luò)緩沖區(qū)",多者之間的數(shù)據(jù)copy).

其實對于producer/consumer/broker三者而言,CPU的開支應該都不大,因此啟用消息壓縮機制是一個良好的策略;壓縮需要消耗少量的CPU資源,不過對于kafka而言,網(wǎng)絡(luò)IO更應該需要考慮.可以將任何在網(wǎng)絡(luò)上傳輸?shù)南⒍冀?jīng)過壓縮.kafka支持gzip/snappy等多種壓縮方式.

3.負載均衡

kafka集群中的任何一個broker,都可以向producer提供metadata信息,這些metadata中包含"集群中存活的servers列表"/"partitions leader列表"等信息(請參看zookeeper中的節(jié)點信息). 當producer獲取到metadata信息之后, producer將會和Topic下所有partition leader保持socket連接;消息由producer直接通過socket發(fā)送到broker,中間不會經(jīng)過任何"路由層".

異步發(fā)送,將多條消息暫且在客戶端buffer起來,并將他們批量發(fā)送到broker;小數(shù)據(jù)IO太多,會拖慢整體的網(wǎng)絡(luò)延遲,批量延遲發(fā)送事實上提升了網(wǎng)絡(luò)效率;不過這也有一定的隱患,比如當producer失效時,那些尚未發(fā)送的消息將會丟失。

4.Topic模型

其他JMS實現(xiàn),消息消費的位置是有proper保留,以便避免重復發(fā)送消息或者將沒有消費成功的消息重發(fā)等,同時還要控制消息的狀態(tài).這就要求JMS broker需要太多額外的工作.在kafka中,partition中的消息只有一個consumer在消費,且不存在消息狀態(tài)的控制,也沒有復雜的消息確認機制,可見kafka broker端是相當輕量級的.**當消息被consumer接收之后,consumer可以在本地保存最后消息的offset,并間歇性的向zookeeper注冊offset.而且,在kafka0.10版本中的“auto.offset.reset”配置項中,無論是eraliest、lastest、none或anything else任何一個選項,都是在沒有初始offset或者在offset丟失下才會生效。**由此可見,consumer客戶端也很輕量級。

kafka中consumer負責維護消息的消費記錄,而broker則不關(guān)心這些,這種設(shè)計不僅提高了consumer端的靈活性,也適度的減輕了broker端設(shè)計的復雜度;這是和眾多JMS proper的區(qū)別.此外,kafka中消息ACK的設(shè)計也和JMS有很大不同,kafka中的消息是批量(通常以消息的條數(shù)或者chunk的尺寸為單位)發(fā)送給consumer,當消息消費成功后,向zookeeper提交消息的offset,而不會向broker交付ACK.或許你已經(jīng)意識到,這種"寬松"的設(shè)計,將會有"丟失"消息/"消息重發(fā)"的危險.

5.log

每個log entry格式為"4個字節(jié)的數(shù)字N表示消息的長度" + "N個字節(jié)的消息內(nèi)容";每個日志都有一個offset來唯一的標記一條消息,offset的值為8個字節(jié)的數(shù)字,表示此消息在此partition中所處的起始位置..每個partition在物理存儲層面,有多個log file組成(稱為segment).segment file的命名為"最小offset".kafka.例如"00000000000.kafka";其中"最小offset"表示此segment中起始消息的offset.

kafka的特點和組件

獲取消息時,需要指定offset和最大chunk尺寸,offset用來表示消息的起始位置,chunk size用來表示最大獲取消息的總長度(間接的表示消息的條數(shù)).根據(jù)offset,可以找到此消息所在segment文件,然后根據(jù)segment的最小offset取差值,得到它在file中的相對位置,直接讀取輸出即可.

6.分布式

kafka使用zookeeper來存儲一些meta信息,并使用了zookeeper watch機制來發(fā)現(xiàn)meta信息的變更并作出相應的動作(比如consumer失效,觸發(fā)負載均衡等)

Broker node registry: 當一個kafka broker啟動后,首先會向zookeeper注冊自己的節(jié)點信息(臨時znode),同時當broker和zookeeper斷開連接時,此znode也會被刪除.

Broker Topic Registry: 當一個broker啟動時,會向zookeeper注冊自己持有的topic和partitions信息,仍然是一個臨時znode.

Consumer and Consumer group: 每個consumer客戶端被創(chuàng)建時,會向zookeeper注冊自己的信息;此作用主要是為了"負載均衡".一個group中的多個consumer可以交錯的消費一個topic的所有partitions;簡而言之,保證此topic的所有partitions都能被此group所消費,且消費時為了性能考慮,讓partition相對均衡的分散到每個consumer上.

Consumer id Registry: 每個consumer都有一個唯一的ID(host:uuid,可以通過配置文件指定,也可以由系統(tǒng)生成),此id用來標記消費者信息.

Consumer offset Tracking: 用來跟蹤每個consumer目前所消費的partition中最大的offset.此znode為持久節(jié)點,可以看出offset跟group_id有關(guān),以表明當group中一個消費者失效,其他consumer可以繼續(xù)消費.

Partition Owner registry: 用來標記partition正在被哪個consumer消費.臨時znode。此節(jié)點表達了"一個partition"只能被group下一個consumer消費,同時當group下某個consumer失效,那么將會觸發(fā)負載均衡(即:讓partitions在多個consumer間均衡消費,接管那些"游離"的partitions)

當consumer啟動時,所觸發(fā)的操作:

A) 首先進行"Consumer id Registry";

B) 然后在"Consumer id Registry"節(jié)點下注冊一個watch用來監(jiān)聽當前group中其他consumer的"leave"和"join";只要此znode path下節(jié)點列表變更,都會觸發(fā)此group下consumer的負載均衡.(比如一個consumer失效,那么其他consumer接管partitions).

C) 在"Broker id registry"節(jié)點下,注冊一個watch用來監(jiān)聽broker的存活情況;如果broker列表變更,將會觸發(fā)所有的groups下的consumer重新balance.

總結(jié):

  1. Producer端使用zookeeper用來"發(fā)現(xiàn)"broker列表,以及和Topic下每個partition leader建立socket連接并發(fā)送消息.

  2. Broker端使用zookeeper用來注冊broker信息,已經(jīng)監(jiān)測partition leader存活性.

  3. Consumer端使用zookeeper用來注冊consumer信息,其中包括consumer消費的partition列表等,同時也用來發(fā)現(xiàn)broker列表,并和partition leader建立socket連接,并獲取消息。

7.副本管理

Kafka盡量的使所有分區(qū)均勻的分布到集群所有的節(jié)點上而不是集中在某些節(jié)點上,另外主從關(guān)系也盡量均衡這樣每個幾點都會擔任一定比例的分區(qū)的leader.

優(yōu)化leader的選擇過程也是很重要的,它決定了系統(tǒng)發(fā)生故障時的空窗期有多久。Kafka選擇一個節(jié)點作為“controller”,當發(fā)現(xiàn)有節(jié)點down掉的時候它負責在分區(qū)的所有節(jié)點中選擇新的leader,這使得Kafka可以批量的高效的管理所有分區(qū)節(jié)點的主從關(guān)系。如果controller down掉了,活著的節(jié)點中的一個會備切換為新的controller.

8.Leader與副本同步

創(chuàng)建副本的單位是topic的分區(qū),每個分區(qū)都有一個leader和零或多個followers.所有的讀寫操作都由leader處理,一般分區(qū)的數(shù)量都比broker的數(shù)量多的多,各分區(qū)的leader均勻的分布在brokers中。所有的followers都復制leader的日志,日志中的消息和順序都和leader中的一致。followers向普通的consumer那樣從leader那里拉取消息并保存在自己的日志文件中。

許多分布式的消息系統(tǒng)自動的處理失敗的請求,它們對一個節(jié)點是否著(alive)”有著清晰的定義。Kafka判斷一個節(jié)點是否活著有兩個條件:

  1. 節(jié)點必須可以維護和ZooKeeper的連接,Zookeeper通過心跳機制檢查每個節(jié)點的連接。

  2. 如果節(jié)點是個follower,他必須能及時的同步leader的寫操作,延時不能太久。

符合以上條件的節(jié)點準確的說應該是“同步中的(in sync)”,而不是模糊的說是“活著的”或是“失敗的”。Leader會追蹤所有“同步中”的節(jié)點,一旦一個down掉了,或是卡住了,或是延時太久,leader就會把它移除。至于延時多久算是“太久”,是由參數(shù)replica.lag.max.messages決定的,怎樣算是卡住了,怎是由參數(shù)replica.lag.time.max.ms決定的。

四、版本比較

(一)、0.8.x vs 0.9

1.安全

Kafka提供了三個安全特性。

一是提供Kerberos 和 TLS 身份認證。

二是提供了類似Unix-like權(quán)限系統(tǒng),控制哪些用戶可以訪問數(shù)據(jù)。

三是提供數(shù)據(jù)傳輸加密。

當然只有新的producer,consumer API和0.9的consumer實現(xiàn)才能使用這些安全特性。老的API還是沒有這些安全方面的控制。

這些安全特性實現(xiàn)了向下兼容的方式,不啟動安全特性的用戶不必擔心性能的降低。

這只是第一版的安全特性,更多的安全控制會在將來的版本中提供。

2.新的Consumer

Kafka 0.8.2, Producer被重新設(shè)計, Kafka 0.9則重新設(shè)計了Consumer接口。它不再區(qū)分high-level consumer API和low-level consumer API,而是提供了一個統(tǒng)一的consumer API。

1)Kafka可以自行維護Offset、消費者的Position。也可以開發(fā)者自己來維護Offset,實現(xiàn)相關(guān)的業(yè)務(wù)需求。消費時,可以只消費指定的Partitions

2).可以使用外部存儲記錄Offset,如數(shù)據(jù)庫之類的。

3).自行控制Consumer消費消息的位置。

4).可以使用多線程進行消費。

3.為用戶定義配額

一個大的Kafka集群可能有多個用戶。0.9以前,consumer 如果處理的消息非???,可能會壟斷整個broker的網(wǎng)絡(luò)資源,producer也是如此。現(xiàn)在Kafka 0.9提供了基于client的用戶配額控制。對于Producer可以控制每個client的每秒寫的字節(jié)數(shù),對于Consumer控制每個 client的每秒讀的字節(jié)。

(二)、0.9 vs 0.10

1.Kafka Streams

Kafka Streams包含了一整套描述常見流操作的高級語言API(比如 joining, filtering以及aggregating records),這使得開發(fā)者可以快速開發(fā)強大的流處理應用程序。Kafka Streams提供了狀態(tài)和無狀態(tài)的處理能力,并且可以部署在很多系統(tǒng)之上。

2.Connectors連接狀態(tài)/控制的REST API

在Kafka 0.10.0.0中,Kafka Connect得到了持續(xù)提升。

在此之前,用戶需要監(jiān)控日志以便看到各個connectors以及他們task的狀態(tài),現(xiàn)在Kafka已經(jīng)支持了獲取的狀態(tài)API這樣使得監(jiān)控變得更簡單。

同時也添加了控制相關(guān)的API,這使得用戶可以在進行維護的時候停止一個connector;或者手動地重啟那些失敗的task。這些能夠直觀的在用戶界面展示和管理connector目前可以在控制中心(Control Center)看到。

3.SASL改進

新的安全特性,包括通過SASL支持Kerberos。Apache Kafka 0.10.0.0現(xiàn)在支持更多的SASL特性,包括外部授權(quán)服務(wù)器,在一臺服務(wù)器上支持多種類型的SASL認證以及其他的改進。

4.Rack Awareness

現(xiàn)在Kafka已經(jīng)內(nèi)置了機架感知以便隔離副本,這使得Kafka保證副本可以跨越到多個機架或者是可用區(qū)域,顯著提高了Kafka的彈性和可用性。這個功能是由Netflix提供的。

5.Kafka Consumer Max Records

在Kafka 0.9.0.0,開發(fā)者們在新consumer上使用poll()函數(shù)的時候是幾乎無法控制返回消息的條數(shù)。不過值得高興的是,此版本的Kafka引入了max.poll.records參數(shù),允許開發(fā)者控制返回消息的條數(shù)。

6.協(xié)議版本改進

Kafka brokers現(xiàn)在支持返回所有支持的協(xié)議版本的請求API,這個特點的好處就是以后將允許一個客戶端支持多個broker版本。

到此,關(guān)于“kafka的特點和組件”的學習就結(jié)束了,希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學習,快去試試吧!若想繼續(xù)學習更多相關(guān)知識,請繼續(xù)關(guān)注創(chuàng)新互聯(lián)網(wǎng)站,小編會繼續(xù)努力為大家?guī)砀鄬嵱玫奈恼拢?/p>
分享標題:kafka的特點和組件
瀏覽路徑:http://weahome.cn/article/gcppci.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部