這期內(nèi)容當(dāng)中小編將會(huì)給大家?guī)?lái)有關(guān)Pulsar該如何使用,文章內(nèi)容豐富且以專業(yè)的角度為大家分析和敘述,閱讀完這篇文章希望大家可以有所收獲。
創(chuàng)新互聯(lián)主要從事網(wǎng)站建設(shè)、網(wǎng)站制作、網(wǎng)頁(yè)設(shè)計(jì)、企業(yè)做網(wǎng)站、公司建網(wǎng)站等業(yè)務(wù)。立足成都服務(wù)文成,10余年網(wǎng)站建設(shè)經(jīng)驗(yàn),價(jià)格優(yōu)惠、服務(wù)專業(yè),歡迎來(lái)電咨詢建站服務(wù):13518219792
作為 Apache Spark 和 Apache Kafka 的忠實(shí)用戶,我認(rèn)為自己對(duì)流處理非常了解。這種認(rèn)為自己足夠了解某一技術(shù)的想法對(duì)于開(kāi)發(fā)人員而言是很危險(xiǎn)的,因?yàn)樗鼤?huì)阻礙你成長(zhǎng),阻礙你真正掌控知識(shí)并激發(fā)自身潛力。
當(dāng)我有這種感覺(jué)時(shí),我發(fā)現(xiàn)多與別人溝通、閱讀博客文章、夯實(shí)并擴(kuò)展我的個(gè)人技能非常重要。我決定研究一種不同的流技術(shù),可以在其中進(jìn)行簡(jiǎn)單快速的開(kāi)發(fā)。因此,我選擇了 Apache Pulsar。
>>> 高級(jí)技術(shù)討論 <<<
Apache Pulsar 是基于發(fā)布-訂閱模式構(gòu)建的,與其他流式服務(wù)(例如,Kafka、Storm)非常相似。但是,與大數(shù)據(jù)生態(tài)系統(tǒng)中現(xiàn)有的一些流技術(shù)相比,Apache Pulsar 具有某些獨(dú)特的優(yōu)勢(shì),其中之一是它的服務(wù)層和存儲(chǔ)層是分離的。下文我將簡(jiǎn)要介紹 Apache Pulsar。
圖來(lái)自 Apache Pulsar Documentation
為什么存儲(chǔ)層和服務(wù)層分離很重要呢?因?yàn)樵谶@種情況下,我們可以按需擴(kuò)展。如果需要使用 CDC(Change Data Capture)抓取數(shù)據(jù)庫(kù)的歷史變更數(shù)據(jù),而需要更多存儲(chǔ)空間怎么辦?可以試試縮減用于為流處理提供服務(wù)的計(jì)算,并添加更多的存儲(chǔ)。
需要更多的處理和更少的存儲(chǔ)該怎么辦?不妨試試將更多的節(jié)點(diǎn)用于處理速度較高的流數(shù)據(jù),而使用較少的節(jié)點(diǎn)來(lái)存儲(chǔ)數(shù)據(jù)。
以上列出的消息系統(tǒng)一般會(huì)將處理和存儲(chǔ)放在同一個(gè)集群中,但 Apache Pulsar 并非如此。因?yàn)榉?wù)層和持久層是分離的,所以 Apache Pulsar 可以在保證服務(wù)的同時(shí)擴(kuò)展存儲(chǔ)。這提供了一個(gè)高性價(jià)比的容量規(guī)劃模型。這一設(shè)計(jì)可以總結(jié)為:
在需要支持更多的 consumer 或 producer 時(shí),只需添加更多的 broker。
Pulsar 的另一個(gè)優(yōu)點(diǎn)是零平衡時(shí)間(Zero Rebalancing Time)特性。由于 Pulsars 本身獨(dú)特的分層架構(gòu)和 broker 是無(wú)狀態(tài)的,因此如果集群中有一個(gè)節(jié)點(diǎn)可用,它就能立即用于讀寫操作。
提供給節(jié)點(diǎn)的新數(shù)據(jù)將自動(dòng)開(kāi)始寫入新的 bookies。Bookie 只允許將數(shù)據(jù)持久化到磁盤上的日志文件中。即使所有服務(wù)器都關(guān)閉了,并且存在多個(gè)磁盤故障,消息也不會(huì)丟失。相反,對(duì)于 Kafka 而言,如果消息在集群中所有節(jié)點(diǎn)上的 RAM 中,則當(dāng)前消息可能會(huì)丟失。
如需更深入且詳細(xì)地了解 Pulsar 的架構(gòu),參閱:
????https://streamnative.io/blog/tech/2019-12-10-design-for-streaming/
>>> 代碼 <<<
我們?cè)撛鯓邮褂?Pulsar 呢?首先,需要在docker 中啟動(dòng)一個(gè)實(shí)例。代碼如下圖所示。
開(kāi)始之前先來(lái)考慮一下我 consume 什么數(shù)據(jù)呢?Twitter 的 API 看起來(lái)不錯(cuò),那就使用 docker build 來(lái) consume 這些數(shù)據(jù)吧。這些數(shù)據(jù)幾乎是實(shí)時(shí)數(shù)據(jù),我相信這很適合用于示例。
現(xiàn)在,我將通過(guò) API 讀取 Twitter 數(shù)據(jù),并持久化到 Pulsar 中。當(dāng)我嘗試消費(fèi)實(shí)時(shí)數(shù)據(jù)(實(shí)時(shí)數(shù)據(jù)由最大的數(shù)據(jù)生成器產(chǎn)生)時(shí),我發(fā)現(xiàn)情況更加復(fù)雜了。如果需要,我可以從其流中過(guò)濾出我想看到的有趣的推文。這一步,我決定過(guò)濾有關(guān) Hashmap、Snowflake、Data Engineering 的一些信息。
上述就是小編為大家分享的Pulsar該如何使用了,如果剛好有類似的疑惑,不妨參照上述分析進(jìn)行理解。如果想知道更多相關(guān)知識(shí),歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。