這篇文章主要介紹Flink中有界數據與無界數據的示例分析,文中介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們一定要看完!
創(chuàng)新互聯公司專注于靖遠網站建設服務及定制,我們擁有豐富的企業(yè)做網站經驗。 熱誠為您提供靖遠營銷型網站建設,靖遠網站制作、靖遠網頁設計、靖遠網站官網定制、微信小程序定制開發(fā)服務,打造靖遠網絡公司原創(chuàng)品牌,更為您提供靖遠網站排名全網營銷落地服務。有界數據集有界數據集對開發(fā)者來說都很熟悉,在常規(guī)的處理中我們都會從Mysql,文本等獲取數據進行計算分析。我們在處理此類數據時,特點就是數據是靜止不動的。也就是說,沒有再進行追加。又或者說再處理的當時時刻不考慮追加寫入操作。所以有界數據集又或者說是有時間邊界。在某個時間內的結果進行計算。那么這種計算稱之為批計算,批處理。Batch Processing
例如:計算當前訂單量。又或者是把當前mysql的數據讀取到文件中等。
無界數據集對于某些場景,類似于Kafka持續(xù)的計算等都被認定為無界數據集,無界數據集是會發(fā)生持續(xù)變更的、連續(xù)追加的。例如:服務器信令、網絡傳輸流、實時日志信息等。對于此類持續(xù)變更、追加的數據的計算方式稱之為流計算。Streaming Processing
場景比較無界數據集與有界數據集有點類似于池塘和江河,我們在計算池塘中的魚的數量時只需要把池塘中當前所有的魚都計算一次就可以了。那么當前時刻,池塘中有多少條魚就是結果。無界數據集類似于江河中的魚,在奔流到海的過程中每時每刻都會有魚流過而進入大海。那么計算魚的數量就像是持續(xù)追加的。
有界數據集與無界數據集是一個相對模糊的概念,如果數據一條一條的經過處理引擎那么則可以認為是無界的,那么如果每間隔一分鐘、一小時、一天進行一次計算那么則認為這一段時間的數據又相對是有界的。有界的數據又可以把數據一條一條的通過計算引擎,造成無界的數據集。所以,有界數據集與無界數據集可以存在互換的。因此業(yè)內也就開始追尋 批流統(tǒng)一 的框架。
能夠同時實現批處理與流處理的框架有Apache Spark和Apache Flink,而Apache Spark的流處理場景是一個微批場景,也就是它會在特定的時間間隔發(fā)起一次計算。而不是每條都會觸發(fā)計算。也就是相當于把無界數據集切分為小量的有界數據。
Apache Flink基于有界數據集與無界數據集的特點,最終將批處理與流處理混合到同一套引擎當中,用戶使用Apache Flink引擎能夠同時實現批處理與流處理任務。
以上是“Flink中有界數據與無界數據的示例分析”這篇文章的所有內容,感謝各位的閱讀!希望分享的內容對大家有幫助,更多相關知識,歡迎關注創(chuàng)新互聯行業(yè)資訊頻道!