我們知道,大數(shù)據(jù)的計算模式主要分為批量計算(batch computing)、流式計算(stream computing)、交互計算(interactive computing)、圖計算(graph computing)等。其中,流式計算和批量計算是兩種主要的大數(shù)據(jù)計算模式,分別適用于不同的大數(shù)據(jù)應用場景。
在碾子山等地區(qū),都構建了全面的區(qū)域性戰(zhàn)略布局,加強發(fā)展的系統(tǒng)性、市場前瞻性、產品創(chuàng)新能力,以專注、極致的服務理念,為客戶提供成都網站制作、做網站 網站設計制作按需策劃設計,公司網站建設,企業(yè)網站建設,品牌網站建設,成都全網營銷推廣,外貿營銷網站建設,碾子山網站建設費用合理。目前主流的流式計算框架有Storm、Spark Streaming、Flink三種,其基本原理如下:
在Storm中,需要先設計一個實時計算結構,我們稱之為拓撲(topology)。之后,這個拓撲結構會被提交給集群,其中主節(jié)點(master node)負責給工作節(jié)點(worker node)分配代碼,工作節(jié)點負責執(zhí)行代碼。在一個拓撲結構中,包含spout和bolt兩種角色。數(shù)據(jù)在spouts之間傳遞,這些spouts將數(shù)據(jù)流以tuple元組的形式發(fā)送;而bolt則負責轉換數(shù)據(jù)流。
Spark Streaming,即核心Spark API的擴展,不像Storm那樣一次處理一個數(shù)據(jù)流。相反,它在處理數(shù)據(jù)流之前,會按照時間間隔對數(shù)據(jù)流進行分段切分。Spark針對連續(xù)數(shù)據(jù)流的抽象,我們稱為DStream(Discretized Stream)。 DStream是小批處理的RDD(彈性分布式數(shù)據(jù)集), RDD則是分布式數(shù)據(jù)集,可以通過任意函數(shù)和滑動數(shù)據(jù)窗口(窗口計算)進行轉換,實現(xiàn)并行操作。
針對流數(shù)據(jù)+批數(shù)據(jù)的計算框架。把批數(shù)據(jù)看作流數(shù)據(jù)的一種特例,延遲性較低(毫秒級),且能夠保證消息傳輸不丟失不重復。
Flink創(chuàng)造性地統(tǒng)一了流處理和批處理,作為流處理看待時輸入數(shù)據(jù)流是**的,而批處理被作為一種特殊的流處理,只是它的輸入數(shù)據(jù)流被定義為有界的。Flink程序由Stream和Transformation這兩個基本構建塊組成,其中Stream是一個中間結果數(shù)據(jù),而Transformation是一個操作,它對一個或多個輸入Stream進行計算處理,輸出一個或多個結果Stream。
這三種計算框架的對比如下:
參考文章:
Streaming Big Data: Storm, Spark and Samza
另外有需要云服務器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內外云服務器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務器、裸金屬服務器、高防服務器、香港服務器、美國服務器、虛擬主機、免備案服務器”等云主機租用服務以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應用場景需求。