真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網站制作重慶分公司

探尋流式計算-創(chuàng)新互聯(lián)

一、靜態(tài)數(shù)據(jù)和流數(shù)據(jù)

靜態(tài)數(shù)據(jù):為了支持決策分析而構建的數(shù)據(jù)倉庫系統(tǒng),其中存放的大量歷史數(shù)據(jù)就是靜態(tài)數(shù)據(jù)。

成都創(chuàng)新互聯(lián)專注為客戶提供全方位的互聯(lián)網綜合服務,包含不限于成都做網站、網站建設、瑞安網絡推廣、成都微信小程序、瑞安網絡營銷、瑞安企業(yè)策劃、瑞安品牌公關、搜索引擎seo、人物專訪、企業(yè)宣傳片、企業(yè)代運營等,從售前售中售后,我們都將竭誠為您服務,您的肯定,是我們大的嘉獎;成都創(chuàng)新互聯(lián)為所有大學生創(chuàng)業(yè)者提供瑞安建站搭建服務,24小時服務熱線:18980820575,官方網址:www.cdcxhl.com

流數(shù)據(jù):以大量、快速、時變的流形式持續(xù)到達的數(shù)據(jù)。(例如:實時產生的日志、用戶實時交易信息)

流數(shù)據(jù)具有以下特點:

(1)、數(shù)據(jù)快速持續(xù)到達,潛在大小也許是無窮無盡的。 (2)、數(shù)據(jù)來源眾多,格式復雜。 (3)、數(shù)據(jù)量大,但是不十分關注存儲,一旦經過處理,要么被丟棄,要么被歸檔存儲(存儲于數(shù)據(jù)倉庫)。 (4)、注重數(shù)據(jù)的整體價值,不過分關注個別數(shù)據(jù)。 (5)、數(shù)據(jù)順序顛倒,或者不完整,系統(tǒng)無法控制將要處理的新到達的數(shù)據(jù)元素的順序。

在傳統(tǒng)的數(shù)據(jù)處理流程中,總是先收集數(shù)據(jù),然后將數(shù)據(jù)放到DB中。然后對DB中的數(shù)據(jù)進行處理。

流計算:為了實現(xiàn)數(shù)據(jù)的時效性,實時消費獲取的數(shù)據(jù)。

二、批量計算和流計算

批量計算:充裕時間處理靜態(tài)數(shù)據(jù),如Hadoop。實時性要求不高。

流計算:實時獲取來自不同數(shù)據(jù)源的海量數(shù)據(jù),經過實時分析處理,獲得有價值的信息(實時、多數(shù)據(jù)結構、海量)。

流計算秉承一個基本理念,即數(shù)據(jù)的價值隨著時間的流逝而降低,如用戶點擊流。因此,當事件出現(xiàn)時就應該立即進行處理,而不是緩存起來進行批量處理。流數(shù)據(jù)數(shù)據(jù)格式復雜、來源眾多、數(shù)據(jù)量巨大,不適合采用批量計算,必須采用實時計算,響應時間為秒級,實時性要求高。批量計算關注吞吐量,流計算關注實時性。

流計算的特點:

1、實時(realtime)且***(unbounded)的數(shù)據(jù)流。流計算面對計算的 是實時且流式的,流數(shù)據(jù)是按照時間發(fā)生順序地被流計算訂閱和消費。且由于數(shù)據(jù)發(fā)生的持續(xù)性,數(shù)據(jù)流將長久且持續(xù)地集成進入流計算系統(tǒng)。例如,對于網站的訪問點擊日志流,只要網站不關閉其點擊日志流將一直不停產生并進入流計算系統(tǒng)。因此,對于流系統(tǒng)而言,數(shù)據(jù)是實時且不終止(***)的。

2、持續(xù)(continuos)且高效的計算。流計算是一種”事件觸發(fā)”的計算模式,觸發(fā)源就是上述的***流式數(shù)據(jù)。一旦有新的流數(shù)據(jù)進入流計算,流計算立刻發(fā)起并進行一次計算任務,因此整個流計算是持續(xù)進行的計算。

3、流式(streaming)且實時的數(shù)據(jù)集成。流數(shù)據(jù)觸發(fā)一次流計算的計算結果,可以被直接寫入目的數(shù)據(jù)存儲,例如將計算后的報表數(shù)據(jù)直接寫入RDS進行報表展示。因此流數(shù)據(jù)的計算結果可以類似流式數(shù)據(jù)一樣持續(xù)寫入目的數(shù)據(jù)存儲。

三、流計算框架

為了及時處理流數(shù)據(jù),就需要一個低延遲、可擴展、高可靠的處理引擎。對于一個流計算系統(tǒng)來說,它應達到如下需求:

  • 高性能:處理大數(shù)據(jù)的基本要求,如每秒處理幾十萬條數(shù)據(jù)。

  • 海量式:支持TB級甚至是PB級的數(shù)據(jù)規(guī)模。

  • 實時性:保證較低的延遲時間,達到秒級別,甚至是毫秒級別。

  • 分布式:支持大數(shù)據(jù)的基本架構,必須能夠平滑擴展。

  • 易用性:能夠快速進行開發(fā)和部署。

  • 可靠性:能可靠地處理流數(shù)據(jù)。

目前有三類常見的流計算框架和平臺:商業(yè)級的流計算平臺、開源流計算框架、公司為支持自身業(yè)務開發(fā)的流計算框架。

(1)商業(yè)級: InfoSphere Streams(IBM)和StreamBase(IBM)。

(2)開源流計算框架,代表如下:Storm(Twitter)、 S4(Yahoo)。

(3)公司為支持自身業(yè)務開發(fā)的流計算框架:Puma(Facebook)、Dstream(百度)、銀河流數(shù)據(jù)處理平臺(淘寶)。

四、流計算框架Storm

Storm是Twitter開源的分布式實時大數(shù)據(jù)處理框架,隨著流計算的應用日趨廣泛, Storm的知名度和作用日益提高。接下來介紹Storm的核心組件以及性能對比。

Storm的核心組件

  • Nimbus:即Storm的Master,負責資源分配和任務調度。一個Storm集群只有一個Nimbus。

  • Supervisor:即Storm的Slave,負責接收Nimbus分配的任務,管理所有Worker,一個Supervisor節(jié)點中包含多個Worker進程。

  • Worker:工作進程,每個工作進程中都有多個Task。

  • Task:任務,在 Storm 集群中每個 Spout 和 Bolt 都由若干個任務(tasks)來執(zhí)行。每個任務都與一個執(zhí)行線程相對應。

  • Topology:計算拓撲,Storm 的拓撲是對實時計算應用邏輯的封裝,它的作用與 MapReduce 的任務(Job)很相似,區(qū)別在于 MapReduce 的一個 Job 在得到結果之后總會結束,而拓撲會一直在集群中運行,直到你手動去終止它。拓撲還可以理解成由一系列通過數(shù)據(jù)流(Stream Grouping)相互關聯(lián)的 Spout 和 Bolt 組成的的拓撲結構。

  • Stream:數(shù)據(jù)流(Streams)是 Storm 中最核心的抽象概念。一個數(shù)據(jù)流指的是在分布式環(huán)境中并行創(chuàng)建、處理的一組元組(tuple)的***序列。數(shù)據(jù)流可以由一種能夠表述數(shù)據(jù)流中元組的域(fields)的模式來定義。

  • Spout:數(shù)據(jù)源(Spout)是拓撲中數(shù)據(jù)流的來源。一般 Spout 會從一個外部的數(shù)據(jù)源讀取元組然后將他們發(fā)送到拓撲中。根據(jù)需求的不同,Spout 既可以定義為可靠的數(shù)據(jù)源,也可以定義為不可靠的數(shù)據(jù)源。一個可靠的 Spout能夠在它發(fā)送的元組處理失敗時重新發(fā)送該元組,以確保所有的元組都能得到正確的處理;相對應的,不可靠的 Spout 就不會在元組發(fā)送之后對元組進行任何其他的處理。一個 Spout可以發(fā)送多個數(shù)據(jù)流。

  • Bolt:拓撲中所有的數(shù)據(jù)處理均是由 Bolt 完成的。通過數(shù)據(jù)過濾(filtering)、函數(shù)處理(functions)、聚合(aggregations)、聯(lián)結(joins)、數(shù)據(jù)庫交互等功能,Bolt 幾乎能夠完成任何一種數(shù)據(jù)處理需求。一個 Bolt 可以實現(xiàn)簡單的數(shù)據(jù)流轉換,而更復雜的數(shù)據(jù)流變換通常需要使用多個 Bolt 并通過多個步驟完成。

  • Stream grouping:為拓撲中的每個 Bolt 的確定輸入數(shù)據(jù)流是定義一個拓撲的重要環(huán)節(jié)。數(shù)據(jù)流分組定義了在 Bolt 的不同任務(tasks)中劃分數(shù)據(jù)流的方式。在 Storm 中有八種內置的數(shù)據(jù)流分組方式。

  • Reliability:可靠性。Storm 可以通過拓撲來確保每個發(fā)送的元組都能得到正確處理。通過跟蹤由 Spout 發(fā)出的每個元組構成的元組樹可以確定元組是否已經完成處理。每個拓撲都有一個“消息延時”參數(shù),如果 Storm 在延時時間內沒有檢測到元組是否處理完成,就會將該元組標記為處理失敗,并會在稍后重新發(fā)送該元組。??

探尋流式計算

(圖1:Storm核心組件)鄭州不孕不育醫(yī)院哪好:http://wapyyk.39.net/zz3/zonghe/1d427.html

探尋流式計算

(圖2:Storm編程模型)

主流計算引擎的對比

目前比較流行的實時處理引擎有 Storm,Spark Streaming,F(xiàn)link。每個引擎都有各自的特點和應用場景。 下表是對這三個引擎的簡單對比。

探尋流式計算

(圖3:主流引擎性能對比)

總結:流計算的出現(xiàn)拓寬了我們應對復雜實時計算需求能力。Storm作為流計算的利器,極大方便了我們的應用。流計算引擎還在不斷發(fā)展,基于Storm和Flink開發(fā)的JStorm,Blink等計算引擎在性能各方面都有極大的提高。流計算值得我們繼續(xù)關注。http://www.360doc.com/showweb/0/0/860282418.aspx

另外有需要云服務器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內外云服務器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務器、裸金屬服務器、高防服務器、香港服務器、美國服務器、虛擬主機、免備案服務器”等云主機租用服務以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應用場景需求。


網站標題:探尋流式計算-創(chuàng)新互聯(lián)
網站網址:http://weahome.cn/article/deggdd.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部