具體來說,本文包括以下內(nèi)容:
網(wǎng)站的建設(shè)創(chuàng)新互聯(lián)建站專注網(wǎng)站定制,經(jīng)驗(yàn)豐富,不做模板,主營網(wǎng)站定制開發(fā).小程序定制開發(fā),H5頁面制作!給你煥然一新的設(shè)計(jì)體驗(yàn)!已為攪拌罐車等企業(yè)提供專業(yè)服務(wù)。
事務(wù)
查詢性能
用戶和查詢沖突
容量
配置
NoSQL 數(shù)據(jù)庫
事務(wù)
事務(wù)可以觀察真實(shí)用戶的行為:能夠在應(yīng)用交互時(shí)捕獲實(shí)時(shí)性能。眾所周知,測量事務(wù)的性能包括獲取整個(gè)事務(wù)的響應(yīng)時(shí)間和組成事務(wù)的各個(gè)部分的響應(yīng)時(shí)間。通常我們可以用這些響應(yīng)時(shí)間與滿足事務(wù)需求的基線對比,來確定當(dāng)前事務(wù)是否處于正常狀態(tài)。
如果你只想衡量應(yīng)用的某個(gè)方面,那么可以評估事務(wù)的行為。所以,盡管容器指標(biāo)能夠提供更豐富的信息,并且?guī)椭銢Q定何時(shí)對當(dāng)前環(huán)境進(jìn)行自動測量,但你的事務(wù)就足以確定應(yīng)用性能。無需向應(yīng)用程序服務(wù)器獲取 CPU 的使用情況,你更應(yīng)該關(guān)心用戶是否完成了事務(wù),以及該事務(wù)是否得到了優(yōu)化。
補(bǔ)充一個(gè)小知識點(diǎn),事務(wù)是由入口點(diǎn)決定的,通過該入口點(diǎn)可以啟動事務(wù)與應(yīng)用進(jìn)行交互。
一旦定義了事務(wù),會在整個(gè)應(yīng)用生態(tài)系統(tǒng)中對其性能進(jìn)行測量,并將每個(gè)事務(wù)與基線進(jìn)行比對。例如,我們可能會決定當(dāng)事務(wù)的響應(yīng)時(shí)間與基線相比,一旦慢于平均響應(yīng)時(shí)間的兩個(gè)標(biāo)準(zhǔn)差是否就應(yīng)該判定為異常,如圖1所示。
圖1-基于基線評估當(dāng)前事務(wù)響應(yīng)時(shí)間
用于評估事務(wù)的基線與正在進(jìn)行的事務(wù)活動在時(shí)間上是一致的,但事務(wù)會由每個(gè)事務(wù)執(zhí)行來完善。例如,當(dāng)你選定一個(gè)基線,在當(dāng)前事務(wù)結(jié)束之后,將事務(wù)與平均響應(yīng)時(shí)間按每天的小時(shí)數(shù)和每周的天數(shù)進(jìn)行對比,所有在那段時(shí)間內(nèi)執(zhí)行的事務(wù)都將會被納入下周的基線中。通過這種機(jī)制,應(yīng)用程序可以隨時(shí)間而變化,而無需每次都重建原始基線;你可以將其看作是一個(gè)隨時(shí)間移動的窗口。
總之,事務(wù)最能反映用戶體驗(yàn)的測量方法,所以也是衡量性能狀況最重要的指標(biāo)。
查詢性能?
最容易檢測到查詢性能是否正常的指標(biāo)就是查詢本身。由查詢引起的問題可能會導(dǎo)致時(shí)間太長而無法識別所需數(shù)據(jù)或返回?cái)?shù)據(jù)。所以不妨在查詢中排查以下問題。
1. 選擇過多冗余數(shù)據(jù)
編寫查詢語句來返回適當(dāng)?shù)臄?shù)據(jù)是遠(yuǎn)遠(yuǎn)不夠的,很可能你的查詢語句會返回太多列,從而導(dǎo)致選擇行和檢索數(shù)據(jù)變得異常緩慢。所以,最好是列出所需的列,而不是直接用 SELECT*。當(dāng)需要在特定字段中查詢時(shí),該計(jì)劃可能會確定一個(gè)覆蓋索引從而加快結(jié)果返回。覆蓋索引通常會包含查詢中使用的所有字段。這意味著數(shù)據(jù)庫可以僅從索引中產(chǎn)生結(jié)果,而不需要通過底層表來構(gòu)建。
另外,列出結(jié)果中所需的列不僅可以減少傳輸?shù)臄?shù)據(jù),還能進(jìn)一步提高性能。
2. 表之間的低效聯(lián)接
聯(lián)接會導(dǎo)致數(shù)據(jù)庫將多組數(shù)據(jù)帶到內(nèi)存中進(jìn)行比較,這會產(chǎn)生多個(gè)數(shù)據(jù)庫讀取和大量 CPU。根據(jù)表的索引,聯(lián)接還可能需要掃描兩個(gè)表的所有行。如果寫不好兩個(gè)大型表之間的聯(lián)接,就需要對每個(gè)表進(jìn)行完整掃描,這樣的計(jì)算量將會非常大。其他會拖慢聯(lián)接的因素包括聯(lián)接列之間存在不同的數(shù)據(jù)類型、需要轉(zhuǎn)換或加入包含 LIKE 的條件,這樣就會阻止使用索引。另外,還需注意避免使用全外聯(lián)接;在恰當(dāng)?shù)臅r(shí)候使用內(nèi)部聯(lián)接只返回所需數(shù)據(jù)。
3. 索引過多或過少
如果查詢優(yōu)化沒有可用的索引時(shí),數(shù)據(jù)庫會重新掃描表來產(chǎn)生查詢結(jié)果,這個(gè)過程會生成大量的磁盤輸入/輸出(I/O)。適當(dāng)?shù)乃饕梢詼p少排序結(jié)果的需要。雖然非唯一值的索引在生成結(jié)果時(shí),不能像唯一索引那樣方便。如果鍵越大,索引也會變大,并通過它們創(chuàng)建更多的磁盤 I/O。大多數(shù)索引是為了提高數(shù)據(jù)檢索的性能,但也需要明白索引本身也會影響數(shù)據(jù)的插入和更新,因?yàn)樗邢嚓P(guān)聯(lián)的指標(biāo)都必須更新。
4. 太多的SQL導(dǎo)致爭用解析資源
任何 SQL 查詢在執(zhí)行之前都必須被解析,在生成執(zhí)行計(jì)劃之前需要對語法和權(quán)限進(jìn)行檢查。由于解析非常耗時(shí),數(shù)據(jù)庫會保存已解析的 SQL 來重復(fù)利用,從而減少解析的耗時(shí)。因?yàn)?WHERE 語句不同,所以使用文本值的查詢語句不能被共享。這將導(dǎo)致每個(gè)查詢都會被解析并添加到共享池中,由于池的空間有限,一些已保存的查詢會被舍棄。當(dāng)這些查詢再次出現(xiàn)時(shí),則需要重新解析。
用戶和查詢沖突?
數(shù)據(jù)庫支持多用戶,但多用戶活動也可能造成沖突。
1. 由慢查詢導(dǎo)致的頁/行鎖定
為了確保查詢產(chǎn)生精確的結(jié)果,數(shù)據(jù)庫必須鎖定表以防止在運(yùn)行讀取查詢時(shí)再發(fā)生其他的插入和更新行為。如果報(bào)告或查詢相當(dāng)緩慢,需要修改值的用戶可能需要等待至更新完成。鎖提示能幫助數(shù)據(jù)庫使用最小破壞性的鎖。從事務(wù)數(shù)據(jù)庫中分離報(bào)表也是一種可靠的解決方法。
2. 事務(wù)鎖和死鎖
當(dāng)兩個(gè)事務(wù)被阻塞時(shí)會出現(xiàn)死鎖,因?yàn)槊恳粋€(gè)都需要使用被另一個(gè)占用的資源。當(dāng)出現(xiàn)一個(gè)普通鎖時(shí),事務(wù)會被阻塞直到資源被釋放。但卻沒有解決死鎖的方案。數(shù)據(jù)庫會監(jiān)控死鎖并選擇終止其中一個(gè)事務(wù),釋放資源并允許該事務(wù)繼續(xù)進(jìn)行,而另一個(gè)事務(wù)則回滾。
3. 批處理操作造成資源爭奪
批處理過程通常會執(zhí)行批量操作,如大量的數(shù)據(jù)加載或生成復(fù)雜的分析報(bào)告。這些操作是資源密集型的,但可能影響在線用戶的訪問應(yīng)用的性能。針對此問題最好的解決辦法是確保批處理在系統(tǒng)使用率較低時(shí)運(yùn)行,比如晚上,或用單獨(dú)的數(shù)據(jù)庫進(jìn)行事務(wù)處理和分析報(bào)告。
容量?
并不是所有的數(shù)據(jù)庫性能問題都是數(shù)據(jù)庫問題。有些問題也是硬件不合適造成的。
1. CPU 不足或 CPU 速度太慢
更多 CPU 可以分擔(dān)服務(wù)器負(fù)載,進(jìn)一步提高性能。數(shù)據(jù)庫的性能不僅是數(shù)據(jù)庫的原因,還受到服務(wù)器上運(yùn)行其他進(jìn)程的影響。因此,對數(shù)據(jù)庫負(fù)載及使用進(jìn)行審查也是必不可少的。由于 CPU 的利用率時(shí)時(shí)在變,在低使用率、平均使用率和峰值使用率的時(shí)間段分別檢查該指標(biāo)可以更好地評估增加額外的 CPU 資源是否有益。
2. IOPS 不足的慢磁盤
磁盤性能通常以每秒輸入/輸出操作(IOPS)來計(jì)。結(jié)合 I/O 大小,該指標(biāo)可以衡量每秒的磁盤吞吐量是多少兆。同時(shí),吞吐量也受磁盤的延遲影響,比如需要多久才能完成請求,這些指標(biāo)主要是針對磁盤存儲技術(shù)而言。傳統(tǒng)的硬盤驅(qū)動器(HDD)有一個(gè)旋轉(zhuǎn)磁盤,通常比固態(tài)硬盤(SSD)或閃存更慢。直到近期,SSD 雖然仍比 HDD 貴,但成本已經(jīng)降了下來,所以在市場上也更具競爭力。
3. 全部或錯(cuò)誤配置的磁盤
眾所周知,數(shù)據(jù)庫會被大量磁盤訪問,所以不正確配置的磁盤可能帶來嚴(yán)重的性能缺陷。磁盤應(yīng)該適當(dāng)分區(qū),將系統(tǒng)數(shù)據(jù)目錄和用戶數(shù)據(jù)日志分開。高度活躍的表應(yīng)該區(qū)分以避免爭用,通過在不同磁盤上存放數(shù)據(jù)庫和索引增加并行放置,但不要將操作系統(tǒng)和數(shù)據(jù)庫交換空間放置在同一磁盤上。
4. 內(nèi)存不足
有限或不恰當(dāng)?shù)奈锢韮?nèi)存分配會影響數(shù)據(jù)庫性能。通常我們認(rèn)為可用的內(nèi)存更多,性能就越好。監(jiān)控分頁和交換,在多個(gè)非繁忙磁盤中建立多頁面空間,進(jìn)一步確保分頁空間分配足夠滿足數(shù)據(jù)庫要求;每個(gè)數(shù)據(jù)庫供應(yīng)商也可以在這個(gè)問題上提供指導(dǎo)。
5. 網(wǎng)速慢
網(wǎng)絡(luò)速度會影響到如何快速檢索數(shù)據(jù)并返回給終端用戶或調(diào)用過程。使用寬帶連接到遠(yuǎn)程數(shù)據(jù)庫。在某些情況下,選擇 TCP/IP 協(xié)議而不是命名管道可顯著提高數(shù)據(jù)庫性能。
配置
每個(gè)數(shù)據(jù)庫都需設(shè)置大量的配置項(xiàng)。通常情況下,默認(rèn)值可能不足以滿足數(shù)據(jù)庫所需的性能。所以,檢查所有的參數(shù)設(shè)置,包括以下問題。
1. 緩沖區(qū)緩存太小
通過將數(shù)據(jù)存儲在內(nèi)核內(nèi)存,緩沖區(qū)緩存可以進(jìn)一步提高性能同時(shí)減少磁盤 I/O。當(dāng)緩存太小時(shí),緩存中的數(shù)據(jù)會更頻繁地刷新。如果它再次被請求,就必須從磁盤重讀。除了磁盤讀取緩慢之外,還給 I/O 設(shè)備增添了負(fù)擔(dān)從而成為瓶頸。除了給緩沖區(qū)緩存分配足夠的空間,調(diào)優(yōu) SQL 查詢可以幫助其更有效地利用緩沖區(qū)緩存。
2. 沒有查詢緩存
查詢緩存會存儲數(shù)據(jù)庫查詢和結(jié)果集。當(dāng)執(zhí)行相同的查詢時(shí),數(shù)據(jù)會在緩存中被迅速檢索,而不需要再次執(zhí)行查詢。數(shù)據(jù)會更新失效結(jié)果,所以查詢緩存是唯一有效的靜態(tài)數(shù)據(jù)。但在某些情況下,查詢緩存卻可能成為性能瓶頸。比如當(dāng)鎖定為更新時(shí),巨大的緩存可能導(dǎo)致爭用沖突。
3. 磁盤上臨時(shí)表創(chuàng)建導(dǎo)致的 I/O 爭用
在執(zhí)行特定的查詢操作時(shí),數(shù)據(jù)庫需要創(chuàng)建臨時(shí)表,如執(zhí)行一個(gè) GROUP BY 子句。如果可能,在內(nèi)存中創(chuàng)建臨時(shí)表。但是,在某些情況下,在內(nèi)存中創(chuàng)建臨時(shí)表并不可行,比如當(dāng)數(shù)據(jù)包含 BLOB 或 TEXT 對象時(shí)。在這些情況下,會在磁盤上創(chuàng)建臨時(shí)表。大量的磁盤 I / O 都需要創(chuàng)建臨時(shí)表、填充記錄、從表中選擇所需數(shù)據(jù)并在查詢完成后舍棄。為了避免影響性能,臨時(shí)數(shù)據(jù)庫應(yīng)該從主數(shù)據(jù)庫中分離出來。重寫查詢還可以通過創(chuàng)建派生表來減少對臨時(shí)表的需求。使用派生表直接從另一個(gè) SELECT 語句的結(jié)果中選擇,允許將數(shù)據(jù)加到內(nèi)存中而不是當(dāng)前磁盤上。
NoSQL 數(shù)據(jù)庫
NoSQL 的優(yōu)勢在于它處理大數(shù)據(jù)的能力非常迅速。但是在實(shí)際使用中,也應(yīng)該綜合參考 NoSQL 的缺點(diǎn),從而決定是否適合你的用例場景。這就是為什么NoSQL通常被理解為 「不僅僅是 SQL」,說明了 NoSQL 并不總是正確的解決方案,也沒必要完全取代 SQL,以下分別列舉出五大主要原因。
1. 挑剔事務(wù)
難以保持 NoSQL 條目的一致性。當(dāng)訪問結(jié)構(gòu)化數(shù)據(jù)時(shí),它并不能完全確保同一時(shí)間對不同表的更改都生效。如果某個(gè)過程發(fā)生崩潰,表可能會不一致。一致事務(wù)的典型代表是復(fù)式記賬法。相應(yīng)的信貸必須平衡每個(gè)借方,反之亦然。如果雙方數(shù)據(jù)不一致則不能輸入。NoSQL 則可能無法保證「收支平衡」。
2. 復(fù)雜數(shù)據(jù)庫
NoSQL 的支持者往往以高效代碼、簡單性和 NoSQL 的速度為傲。當(dāng)數(shù)據(jù)庫任務(wù)很簡單時(shí),所有這些因素都是優(yōu)勢。但當(dāng)數(shù)據(jù)庫變得復(fù)雜,NoSQL 會開始分解。此時(shí),SQL 則比 NoSQL 更好地處理復(fù)雜需求,因?yàn)?SQL 已經(jīng)成熟,有符合行業(yè)標(biāo)準(zhǔn)的接口。而每個(gè) NoSQL 設(shè)置都有一個(gè)唯一的接口。
3. 一致聯(lián)接
當(dāng)執(zhí)行 SQL 的聯(lián)接時(shí),由于系統(tǒng)必須從不同的表中提取數(shù)據(jù)進(jìn)行鍵對齊,所以有一個(gè)巨大的開銷。而 NoSQL 似乎是一個(gè)空想,因?yàn)槿狈β?lián)接功能。所有的數(shù)據(jù)都在同一個(gè)表的一個(gè)地方。當(dāng)檢索數(shù)據(jù)時(shí),它會同時(shí)提取所有的鍵值對。問題在于這會創(chuàng)建同一數(shù)據(jù)的多個(gè)副本。這些副本也必須更新,而這種情況下,NoSQL 沒有功能來確保更新。
4. Schema設(shè)計(jì)的靈活性
由于 NoSQL 不需要 schema,所以在某些情況下也是獨(dú)一無二的。在以前的數(shù)據(jù)庫模型中,程序員必須考慮所有需要的列能夠擴(kuò)展,能夠適應(yīng)每行的數(shù)據(jù)條目。在 NoSQL 下,條目可以有多種字符串或者完全沒有。這種靈活性允許程序員迅速增加數(shù)據(jù)。但是,也可能存在問題,比如當(dāng)有多個(gè)團(tuán)體在同一項(xiàng)目上工作時(shí),或者新的開發(fā)團(tuán)隊(duì)接手一個(gè)項(xiàng)目時(shí)。開發(fā)人員能夠自由地修改數(shù)據(jù)庫,也可能會不斷實(shí)現(xiàn)各種各樣的密鑰對。
5. 資源密集型
NoSQL 數(shù)據(jù)庫通常比關(guān)系數(shù)據(jù)庫更加資源密集。他們需要更多的 CPU 儲備和 RAM 分配。出于這個(gè)原因,大多數(shù)共享主機(jī)公司都不提供 NoSQL。你必須注冊一個(gè) VPS 或運(yùn)行自己的專用服務(wù)器。另一方面,SQL 主要是在服務(wù)器上運(yùn)行。初期的工作都很順利,但隨著數(shù)據(jù)庫需求的增加,硬件必須擴(kuò)大。單個(gè)大型服務(wù)器比多個(gè)小型服務(wù)器昂貴得多,價(jià)格呈指數(shù)增長。所以在這種企業(yè)計(jì)算場景下,使用 NoSQL 更為劃算,例如那些由谷歌和 Facebook 使用的服務(wù)器。
nosql 你可以想到就是座位號碼。
你給的是唯一碼,就能得到唯一碼對應(yīng)的相關(guān)信息。
與標(biāo)準(zhǔn)SQL不同,SQL,字段多少會左右查詢速度。
NOSQL則是以json類似的格式把全部字段用一個(gè)字符串展現(xiàn)出來。
以3億數(shù)據(jù)的表,你加上索引,查全部欄位。單個(gè)速度可能會很快。
如果多個(gè),哪怕有索引,恐怕也要幾百毫米。
而NOSQL則依次給你全部數(shù)據(jù)。你只需要程序上做出來就行。
存取速度大概小于10毫米。
不過NOSQL所占的硬盤空間,是普通SQL的好幾倍。。。。。。
首先我們要了解Java語言和Linux操作系統(tǒng),這兩個(gè)是學(xué)習(xí)大數(shù)據(jù)的基礎(chǔ),學(xué)習(xí)的順序不分前后。
Java :只要了解一些基礎(chǔ)即可,做大數(shù)據(jù)不需要很深的Java 技術(shù),學(xué)java SE 就相當(dāng)于有學(xué)習(xí)大數(shù)據(jù)?;A(chǔ)
Linux:因?yàn)榇髷?shù)據(jù)相關(guān)軟件都是在Linux上運(yùn)行的,所以Linux要學(xué)習(xí)的扎實(shí)一些,學(xué)好Linux對你快速掌握大數(shù)據(jù)相關(guān)技術(shù)會有很大的幫助,能讓你更好的理解hadoop、hive、hbase、spark等大數(shù)據(jù)軟件的運(yùn)行環(huán)境和網(wǎng)絡(luò)環(huán)境配置,能少踩很多坑,學(xué)會shell就能看懂腳本這樣能更容易理解和配置大數(shù)據(jù)集群。還能讓你對以后新出的大數(shù)據(jù)技術(shù)學(xué)習(xí)起來更快。
好·說完基礎(chǔ)了,再說說還需要學(xué)習(xí)哪些大數(shù)據(jù)技術(shù),可以按我寫的順序?qū)W下去。
Hadoop:這是現(xiàn)在流行的大數(shù)據(jù)處理平臺幾乎已經(jīng)成為大數(shù)據(jù)的代名詞,所以這個(gè)是必學(xué)的。Hadoop里面包括幾個(gè)組件HDFS、MapReduce和YARN,HDFS是存儲數(shù)據(jù)的地方就像我們電腦的硬盤一樣文件都存儲在這個(gè)上面,MapReduce是對數(shù)據(jù)進(jìn)行處理計(jì)算的,它有個(gè)特點(diǎn)就是不管多大的數(shù)據(jù)只要給它時(shí)間它就能把數(shù)據(jù)跑完,但是時(shí)間可能不是很快所以它叫數(shù)據(jù)的批處理。
記住學(xué)到這里可以作為你學(xué)大數(shù)據(jù)的一個(gè)節(jié)點(diǎn)。
Zookeeper:這是個(gè)萬金油,安裝Hadoop的HA的時(shí)候就會用到它,以后的Hbase也會用到它。它一般用來存放一些相互協(xié)作的信息,這些信息比較小一般不會超過1M,都是使用它的軟件對它有依賴,對于我們個(gè)人來講只需要把它安裝正確,讓它正常的run起來就可以了。
Mysql:我們學(xué)習(xí)完大數(shù)據(jù)的處理了,接下來學(xué)習(xí)學(xué)習(xí)小數(shù)據(jù)的處理工具mysql數(shù)據(jù)庫,因?yàn)橐粫bhive的時(shí)候要用到,mysql需要掌握到什么層度那?你能在Linux上把它安裝好,運(yùn)行起來,會配置簡單的權(quán)限,修改root的密碼,創(chuàng)建數(shù)據(jù)庫。這里主要的是學(xué)習(xí)SQL的語法,因?yàn)閔ive的語法和這個(gè)非常相似。
Sqoop:這個(gè)是用于把Mysql里的數(shù)據(jù)導(dǎo)入到Hadoop里的。當(dāng)然你也可以不用這個(gè),直接把Mysql數(shù)據(jù)表導(dǎo)出成文件再放到HDFS上也是一樣的,當(dāng)然生產(chǎn)環(huán)境中使用要注意Mysql的壓力。
Hive:這個(gè)東西對于會SQL語法的來說就是神器,它能讓你處理大數(shù)據(jù)變的很簡單,不會再費(fèi)勁的編寫MapReduce程序。有的人說Pig那?它和Pig差不多掌握一個(gè)就可以了。
Oozie:既然學(xué)會Hive了,我相信你一定需要這個(gè)東西,它可以幫你管理你的Hive或者M(jìn)apReduce、Spark腳本,還能檢查你的程序是否執(zhí)行正確,出錯(cuò)了給你發(fā)報(bào)警并能幫你重試程序,最重要的是還能幫你配置任務(wù)的依賴關(guān)系。我相信你一定會喜歡上它的,不然你看著那一大堆腳本,和密密麻麻的crond是不是有種想屎的感覺。
Hbase:這是Hadoop生態(tài)體系中的NOSQL數(shù)據(jù)庫,他的數(shù)據(jù)是按照key和value的形式存儲的并且key是唯一的,所以它能用來做數(shù)據(jù)的排重,它與MYSQL相比能存儲的數(shù)據(jù)量大很多。所以他常被用于大數(shù)據(jù)處理完成之后的存儲目的地。
Kafka:這是個(gè)比較好用的隊(duì)列工具,隊(duì)列是干嗎的?排隊(duì)買票你知道不?數(shù)據(jù)多了同樣也需要排隊(duì)處理,這樣與你協(xié)作的其它同學(xué)不會叫起來,你干嗎給我這么多的數(shù)據(jù)(比如好幾百G的文件)我怎么處理得過來,你別怪他因?yàn)樗皇歉愦髷?shù)據(jù)的,你可以跟他講我把數(shù)據(jù)放在隊(duì)列里你使用的時(shí)候一個(gè)個(gè)拿,這樣他就不在抱怨了馬上灰流流的去優(yōu)化他的程序去了,因?yàn)樘幚聿贿^來就是他的事情。而不是你給的問題。當(dāng)然我們也可以利用這個(gè)工具來做線上實(shí)時(shí)數(shù)據(jù)的入庫或入HDFS,這時(shí)你可以與一個(gè)叫Flume的工具配合使用,它是專門用來提供對數(shù)據(jù)進(jìn)行簡單處理,并寫到各種數(shù)據(jù)接受方(比如Kafka)的。
Spark:它是用來彌補(bǔ)基于MapReduce處理數(shù)據(jù)速度上的缺點(diǎn),它的特點(diǎn)是把數(shù)據(jù)裝載到內(nèi)存中計(jì)算而不是去讀慢的要死進(jìn)化還特別慢的硬盤。特別適合做迭代運(yùn)算,所以算法流們特別稀飯它。它是用scala編寫的。Java語言或者Scala都可以操作它,因?yàn)樗鼈兌际怯肑VM的。