大數(shù)據(jù)分析處理系統(tǒng)容量和系統(tǒng)計算能力-創(chuàng)新互聯(lián)

正文

創(chuàng)新新互聯(lián)，憑借10多年的網(wǎng)站設(shè)計、網(wǎng)站建設(shè)經(jīng)驗，本著真心·誠心服務(wù)的企業(yè)理念服務(wù)于成都中小企業(yè)設(shè)計網(wǎng)站有1000多家案例。做網(wǎng)站建設(shè)，選創(chuàng)新互聯(lián)。

與事務(wù)處理應(yīng)用相比，大數(shù)據(jù)服務(wù)屬于分析處理應(yīng)用，由于兩者的數(shù)據(jù)處理特點不同，因此容量估算方法也有一定的區(qū)別。

大數(shù)據(jù)服務(wù)通常要經(jīng)過數(shù)據(jù)ETL、數(shù)據(jù)存儲、數(shù)據(jù)分析、數(shù)據(jù)展示、數(shù)據(jù)開放的過程，因此在計算能力、存儲能力以及網(wǎng)絡(luò)能力的估算上也有自身的特點。

大數(shù)據(jù)服務(wù)在不同階段對于基礎(chǔ)設(shè)施的需求如圖3-2-19所示：

大數(shù)據(jù)分析處理系統(tǒng)容量和系統(tǒng)計算能力

圖3-2-19大數(shù)據(jù)服務(wù)不同階段基礎(chǔ)設(shè)施需求

從圖3-2-19可以看出，對于一個普通的大數(shù)據(jù)項目，通常要經(jīng)過數(shù)據(jù)采集（1）、數(shù)據(jù)存儲和數(shù)據(jù)轉(zhuǎn)換（2.1，2.2，3.1，3.2，3.3，3.4）、數(shù)據(jù)展示（4.1，4.2）三大步驟，具體處理過程為：

第一步：從各種數(shù)據(jù)源采集數(shù)據(jù)

數(shù)據(jù)源分為內(nèi)部和外部數(shù)據(jù)源兩種。內(nèi)部數(shù)據(jù)源是企業(yè)自身的數(shù)據(jù)，比如電信運營商的用戶上網(wǎng)數(shù)據(jù)是從交換機獲取的業(yè)務(wù)使用記錄；

外部數(shù)據(jù)源是企業(yè)從外部獲取的數(shù)據(jù)，比如移動終端配置數(shù)據(jù)是從第三方公司數(shù)據(jù)庫獲取的。采集數(shù)據(jù)的方式也分為主動和被動兩種。

主動方式是主動去數(shù)據(jù)源抓取數(shù)據(jù)，比如可以通過網(wǎng)絡(luò)爬蟲在各大網(wǎng)站獲取數(shù)據(jù)；被動方式是企業(yè)為數(shù)據(jù)源設(shè)定好存儲位置，讓數(shù)據(jù)提供方按照時間策略向指定位置存放數(shù)據(jù)。

第二步：數(shù)據(jù)存儲和數(shù)據(jù)轉(zhuǎn)換

企業(yè)可以根據(jù)數(shù)據(jù)特點不同采取不同的數(shù)據(jù)存儲策略，如果數(shù)據(jù)規(guī)模大或者預(yù)期的數(shù)據(jù)規(guī)模大，傳統(tǒng)的關(guān)系型數(shù)據(jù)庫無法滿足快速處理要求的，因而需要考慮采用分布式數(shù)據(jù)庫，比如Hadoop/HBase。

類似Hadoop/HBase這樣的分布式數(shù)據(jù)庫的特點是擴展性好，如果存儲空間不夠，只需增加存儲服務(wù)器即可。不足之處是HBase只適合單表或者多表之間關(guān)聯(lián)關(guān)系簡單的場景，對于需要數(shù)據(jù)操作或者多表關(guān)聯(lián)的應(yīng)用，還是需要基于關(guān)系型數(shù)據(jù)庫實現(xiàn)。

關(guān)系型數(shù)據(jù)的優(yōu)勢就是能夠?qū)?shù)據(jù)進行整合和統(tǒng)計，從而使得用戶可以從多個維度來查看分析結(jié)果。當然，由于關(guān)系型數(shù)據(jù)庫基于單機模式完成的架構(gòu)設(shè)計，盡管也可以支持集群方式部署，但是橫向擴展能力有限。

可見，多表關(guān)聯(lián)查詢要比鍵值映射方式對數(shù)據(jù)庫管理系統(tǒng)的要求高，但是沒有鍵值映射的方式擴展性好。

因此，在大數(shù)據(jù)存儲時，需要結(jié)合應(yīng)用需求和數(shù)據(jù)庫存儲特征來進行綜合考量：使用分布式數(shù)據(jù)來存儲數(shù)據(jù)規(guī)模大、增量大并且以數(shù)據(jù)查詢?yōu)橹鞯臄?shù)據(jù)，采用關(guān)系型數(shù)據(jù)庫完成需要多表關(guān)聯(lián)的查詢統(tǒng)計功能。

當原始數(shù)據(jù)存儲到數(shù)據(jù)庫中以后，需要對數(shù)據(jù)進行抽取、轉(zhuǎn)換與加載，保證數(shù)據(jù)質(zhì)量和應(yīng)用要求。數(shù)據(jù)過程過程通常是經(jīng)過初步的ETL，然后將數(shù)據(jù)存儲數(shù)據(jù)倉庫，接著再次對數(shù)據(jù)進行ETL，將數(shù)據(jù)加工成面向不同主題的數(shù)據(jù)集市，以便于從多個維度查看數(shù)據(jù)統(tǒng)計結(jié)果。

第三步：數(shù)據(jù)展示階段

雖然已經(jīng)經(jīng)費了很大力氣完成了數(shù)據(jù)的抽取、轉(zhuǎn)換、豐富等工作，但是數(shù)據(jù)畢竟是給人看的，數(shù)據(jù)展示的越好，越容易讓用戶看到數(shù)據(jù)背后隱藏的事實和規(guī)律。

比如電信運營商為了查看各地區(qū)數(shù)據(jù)流量的多少，可以基于電子地圖，不同數(shù)據(jù)流量區(qū)間用不同顏色標識，這樣可以直觀地看到各省數(shù)據(jù)流量的多寡。

（一）大數(shù)據(jù)分析處理系統(tǒng)容量估算方法

大數(shù)據(jù)分析處理系統(tǒng)容量估算可以分為：理論估算法和實驗估算法兩種類型。

理論估算法的數(shù)據(jù)基礎(chǔ)包括文件數(shù)、單個文件數(shù)的記錄條數(shù)、單條記錄大小、數(shù)據(jù)采集周期，數(shù)據(jù)采集周期包括一次、一天、一個月等，這樣就能夠算出某個時間段內(nèi)的總數(shù)據(jù)量大小。然后在考慮磁盤的冗余空間系數(shù)，就可以算出對于磁盤空間總的需求量。理論估算法適合于沒有樣本數(shù)據(jù)的場景。

理論估算法的計算公式為：存儲空間大小 = 文件個數(shù)單個文件記錄數(shù)單條記錄大小時間長度冗余系數(shù)。

實驗估算法基于某個時間段的樣本數(shù)據(jù)。用戶可以用操作系統(tǒng)自帶的命令查看文件大小。如果進入數(shù)據(jù)倉庫的數(shù)據(jù)從時間上是連續(xù)的，則可以通過樣本數(shù)據(jù)測量值與時間長度相乘，算出大數(shù)據(jù)分析處理系統(tǒng)存儲空間需求。

實驗估算法的計算公式為：大數(shù)據(jù)分析處理系統(tǒng)存儲空間大小 = 樣本數(shù)據(jù)量大小時間長度冗余系數(shù)。

（二）大數(shù)據(jù)分析處理系統(tǒng)計算能力估算方法

傳統(tǒng)數(shù)據(jù)處理與存儲架構(gòu)是“主機+磁盤陣列”的集群方式，主機可以是小機、PC服務(wù)器或者刀片服務(wù)器，磁盤陣列可以是NAS、SAN等，采用的協(xié)議可以是FC、IP等。

傳統(tǒng)數(shù)據(jù)處理與存儲架構(gòu)解決了存儲資源和計算資源的共享問題。多個服務(wù)器組成的集群可以將計算資源統(tǒng)一管理，接收請求的負載均衡器會根據(jù)服務(wù)器負荷將請求發(fā)送到計算資源充足的服務(wù)器。

磁盤陣列實現(xiàn)共享的方式更加容易理解，就是多個磁盤放到一個機箱中，機箱可以擴展并且機箱內(nèi)可以熱插拔磁盤，這樣可以便于擴展磁盤空間。

“主機+磁盤陣列”的系統(tǒng)架構(gòu)是將計算和存儲分離，通過計算群和存儲群的方式提高了并行處理能力，滿足了高并發(fā)的事務(wù)處理應(yīng)用的系統(tǒng)要求，但是這種架構(gòu)也帶來了新的問題，就是計算和存儲資源的橫向擴展能力是有限的。

大數(shù)據(jù)服務(wù)的特點是數(shù)據(jù)量大，尤其是隨著時間的推移，數(shù)據(jù)量會不斷增大，要求計算和存儲資源能夠具備幾乎沒有限制的擴展能力。

為了滿足不斷增加的數(shù)據(jù)量，谷歌公司提出了基于MapReduce和GFS的分布式計算架構(gòu)，與“主機+磁盤陣列”的架構(gòu)方式不同，谷歌公司利用廉價的機器設(shè)備，通過軟件將能力不一的大量計算機設(shè)備連接到一起，降低了IT基礎(chǔ)設(shè)施采購成本，提升了IT基礎(chǔ)設(shè)施的擴展能力。隨后，Apache受谷歌的GFS/MapReduce架構(gòu)的啟發(fā)，提出了Hadoop分布式計算架構(gòu)。

可見，新型的面向大數(shù)據(jù)的分布式計算架構(gòu)與“主機+磁盤陣列”的系統(tǒng)架構(gòu)在設(shè)計思路上完全不同的，大數(shù)據(jù)計算能力估算的方法也是不同的。

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)cdcxhl.cn，海內(nèi)外云服務(wù)器15元起步，三天無理由+7*72小時售后在線，公司持有idc許可證，提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機、免備案服務(wù)器”等云主機租用服務(wù)以及企業(yè)上云的綜合解決方案，具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點與優(yōu)勢，專為企業(yè)上云打造定制，能夠滿足用戶豐富、多元化的應(yīng)用場景需求。

分享題目：大數(shù)據(jù)分析處理系統(tǒng)容量和系統(tǒng)計算能力-創(chuàng)新互聯(lián)
當前地址：http://weahome.cn/article/djdcop.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

大數(shù)據(jù)分析處理系統(tǒng)容量和系統(tǒng)計算能力-創(chuàng)新互聯(lián)

第一步：從各種數(shù)據(jù)源采集數(shù)據(jù)

第二步：數(shù)據(jù)存儲和數(shù)據(jù)轉(zhuǎn)換

第三步：數(shù)據(jù)展示階段

（一）大數(shù)據(jù)分析處理系統(tǒng)容量估算方法

（二）大數(shù)據(jù)分析處理系統(tǒng)計算能力估算方法

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管