真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

大數(shù)據(jù)分析處理系統(tǒng)容量和系統(tǒng)計算能力-創(chuàng)新互聯(lián)

正文

創(chuàng)新新互聯(lián),憑借10多年的網(wǎng)站設(shè)計、網(wǎng)站建設(shè)經(jīng)驗,本著真心·誠心服務(wù)的企業(yè)理念服務(wù)于成都中小企業(yè)設(shè)計網(wǎng)站有1000多家案例。做網(wǎng)站建設(shè),選創(chuàng)新互聯(lián)。

與事務(wù)處理應(yīng)用相比,大數(shù)據(jù)服務(wù)屬于分析處理應(yīng)用,由于兩者的數(shù)據(jù)處理特點不同,因此容量估算方法也有一定的區(qū)別。

大數(shù)據(jù)服務(wù)通常要經(jīng)過數(shù)據(jù)ETL、數(shù)據(jù)存儲、數(shù)據(jù)分析、數(shù)據(jù)展示、數(shù)據(jù)開放的過程,因此在計算能力、存儲能力以及網(wǎng)絡(luò)能力的估算上也有自身的特點。

大數(shù)據(jù)服務(wù)在不同階段對于基礎(chǔ)設(shè)施的需求如圖3-2-19所示:

大數(shù)據(jù)分析處理系統(tǒng)容量和系統(tǒng)計算能力

          圖3-2-19大數(shù)據(jù)服務(wù)不同階段基礎(chǔ)設(shè)施需求

從圖3-2-19可以看出,對于一個普通的大數(shù)據(jù)項目,通常要經(jīng)過數(shù)據(jù)采集(1)、數(shù)據(jù)存儲和數(shù)據(jù)轉(zhuǎn)換(2.1,2.2,3.1,3.2,3.3,3.4)、數(shù)據(jù)展示(4.1,4.2)三大步驟,具體處理過程為:

第一步:從各種數(shù)據(jù)源采集數(shù)據(jù)

數(shù)據(jù)源分為內(nèi)部和外部數(shù)據(jù)源兩種。內(nèi)部數(shù)據(jù)源是企業(yè)自身的數(shù)據(jù),比如電信運營商的用戶上網(wǎng)數(shù)據(jù)是從交換機獲取的業(yè)務(wù)使用記錄;

外部數(shù)據(jù)源是企業(yè)從外部獲取的數(shù)據(jù),比如移動終端配置數(shù)據(jù)是從第三方公司數(shù)據(jù)庫獲取的。采集數(shù)據(jù)的方式也分為主動和被動兩種。

主動方式是主動去數(shù)據(jù)源抓取數(shù)據(jù),比如可以通過網(wǎng)絡(luò)爬蟲在各大網(wǎng)站獲取數(shù)據(jù);被動方式是企業(yè)為數(shù)據(jù)源設(shè)定好存儲位置,讓數(shù)據(jù)提供方按照時間策略向指定位置存放數(shù)據(jù)。

第二步:數(shù)據(jù)存儲和數(shù)據(jù)轉(zhuǎn)換

企業(yè)可以根據(jù)數(shù)據(jù)特點不同采取不同的數(shù)據(jù)存儲策略,如果數(shù)據(jù)規(guī)模大或者預(yù)期的數(shù)據(jù)規(guī)模大,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫無法滿足快速處理要求的,因而需要考慮采用分布式數(shù)據(jù)庫,比如Hadoop/HBase。

類似Hadoop/HBase這樣的分布式數(shù)據(jù)庫的特點是擴展性好,如果存儲空間不夠,只需增加存儲服務(wù)器即可。不足之處是HBase只適合單表或者多表之間關(guān)聯(lián)關(guān)系簡單的場景,對于需要數(shù)據(jù)操作或者多表關(guān)聯(lián)的應(yīng)用,還是需要基于關(guān)系型數(shù)據(jù)庫實現(xiàn)。

關(guān)系型數(shù)據(jù)的優(yōu)勢就是能夠?qū)?shù)據(jù)進行整合和統(tǒng)計,從而使得用戶可以從多個維度來查看分析結(jié)果。當然,由于關(guān)系型數(shù)據(jù)庫基于單機模式完成的架構(gòu)設(shè)計,盡管也可以支持集群方式部署,但是橫向擴展能力有限。

可見,多表關(guān)聯(lián)查詢要比鍵值映射方式對數(shù)據(jù)庫管理系統(tǒng)的要求高,但是沒有鍵值映射的方式擴展性好。

因此,在大數(shù)據(jù)存儲時,需要結(jié)合應(yīng)用需求和數(shù)據(jù)庫存儲特征來進行綜合考量:使用分布式數(shù)據(jù)來存儲數(shù)據(jù)規(guī)模大、增量大并且以數(shù)據(jù)查詢?yōu)橹鞯臄?shù)據(jù),采用關(guān)系型數(shù)據(jù)庫完成需要多表關(guān)聯(lián)的查詢統(tǒng)計功能。

當原始數(shù)據(jù)存儲到數(shù)據(jù)庫中以后,需要對數(shù)據(jù)進行抽取、轉(zhuǎn)換與加載,保證數(shù)據(jù)質(zhì)量和應(yīng)用要求。數(shù)據(jù)過程過程通常是經(jīng)過初步的ETL,然后將數(shù)據(jù)存儲數(shù)據(jù)倉庫,接著再次對數(shù)據(jù)進行ETL,將數(shù)據(jù)加工成面向不同主題的數(shù)據(jù)集市,以便于從多個維度查看數(shù)據(jù)統(tǒng)計結(jié)果。

第三步:數(shù)據(jù)展示階段

雖然已經(jīng)經(jīng)費了很大力氣完成了數(shù)據(jù)的抽取、轉(zhuǎn)換、豐富等工作,但是數(shù)據(jù)畢竟是給人看的,數(shù)據(jù)展示的越好,越容易讓用戶看到數(shù)據(jù)背后隱藏的事實和規(guī)律。

比如電信運營商為了查看各地區(qū)數(shù)據(jù)流量的多少,可以基于電子地圖,不同數(shù)據(jù)流量區(qū)間用不同顏色標識,這樣可以直觀地看到各省數(shù)據(jù)流量的多寡。

(一)大數(shù)據(jù)分析處理系統(tǒng)容量估算方法

大數(shù)據(jù)分析處理系統(tǒng)容量估算可以分為:理論估算法和實驗估算法兩種類型。

理論估算法的數(shù)據(jù)基礎(chǔ)包括文件數(shù)、單個文件數(shù)的記錄條數(shù)、單條記錄大小、數(shù)據(jù)采集周期,數(shù)據(jù)采集周期包括一次、一天、一個月等,這樣就能夠算出某個時間段內(nèi)的總數(shù)據(jù)量大小。然后在考慮磁盤的冗余空間系數(shù),就可以算出對于磁盤空間總的需求量。理論估算法適合于沒有樣本數(shù)據(jù)的場景。

理論估算法的計算公式為:存儲空間大小 = 文件個數(shù)單個文件記錄數(shù)單條記錄大小時間長度冗余系數(shù)。

實驗估算法基于某個時間段的樣本數(shù)據(jù)。用戶可以用操作系統(tǒng)自帶的命令查看文件大小。如果進入數(shù)據(jù)倉庫的數(shù)據(jù)從時間上是連續(xù)的,則可以通過樣本數(shù)據(jù)測量值與時間長度相乘,算出大數(shù)據(jù)分析處理系統(tǒng)存儲空間需求。

實驗估算法的計算公式為:大數(shù)據(jù)分析處理系統(tǒng)存儲空間大小 = 樣本數(shù)據(jù)量大小時間長度冗余系數(shù)。

(二)大數(shù)據(jù)分析處理系統(tǒng)計算能力估算方法

傳統(tǒng)數(shù)據(jù)處理與存儲架構(gòu)是“主機+磁盤陣列”的集群方式,主機可以是小機、PC服務(wù)器或者刀片服務(wù)器,磁盤陣列可以是NAS、SAN等,采用的協(xié)議可以是FC、IP等。

傳統(tǒng)數(shù)據(jù)處理與存儲架構(gòu)解決了存儲資源和計算資源的共享問題。多個服務(wù)器組成的集群可以將計算資源統(tǒng)一管理,接收請求的負載均衡器會根據(jù)服務(wù)器負荷將請求發(fā)送到計算資源充足的服務(wù)器。

磁盤陣列實現(xiàn)共享的方式更加容易理解,就是多個磁盤放到一個機箱中,機箱可以擴展并且機箱內(nèi)可以熱插拔磁盤,這樣可以便于擴展磁盤空間。

“主機+磁盤陣列”的系統(tǒng)架構(gòu)是將計算和存儲分離,通過計算群和存儲群的方式提高了并行處理能力,滿足了高并發(fā)的事務(wù)處理應(yīng)用的系統(tǒng)要求,但是這種架構(gòu)也帶來了新的問題,就是計算和存儲資源的橫向擴展能力是有限的。

大數(shù)據(jù)服務(wù)的特點是數(shù)據(jù)量大,尤其是隨著時間的推移,數(shù)據(jù)量會不斷增大,要求計算和存儲資源能夠具備幾乎沒有限制的擴展能力。

為了滿足不斷增加的數(shù)據(jù)量,谷歌公司提出了基于MapReduce和GFS的分布式計算架構(gòu),與“主機+磁盤陣列”的架構(gòu)方式不同,谷歌公司利用廉價的機器設(shè)備,通過軟件將能力不一的大量計算機設(shè)備連接到一起,降低了IT基礎(chǔ)設(shè)施采購成本,提升了IT基礎(chǔ)設(shè)施的擴展能力。隨后,Apache受谷歌的GFS/MapReduce架構(gòu)的啟發(fā),提出了Hadoop分布式計算架構(gòu)。

可見,新型的面向大數(shù)據(jù)的分布式計算架構(gòu)與“主機+磁盤陣列”的系統(tǒng)架構(gòu)在設(shè)計思路上完全不同的,大數(shù)據(jù)計算能力估算的方法也是不同的。

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)cdcxhl.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機、免備案服務(wù)器”等云主機租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。


分享題目:大數(shù)據(jù)分析處理系統(tǒng)容量和系統(tǒng)計算能力-創(chuàng)新互聯(lián)
當前地址:http://weahome.cn/article/djdcop.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部