真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

Hadoop文件存儲(chǔ)的葵花寶典-創(chuàng)新互聯(lián)

文件存儲(chǔ)分行存儲(chǔ)和列存儲(chǔ),每個(gè)存儲(chǔ)格式里面又分不同的類型,在實(shí)際的應(yīng)用中如何去使用?怎樣去使用?快來(lái)圍觀吧!

成都創(chuàng)新互聯(lián)服務(wù)項(xiàng)目包括南豐網(wǎng)站建設(shè)、南豐網(wǎng)站制作、南豐網(wǎng)頁(yè)制作以及南豐網(wǎng)絡(luò)營(yíng)銷策劃等。多年來(lái),我們專注于互聯(lián)網(wǎng)行業(yè),利用自身積累的技術(shù)優(yōu)勢(shì)、行業(yè)經(jīng)驗(yàn)、深度合作伙伴關(guān)系等,向廣大中小型企業(yè)、政府機(jī)構(gòu)等提供互聯(lián)網(wǎng)行業(yè)的解決方案,南豐網(wǎng)站推廣取得了明顯的社會(huì)效益與經(jīng)濟(jì)效益。目前,我們服務(wù)的客戶以成都為中心已經(jīng)輻射到南豐省份的部分城市,未來(lái)相信會(huì)繼續(xù)擴(kuò)大服務(wù)區(qū)域并繼續(xù)獲得客戶的支持與信任!

文件存儲(chǔ)格式,我們?cè)谑裁磿r(shí)候去指定呢?比如在Hve和Ipala中去創(chuàng)建表的時(shí)候,我們除了指定列和分隔符,在它的命令行結(jié)尾有STORED AS參數(shù),這個(gè)參數(shù)默認(rèn)是文本格式,但是文本不適合所有的場(chǎng)景,那么在這里我們就可以改變文本的信息。

 Hadoop文件存儲(chǔ)的葵花寶典

那么到底我們應(yīng)該選擇哪些格式呢?每種格式都有什么樣的特點(diǎn)呢?我們?yōu)槭裁匆ミx擇這種格式呢?

一、文本文件:

文本文件是Hadoop里面最基本的文件類型,可以從任何編程語(yǔ)言進(jìn)行讀或?qū)?,兼容逗?hào)和tab分隔的文件以及其它很多的應(yīng)用。而且文本文件直接可讀的,因?yàn)槎际亲址?,所以在Debug的時(shí)候非常有用。然而,數(shù)據(jù)到達(dá)一定規(guī)模,這種格式是很低效的:(1)文本文件把數(shù)值表示為string浪費(fèi)了存儲(chǔ)空間;(2)很難表示二進(jìn)制的數(shù)據(jù),比如圖片,通常依靠其他技術(shù),比如Base64編碼

所以文本文件格式總結(jié)起來(lái)就是:易操作,但性能低

二、序列文件

序列文件本質(zhì)是基于key-value鍵值對(duì)的二進(jìn)制容器格式,它比文本格式冗余更少,更高效,適合存儲(chǔ)二進(jìn)制數(shù)據(jù),比如圖片。而且它是Java專有格式并且跟Hadoop緊密結(jié)合。

所以序列文件格式總結(jié)起來(lái)就是:性能好,但難操作

三、Avro數(shù)據(jù)文件

Avro數(shù)據(jù)文件是二進(jìn)制編碼,存儲(chǔ)效率更好。它不僅可以在Hadoop生態(tài)系統(tǒng)得到廣泛支持,還可以在Hadoop之外使用。它是長(zhǎng)期存儲(chǔ)重要數(shù)據(jù)的理想選擇,可以通過(guò)多種語(yǔ)言讀寫(xiě)。

而且它內(nèi)嵌schema文件,通過(guò)這個(gè)文件我們可以很輕松的像表一樣去定義數(shù)據(jù)的模式,可以靈活制定字段及字段類型。Schema演化可以適應(yīng)各種變化,比如當(dāng)前指定一個(gè)Schema類型,將來(lái)增加了一些數(shù)據(jù)結(jié)構(gòu)、刪除了一些數(shù)據(jù)、類型發(fā)生了變更、長(zhǎng)度發(fā)生了變更,都是可以應(yīng)對(duì)的。

所以Avro數(shù)據(jù)文件格式總結(jié)起來(lái)就是:極好的操作性和性能,是Hadoop通用存儲(chǔ)的最佳選擇。

以上介紹的三種格式都是行存儲(chǔ),但是Hadoop里面還有一些列存儲(chǔ)格式。典型的OLTP以行的形式來(lái)存儲(chǔ),就是以連續(xù)的行來(lái)存儲(chǔ)到連續(xù)的塊,當(dāng)我們進(jìn)行隨機(jī)的尋值訪問(wèn)的時(shí)候,我們通常會(huì)去加一些條件,對(duì)于行存儲(chǔ)而言可以迅速定義到塊所在位置,然后提取行的數(shù)據(jù)。而列存儲(chǔ)以列為單位進(jìn)行存儲(chǔ),如果將列存儲(chǔ)應(yīng)用于OLTP我們要定義到特定行進(jìn)行掃描的時(shí)候,它會(huì)掃描到所有的列。對(duì)于列存儲(chǔ)應(yīng)用到在線事務(wù)場(chǎng)景處理就是一個(gè)很恐怖的事情,列存儲(chǔ)的意義在于應(yīng)用于大數(shù)據(jù)分析場(chǎng)景,比如進(jìn)行特征值的抽取,變量的篩選,通常在大數(shù)據(jù)場(chǎng)景應(yīng)用中我們會(huì)大量的應(yīng)用寬表,可能對(duì)于某一業(yè)務(wù)分析而言,我們只需要使用其中一個(gè)或幾十個(gè)這樣的列,那么就可去選擇一些列進(jìn)行掃描,不會(huì)掃描到全表。行存儲(chǔ)與列存儲(chǔ)并沒(méi)有絕對(duì)的好壞之分,只是彼此適用的場(chǎng)景不一樣。

 Hadoop文件存儲(chǔ)的葵花寶典

下面我們看一下列存儲(chǔ)重要的存儲(chǔ)方式:

一、Parquet文件

Parquet文件格式非常重要,在未來(lái)也將會(huì)被廣泛的使用。我們把HDFS稱作是大數(shù)據(jù)存儲(chǔ)事實(shí)標(biāo)準(zhǔn)的話,那么Parquet文件就是文件存儲(chǔ)格式的事實(shí)標(biāo)準(zhǔn)。目前spark已經(jīng)把它作為默認(rèn)的文件存儲(chǔ)格式,可見(jiàn)它的重要性。最初由cloudera和twitter開(kāi)發(fā)的開(kāi)源列存儲(chǔ)格式,在MapReduce、Hive、Pig、Impala、Spark、Crunch和其他項(xiàng)目中支持應(yīng)用。它和Avro數(shù)據(jù)文件都有Schema元數(shù)據(jù),區(qū)別只是Parquet文件是列存儲(chǔ),Avro數(shù)據(jù)文件是行存儲(chǔ)。這里必須要強(qiáng)調(diào)的是Parquet文件在編碼方面進(jìn)行了一些額外優(yōu)化,減少存儲(chǔ)空間,增加了性能。

所以Parquet文件總結(jié)起來(lái)就是:極好的操作性和性能,是基于列訪問(wèn)模式的最佳選擇。

 文件存儲(chǔ)格式,需要重點(diǎn)去把握和學(xué)習(xí),尤其是每種存儲(chǔ)格式優(yōu)劣勢(shì),必須熟練掌握,才可以在使用中更好的去選擇使用。另外,我們?cè)谄匠5墓ぷ髦幸惨嗳ズ蛣e人分享交流,這樣才會(huì)更好的完善自己的知識(shí)架構(gòu),提升自己的技術(shù)水平,友情推薦“大數(shù)據(jù)cn”微信公眾號(hào),等你來(lái)交流!

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無(wú)理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì),專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。


新聞名稱:Hadoop文件存儲(chǔ)的葵花寶典-創(chuàng)新互聯(lián)
文章鏈接:http://weahome.cn/article/dceijs.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部