真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

Hive存儲(chǔ)格式是怎么樣的

這篇文章主要為大家展示了“Hive存儲(chǔ)格式是怎么樣的”,內(nèi)容簡而易懂,條理清晰,希望能夠幫助大家解決疑惑,下面讓小編帶領(lǐng)大家一起研究并學(xué)習(xí)一下“Hive存儲(chǔ)格式是怎么樣的”這篇文章吧。

創(chuàng)新互聯(lián)建站成立于2013年,是專業(yè)互聯(lián)網(wǎng)技術(shù)服務(wù)公司,擁有項(xiàng)目做網(wǎng)站、成都網(wǎng)站設(shè)計(jì)網(wǎng)站策劃,項(xiàng)目實(shí)施與項(xiàng)目整合能力。我們以讓每一個(gè)夢想脫穎而出為使命,1280元丁青做網(wǎng)站,已為上家服務(wù),為丁青各地企業(yè)和個(gè)人服務(wù),聯(lián)系電話:18982081108

Hive的默認(rèn)存儲(chǔ)格式是文本文件格 式,這個(gè)也可以通過可選的子句STORED AS TEXTFILE顯式指定,同時(shí)用戶還可以在創(chuàng) 建表時(shí)指定各種各樣的分隔符。這里我們重新展示下之前討論過的那個(gè)ods.ods_login表:

CREATE TABLE ods.ods_login(`uuid` string,`event` string,`time` string)ROW FORMAT DELIMITEDFIELDS TERMINATED BY *\001*COLLECTION ITEMS TERMINATED BY '\002*MAP KEYS TERMINATED BY '\003'LINES TERMINATED BY *\n'STORED AS TEXTFILE;

TEXTFILE意味著所有字段都使用字母、數(shù)字、字符編碼,包括那些國際字符集,盡管 我們可以發(fā)現(xiàn)Hive默認(rèn)是使用不可見字符來作為“\001”(分隔符)的。使用 TEXTFILE就意味著,每一行被認(rèn)為是一個(gè)單獨(dú)的記錄。

用戶可以將TEXTFILE替換為其他Hive所支持的內(nèi)置文件格式,比如orc,parquet之類的,它們使用二進(jìn)制編碼和壓縮(可選)來優(yōu)化磁盤空間使用以及I/O帶寬性能的。

對比一下常用的Hive存儲(chǔ)格式:

TextFile 每一行都是一條記錄,每行都以換行符(\ n)結(jié)尾。數(shù)據(jù)不做壓縮,磁盤開銷大,數(shù)據(jù)解析開銷大。可結(jié)合Gzip、Bzip2使用(系統(tǒng)自動(dòng)檢查,執(zhí)行查詢時(shí)自動(dòng)解壓),但使用這種方式,hive不會(huì)對數(shù)據(jù)進(jìn)行切分,從而無法對數(shù)據(jù)進(jìn)行并行操作。

SequenceFile 是Hadoop API提供的一種二進(jìn)制文件支持,其具有使用方便、可分割、可壓縮的特點(diǎn)。支持三種壓縮選擇:NONE, RECORD, BLOCK。Record壓縮率低,一般建議使用BLOCK壓縮。存儲(chǔ)空間消耗最大,壓縮的文件可以分割和合并 查詢效率高,需要通過text文件轉(zhuǎn)化來加載

RCFile 是一種行列存儲(chǔ)相結(jié)合的存儲(chǔ)方式。首先,其將數(shù)據(jù)按行分塊,保證同一個(gè)record在一個(gè)塊上,避免讀一個(gè)記錄需要讀取多個(gè)block。其次,塊數(shù)據(jù)列式存儲(chǔ),有利于數(shù)據(jù)壓縮和快速的列存取。

AVRO 是開源項(xiàng)目,為Hadoop提供數(shù)據(jù)序列化和數(shù)據(jù)交換服務(wù)。您可以在Hadoop生態(tài)系統(tǒng)和以任何編程語言編寫的程序之間交換數(shù)據(jù)。Avro是基于大數(shù)據(jù)Hadoop的應(yīng)用程序中流行的文件格式之一。

ORC 文件代表了優(yōu)化排柱狀的文件格式。ORC文件格式提供了一種將數(shù)據(jù)存儲(chǔ)在Hive表中的高效方法。這個(gè)文件系統(tǒng)實(shí)際上是為了克服其他Hive文件格式的限制而設(shè)計(jì)的。Hive從大型表讀取,寫入和處理數(shù)據(jù)時(shí),使用ORC文件可以提高性能。壓縮快,快速列存取 ,效率比rcfile高,是rcfile的改良版本

Parquet  是一個(gè)面向列的二進(jìn)制文件格式。Parquet對于大型查詢的類型是高效的。對于掃描特定表格中的特定列的查詢,Parquet特別有用。Parquet桌子使用壓縮Snappy,gzip;目前Snappy默認(rèn)相對于ORC,Parquet壓縮比較低,查詢效率較低,不支持update、insert和ACID。但是Parquet支持Impala查詢引擎

以上是“Hive存儲(chǔ)格式是怎么樣的”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對大家有所幫助,如果還想學(xué)習(xí)更多知識(shí),歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道!


新聞標(biāo)題:Hive存儲(chǔ)格式是怎么樣的
分享URL:http://weahome.cn/article/ispphs.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部