真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

hive的數(shù)據(jù)壓縮方法

本篇內(nèi)容主要講解“hive的數(shù)據(jù)壓縮方法”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實(shí)用性強(qiáng)。下面就讓小編來帶大家學(xué)習(xí)“hive的數(shù)據(jù)壓縮方法”吧!

在寧津等地區(qū),都構(gòu)建了全面的區(qū)域性戰(zhàn)略布局,加強(qiáng)發(fā)展的系統(tǒng)性、市場前瞻性、產(chǎn)品創(chuàng)新能力,以專注、極致的服務(wù)理念,為客戶提供成都做網(wǎng)站、網(wǎng)站建設(shè)、外貿(mào)營銷網(wǎng)站建設(shè) 網(wǎng)站設(shè)計(jì)制作按需搭建網(wǎng)站,公司網(wǎng)站建設(shè),企業(yè)網(wǎng)站建設(shè),高端網(wǎng)站設(shè)計(jì),全網(wǎng)營銷推廣,外貿(mào)網(wǎng)站制作,寧津網(wǎng)站建設(shè)費(fèi)用合理。

1、MR支持的壓縮編碼

壓縮格式

工具

算法

文件擴(kuò)展名

是否可切分

DEFAULT

DEFAULT

.deflate

Gzip

gzip

DEFAULT

.gz

bzip2

bzip2

bzip2

.bz2

LZO

lzop

LZO

.lzo

LZ4

LZ4

.lz4

Snappy

Snappy

.snappy

為了支持多種壓縮/解壓縮算法,Hadoop引入了編碼/解碼器,如下表所示

壓縮格式

對應(yīng)的編碼/解碼器

DEFLATE

org.apache.hadoop.io.compress.DefaultCodec

gzip

org.apache.hadoop.io.compress.GzipCodec

bzip2

org.apache.hadoop.io.compress.BZip2Codec

LZO

com.hadoop.compression.lzo.LzopCodec

LZ4

org.apache.hadoop.io.compress.Lz4Codec

Snappy

org.apache.hadoop.io.compress.SnappyCodec

壓縮性能的比較

壓縮算法

原始文件大小

壓縮文件大小

壓縮速度

解壓速度

gzip

8.3GB

1.8GB

17.5MB/s

58MB/s

bzip2

8.3GB

1.1GB

2.4MB/s

9.5MB/s

LZO

8.3GB

2.9GB

49.3MB/s

74.6MB/s

http://google.github.io/snappy/

On a single core of a Core i7 processor in 64-bit mode, Snappy compresses at about 250 MB/sec or more and decompresses at about 500 MB/sec or more.

.2、壓縮配置參數(shù)

要在Hadoop中啟用壓縮,可以配置如下參數(shù)(mapred-site.xml文件中):

參數(shù)

默認(rèn)值

階段

建議

io.compression.codecs   

(在core-site.xml中配置)

org.apache.hadoop.io.compress.DefaultCodec, org.apache.hadoop.io.compress.GzipCodec, org.apache.hadoop.io.compress.BZip2Codec,

org.apache.hadoop.io.compress.Lz4Codec

輸入壓縮

Hadoop使用文件擴(kuò)展名判斷是否支持某種編解碼器

mapreduce.map.output.compress

false

mapper輸出

這個(gè)參數(shù)設(shè)為true啟用壓縮

mapreduce.map.output.compress.codec

org.apache.hadoop.io.compress.DefaultCodec

mapper輸出

使用LZO、LZ4或snappy編解碼器在此階段壓縮數(shù)據(jù)

mapreduce.output.fileoutputformat.compress

false

reducer輸出

這個(gè)參數(shù)設(shè)為true啟用壓縮

mapreduce.output.fileoutputformat.compress.codec

org.apache.hadoop.io.compress. DefaultCodec

reducer輸出

使用標(biāo)準(zhǔn)工具或者編解碼器,如gzip和bzip2

mapreduce.output.fileoutputformat.compress.type

RECORD

reducer輸出

SequenceFile輸出使用的壓縮類型:NONE和BLOCK

3、開啟Map輸出階段壓縮

開啟map輸出階段壓縮可以減少job中map和Reduce task間數(shù)據(jù)傳輸量。具體配置如下:

案例實(shí)操:

1)開啟hive中間傳輸數(shù)據(jù)壓縮功能

hive (default)>set hive.exec.compress.intermediate=true;

2)開啟mapreduce中map輸出壓縮功能

hive (default)>set mapreduce.map.output.compress=true;

3)設(shè)置mapreduce中map輸出數(shù)據(jù)的壓縮方式

hive (default)>set mapreduce.map.output.compress.codec= org.apache.hadoop.io.compress.SnappyCodec;

4)執(zhí)行查詢語句

select count(1) from score;

4 開啟Reduce輸出階段壓縮

當(dāng)Hive將輸出寫入到表中時(shí),輸出內(nèi)容同樣可以進(jìn)行壓縮。屬性hive.exec.compress.output控制著這個(gè)功能。用戶可能需要保持默認(rèn)設(shè)置文件中的默認(rèn)值false,這樣默認(rèn)的輸出就是非壓縮的純文本文件了。用戶可以通過在查詢語句或執(zhí)行腳本中設(shè)置這個(gè)值為true,來開啟輸出結(jié)果壓縮功能。

案例實(shí)操:

1)開啟hive最終輸出數(shù)據(jù)壓縮功能

hive (default)>set hive.exec.compress.output=true;

2)開啟mapreduce最終輸出數(shù)據(jù)壓縮

hive (default)>set mapreduce.output.fileoutputformat.compress=true;

3)設(shè)置mapreduce最終數(shù)據(jù)輸出壓縮方式

hive (default)> set mapreduce.output.fileoutputformat.compress.codec = org.apache.hadoop.io.compress.SnappyCodec;

4)設(shè)置mapreduce最終數(shù)據(jù)輸出壓縮為塊壓縮

hive (default)>set mapreduce.output.fileoutputformat.compress.type=BLOCK;

5)測試一下輸出結(jié)果是否是壓縮文件

insert overwrite local directory '/export/servers/snappy' select * from score distribute by s_id sort by s_id desc;

到此,相信大家對“hive的數(shù)據(jù)壓縮方法”有了更深的了解,不妨來實(shí)際操作一番吧!這里是創(chuàng)新互聯(lián)網(wǎng)站,更多相關(guān)內(nèi)容可以進(jìn)入相關(guān)頻道進(jìn)行查詢,關(guān)注我們,繼續(xù)學(xué)習(xí)!


分享標(biāo)題:hive的數(shù)據(jù)壓縮方法
URL分享:http://weahome.cn/article/gepedo.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部