hive的數(shù)據(jù)壓縮方法

本篇內(nèi)容主要講解“hive的數(shù)據(jù)壓縮方法”，感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷，實(shí)用性強(qiáng)。下面就讓小編來帶大家學(xué)習(xí)“hive的數(shù)據(jù)壓縮方法”吧!

在寧津等地區(qū)，都構(gòu)建了全面的區(qū)域性戰(zhàn)略布局，加強(qiáng)發(fā)展的系統(tǒng)性、市場前瞻性、產(chǎn)品創(chuàng)新能力，以專注、極致的服務(wù)理念，為客戶提供成都做網(wǎng)站、網(wǎng)站建設(shè)、外貿(mào)營銷網(wǎng)站建設(shè) 網(wǎng)站設(shè)計(jì)制作按需搭建網(wǎng)站,公司網(wǎng)站建設(shè),企業(yè)網(wǎng)站建設(shè),高端網(wǎng)站設(shè)計(jì),全網(wǎng)營銷推廣,外貿(mào)網(wǎng)站制作,寧津網(wǎng)站建設(shè)費(fèi)用合理。

1、MR支持的壓縮編碼

壓縮格式	工具	算法	文件擴(kuò)展名	是否可切分
DEFAULT	無	DEFAULT	.deflate	否
Gzip	gzip	DEFAULT	.gz	否
bzip2	bzip2	bzip2	.bz2	是
LZO	lzop	LZO	.lzo	否
LZ4	無	LZ4	.lz4	否
Snappy	無	Snappy	.snappy	否

為了支持多種壓縮/解壓縮算法，Hadoop引入了編碼/解碼器，如下表所示

壓縮格式	對應(yīng)的編碼/解碼器
DEFLATE	org.apache.hadoop.io.compress.DefaultCodec
gzip	org.apache.hadoop.io.compress.GzipCodec
bzip2	org.apache.hadoop.io.compress.BZip2Codec
LZO	com.hadoop.compression.lzo.LzopCodec
LZ4	org.apache.hadoop.io.compress.Lz4Codec
Snappy	org.apache.hadoop.io.compress.SnappyCodec

壓縮性能的比較

壓縮算法	原始文件大小	壓縮文件大小	壓縮速度	解壓速度
gzip	8.3GB	1.8GB	17.5MB/s	58MB/s
bzip2	8.3GB	1.1GB	2.4MB/s	9.5MB/s
LZO	8.3GB	2.9GB	49.3MB/s	74.6MB/s

http://google.github.io/snappy/

On a single core of a Core i7 processor in 64-bit mode, Snappy compresses at about 250 MB/sec or more and decompresses at about 500 MB/sec or more.

.2、壓縮配置參數(shù)

要在Hadoop中啟用壓縮，可以配置如下參數(shù)（mapred-site.xml文件中）：

參數(shù)	默認(rèn)值	階段	建議
io.compression.codecs （在core-site.xml中配置）	org.apache.hadoop.io.compress.DefaultCodec, org.apache.hadoop.io.compress.GzipCodec, org.apache.hadoop.io.compress.BZip2Codec, org.apache.hadoop.io.compress.Lz4Codec	輸入壓縮	Hadoop使用文件擴(kuò)展名判斷是否支持某種編解碼器
mapreduce.map.output.compress	false	mapper輸出	這個(gè)參數(shù)設(shè)為true啟用壓縮
mapreduce.map.output.compress.codec	org.apache.hadoop.io.compress.DefaultCodec	mapper輸出	使用LZO、LZ4或snappy編解碼器在此階段壓縮數(shù)據(jù)
mapreduce.output.fileoutputformat.compress	false	reducer輸出	這個(gè)參數(shù)設(shè)為true啟用壓縮
mapreduce.output.fileoutputformat.compress.codec	org.apache.hadoop.io.compress. DefaultCodec	reducer輸出	使用標(biāo)準(zhǔn)工具或者編解碼器，如gzip和bzip2
mapreduce.output.fileoutputformat.compress.type	RECORD	reducer輸出	SequenceFile輸出使用的壓縮類型：NONE和BLOCK

3、開啟Map輸出階段壓縮

開啟map輸出階段壓縮可以減少job中map和Reduce task間數(shù)據(jù)傳輸量。具體配置如下：

案例實(shí)操：

1）開啟hive中間傳輸數(shù)據(jù)壓縮功能

hive (default)>set hive.exec.compress.intermediate=true;

2）開啟mapreduce中map輸出壓縮功能

hive (default)>set mapreduce.map.output.compress=true;

3）設(shè)置mapreduce中map輸出數(shù)據(jù)的壓縮方式

hive (default)>set mapreduce.map.output.compress.codec= org.apache.hadoop.io.compress.SnappyCodec;

4）執(zhí)行查詢語句

select count(1) from score;

4 開啟Reduce輸出階段壓縮

當(dāng)Hive將輸出寫入到表中時(shí)，輸出內(nèi)容同樣可以進(jìn)行壓縮。屬性hive.exec.compress.output控制著這個(gè)功能。用戶可能需要保持默認(rèn)設(shè)置文件中的默認(rèn)值false，這樣默認(rèn)的輸出就是非壓縮的純文本文件了。用戶可以通過在查詢語句或執(zhí)行腳本中設(shè)置這個(gè)值為true，來開啟輸出結(jié)果壓縮功能。

案例實(shí)操：

1）開啟hive最終輸出數(shù)據(jù)壓縮功能

hive (default)>set hive.exec.compress.output=true;

2）開啟mapreduce最終輸出數(shù)據(jù)壓縮

hive (default)>set mapreduce.output.fileoutputformat.compress=true;

3）設(shè)置mapreduce最終數(shù)據(jù)輸出壓縮方式

hive (default)> set mapreduce.output.fileoutputformat.compress.codec = org.apache.hadoop.io.compress.SnappyCodec;

4）設(shè)置mapreduce最終數(shù)據(jù)輸出壓縮為塊壓縮

hive (default)>set mapreduce.output.fileoutputformat.compress.type=BLOCK;

5）測試一下輸出結(jié)果是否是壓縮文件

insert overwrite local directory '/export/servers/snappy' select * from score distribute by s_id sort by s_id desc;

到此，相信大家對“hive的數(shù)據(jù)壓縮方法”有了更深的了解，不妨來實(shí)際操作一番吧！這里是創(chuàng)新互聯(lián)網(wǎng)站，更多相關(guān)內(nèi)容可以進(jìn)入相關(guān)頻道進(jìn)行查詢，關(guān)注我們，繼續(xù)學(xué)習(xí)！

分享標(biāo)題：hive的數(shù)據(jù)壓縮方法
URL分享：http://weahome.cn/article/gepedo.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

hive的數(shù)據(jù)壓縮方法

1、MR支持的壓縮編碼

.2、壓縮配置參數(shù)

3、開啟Map輸出階段壓縮

4 開啟Reduce輸出階段壓縮

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

hive的數(shù)據(jù)壓縮方法

1、MR支持的壓縮編碼

.2、壓縮配置參數(shù)

3、開啟Map輸出階段壓縮

4 開啟Reduce輸出階段壓縮

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管

1、MR支持的壓縮編碼

.2、壓縮配置參數(shù)

3、開啟Map輸出階段壓縮