真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

Hive入門(mén)到剖析(三)

8 Hive Shell操作

創(chuàng)新互聯(lián)公司主要從事成都做網(wǎng)站、網(wǎng)站制作、成都外貿(mào)網(wǎng)站建設(shè)、網(wǎng)頁(yè)設(shè)計(jì)、企業(yè)做網(wǎng)站、公司建網(wǎng)站等業(yè)務(wù)。立足成都服務(wù)青龍,10年網(wǎng)站建設(shè)經(jīng)驗(yàn),價(jià)格優(yōu)惠、服務(wù)專(zhuān)業(yè),歡迎來(lái)電咨詢建站服務(wù):18980820575

8.1 Hive bin下腳本介紹

Hive入門(mén)到剖析(三)


8.2 Hive Shell 基本操作

1、Hive 命令行

hive [-hiveconf x=y]* [<-ifilename>]* [<-f filename>|<-e query-string>] [-S]

-i  從文件初始化HQL

-e  從命令行執(zhí)行指定的HQL

-f  執(zhí)行HQL腳本

-v  輸出執(zhí)行的HQL語(yǔ)句到控制臺(tái)

-p connect to HiveServer on port number -hiveconf x=y Use this to set hive/hadoop configurationvariables.

Hive 命令行示例

從命令行執(zhí)行指定的sql語(yǔ)句

$HIVE_HOME/bin/hive -e 'select a.colfrom tab1 a'

以指定的hive環(huán)境變量執(zhí)行指定的sql語(yǔ)句

$HIVE_HOME/bin/hive -e 'select a.colfrom tab1 a' -hiveconf hive.exec.scratchdir=/home/my/hive_scratch -hiveconfmapred.reduce.tasks=32

以沉默模式執(zhí)行指定的sql語(yǔ)句,并將執(zhí)行結(jié)果導(dǎo)出到指定文件:

HIVE_HOME/bin/hive  -e'select a.col from tab1 a' > a.txt

以非交互式模式執(zhí)行sql文件

HIVE_HOME/bin/hive -f/home/my/hive-script.sql

在進(jìn)入交互模式之前,執(zhí)行初始化sql文件

HIVE_HOME/bin/hive -i/home/my/hive-init.sql

 

Hive 交互式Shell命令

當(dāng)命令 $HIVE_HOME/bin/hive以不帶 -e/-f 選項(xiàng)的方式運(yùn)行時(shí), hive將進(jìn)入到交互模式

以(;)冒號(hào)結(jié)束命令行

8.3  日志

Hive使用Log4J來(lái)處理日志

我們可以通過(guò)下面的命令設(shè)計(jì)Hive的日志級(jí)別

$HIVE_HOME/bin/hive -hiveconfhive.root.logger=INFO,console

hive.root.logger的有INFO,DEBUG, 等

 

8.4  資源

Hive添加資源

Hive可以動(dòng)態(tài)的添加資源,如文件

一般情況下,我們是在與Hive進(jìn)行交互時(shí)添加文件

實(shí)際上是使用Hadoop的 Distributed Cache來(lái)控制的

 

例子

ADD { FILE[S] | JAR[S] | ARCHIVE[S]} []*

LIST { FILE[S] | JAR[S] | ARCHIVE[S]} [ ..]

DELETE { FILE[S] | JAR[S] |ARCHIVE[S] } [ ..]

9 Hive優(yōu)化

9.1  Hadoop 計(jì)算框架的特性

1、什么是數(shù)據(jù)傾斜

由于數(shù)據(jù)的不均衡原因,導(dǎo)致數(shù)據(jù)分布不均勻,造成數(shù)據(jù)大量的集中到一點(diǎn),造成數(shù)據(jù)熱點(diǎn)。

 

2、Hadoop框架的特性

不怕數(shù)據(jù)大,怕數(shù)據(jù)傾斜

jobs數(shù)比較多的作業(yè)運(yùn)行效率相對(duì)比較低,比如即使有幾百行的表,如果多次關(guān)聯(lián)多次匯總,產(chǎn)生十幾個(gè)jobs,耗時(shí)很長(zhǎng)。原因是map reduce作業(yè)初始化的時(shí)間是比較長(zhǎng)的

sum,count,max,min等UDAF,不怕數(shù)據(jù)傾斜問(wèn)題,hadoop在map端的匯總合并優(yōu)化,使數(shù)據(jù)傾斜不成問(wèn)題

count(distinct ),在數(shù)據(jù)量大的情況下,效率較低,因?yàn)閏ount(distinct)是按group by 字段分組,按distinct字段排序,一般這種分布方式是很傾斜的。

 

9.2  優(yōu)化的常用手段

解決數(shù)據(jù)傾斜問(wèn)題

減少job數(shù)

設(shè)置合理的map reduce的task數(shù),能有效提升性能。

了解數(shù)據(jù)分布,自己動(dòng)手解決數(shù)據(jù)傾斜問(wèn)題是個(gè)不錯(cuò)的選擇

數(shù)據(jù)量較大的情況下,慎用count(distinct)。

對(duì)小文件進(jìn)行合并,是行至有效的提高調(diào)度效率的方法。

優(yōu)化時(shí)把握整體,單個(gè)作業(yè)最優(yōu)不如整體最優(yōu)。

9.3  Hive的數(shù)據(jù)類(lèi)型方面的優(yōu)化--優(yōu)化原則

按照一定規(guī)則分區(qū)(例如根據(jù)日期)。通過(guò)分區(qū),查詢的時(shí)候指定分區(qū),會(huì)大大減少在無(wú)用數(shù)據(jù)上的掃描, 同時(shí)也非常方便數(shù)據(jù)清理。

合理的設(shè)置Buckets。在一些大數(shù)據(jù)join的情況下,map join有時(shí)候會(huì)內(nèi)存不夠。如果使用Bucket Map Join的話,可以只把其中的一個(gè)bucket放到內(nèi)存中,內(nèi)存中原來(lái)放不下的內(nèi)存表就變得可以放下。這需要使用buckets的鍵進(jìn)行join的條件連結(jié),并且需要如下設(shè)置

 set hive.optimize.bucketmapjoin = true


9.4  Hive的操作方面的優(yōu)化

全排序

怎樣做笛卡爾積

怎樣決定map個(gè)數(shù)

怎樣決定reducer個(gè)數(shù)

合并MapReduce操作

Bucket 與sampling

Partition

JOIN

Group By

合并小文件

1、全排序

Hive的排序關(guān)鍵字是SORTBY,它有意區(qū)別于傳統(tǒng)數(shù)據(jù)庫(kù)的ORDER BY也是為了強(qiáng)調(diào)兩者的區(qū)別–SORT BY只能在單機(jī)范圍內(nèi)排序。

 

2、怎樣做笛卡爾積

當(dāng)Hive設(shè)定為嚴(yán)格模式(hive.mapred.mode=strict)時(shí),不允許在HQL語(yǔ)句中出現(xiàn)笛卡爾積

MapJoin是的解決辦法

MapJoin,顧名思義,會(huì)在Map端完成Join操作。這需要將Join操作的一個(gè)或多個(gè)表完全讀入內(nèi)存

MapJoin的用法是在查詢/子查詢的SELECT關(guān)鍵字后面添加/*+MAPJOIN(tablelist) */提示優(yōu)化器轉(zhuǎn)化為MapJoin(目前Hive的優(yōu)化器不能自動(dòng)優(yōu)化MapJoin)

其中tablelist可以是一個(gè)表,或以逗號(hào)連接的表的列表。tablelist中的表將會(huì)讀入內(nèi)存,應(yīng)該將小表寫(xiě)在這里

在大表和小表做笛卡爾積時(shí),規(guī)避笛卡爾積的方法是,給Join添加一個(gè)Join key,原理很簡(jiǎn)單:將小表擴(kuò)充一列join key,并將小表的條目復(fù)制數(shù)倍,join key各不相同;將大表擴(kuò)充一列join key為隨機(jī)數(shù)

 

3、控制Hive的Map數(shù)

通常情況下,作業(yè)會(huì)通過(guò)input的目錄產(chǎn)生一個(gè)或者多個(gè)map任務(wù)

主要的決定因素有: input的文件總個(gè)數(shù),input的文件大小,集群設(shè)置的文件塊大小(目前為128M, 可在hive中通過(guò)setdfs.block.size;命令查看到,該參數(shù)不能自定義修改)

是不是map數(shù)越多越好

答案是否定的。如果一個(gè)任務(wù)有很多小文件(遠(yuǎn)遠(yuǎn)小于塊大小128m),則每個(gè)小文件也會(huì)被當(dāng)做一個(gè)塊,用一個(gè)map任務(wù)來(lái)完成,而一個(gè)map任務(wù)啟動(dòng)和初始化的時(shí)間遠(yuǎn)遠(yuǎn)大于邏輯處理的時(shí)間,就會(huì)造成很大的資源浪費(fèi)。而且,同時(shí)可執(zhí)行的map數(shù)是受限的

是不是保證每個(gè)map處理接近128m的文件塊,就高枕無(wú)憂了?

     答案也是不一定。比如有一個(gè)127m的文件,正常會(huì)用一個(gè)map去完成,但這個(gè)文件只有一個(gè)或者兩個(gè)小字段,卻有幾千萬(wàn)的記錄,

如果map處理的邏輯比較復(fù)雜,用一個(gè)map任務(wù)去做,肯定也比較耗時(shí)。 

針對(duì)上面的問(wèn)題3和4,我們需要采取兩種方式來(lái)解決:即減少map數(shù)和增加map數(shù);

是不是保證每個(gè)map處理接近128m的文件塊,就高枕無(wú)憂了?

     答案也是不一定。比如有一個(gè)127m的文件,正常會(huì)用一個(gè)map去完成,但這個(gè)文件只有一個(gè)或者兩個(gè)小字段,卻有幾千萬(wàn)的記錄,

如果map處理的邏輯比較復(fù)雜,用一個(gè)map任務(wù)去做,肯定也比較耗時(shí)。 

針對(duì)上面的問(wèn)題3和4,我們需要采取兩種方式來(lái)解決:即減少map數(shù)和增加map數(shù);

舉例

    a) 假設(shè)input目錄下有1個(gè)文件a,大小為780M,那么hadoop會(huì)將該文件a分隔成7個(gè)塊(6個(gè)128m的塊和1個(gè)12m的塊),從而產(chǎn)生7個(gè)map數(shù)

    b)    假設(shè)input目錄下有3個(gè)文件a,b,c,大小分別為10m,20m,130m,那么hadoop會(huì)分隔成4個(gè)塊(10m,20m,128m,2m),從而產(chǎn)生4個(gè)map數(shù)

即,如果文件大于塊大小(128m),那么會(huì)拆分,如果小于塊大小,則把該文件當(dāng)成一個(gè)塊

4、怎樣決定reducer個(gè)數(shù)

Hadoop MapReduce程序中,reducer個(gè)數(shù)的設(shè)定極大影響執(zhí)行效率

不指定reducer個(gè)數(shù)的情況下,Hive會(huì)猜測(cè)確定一個(gè)reducer個(gè)數(shù),基于以下兩個(gè)設(shè)定:

     參數(shù)1:hive.exec.reducers.bytes.per.reducer(默認(rèn)為1G)

     參數(shù)2 :hive.exec.reducers.max(默認(rèn)為999)

計(jì)算reducer數(shù)的公式

N=min(參數(shù)2,總輸入數(shù)據(jù)量/參數(shù)1)

依據(jù)Hadoop的經(jīng)驗(yàn),可以將參數(shù)2設(shè)定為0.95*(集群中TaskTracker個(gè)數(shù))

reduce個(gè)數(shù)并不是越多越好

同map一樣,啟動(dòng)和初始化reduce也會(huì)消耗時(shí)間和資源;

另外,有多少個(gè)reduce,就會(huì)有多少個(gè)輸出文件,如果生成了很多個(gè)小文件,那么如果這些小文件作為下一個(gè)任務(wù)的輸入,則也會(huì)出現(xiàn)小文件過(guò)多的問(wèn)題

什么情況下只有一個(gè)reduce

    很多時(shí)候你會(huì)發(fā)現(xiàn)任務(wù)中不管數(shù)據(jù)量多大,不管你有沒(méi)有設(shè)置調(diào)整reduce個(gè)數(shù)的參數(shù),任務(wù)中一直都只有一個(gè)reduce任務(wù);

其實(shí)只有一個(gè)reduce任務(wù)的情況,除了數(shù)據(jù)量小于

      hive.exec.reducers.bytes.per.reducer參數(shù)值的情況外,還有以下原因:

        a)    沒(méi)有g(shù)roup by的匯總

        b)    用了Order by

5、合并 MapReduce操作

Multi-group by

Multi-group by是Hive的一個(gè)非常好的特性,它使得Hive中利用中間結(jié)果變得非常方便

FROM log

 insert overwrite table test1 select log.id group by log.id

  insert  overwrite table test2select log.name group by log.name

上述查詢語(yǔ)句使用了Multi-group by特性連續(xù)group by了2次數(shù)據(jù),使用不同的groupby key。這一特性可以減少一次MapReduce操作。

 

6、Bucket 與 Sampling

Bucket是指將數(shù)據(jù)以指定列的值為key進(jìn)行hash,hash到指定數(shù)目的桶中。這樣就可以支持高效采樣了

Sampling可以在全體數(shù)據(jù)上進(jìn)行采樣,這樣效率自然就低,它還是要去訪問(wèn)所有數(shù)據(jù)。而如果一個(gè)表已經(jīng)對(duì)某一列制作了bucket,就可以采樣所有桶中指定序號(hào)的某個(gè)桶,這就減少了訪問(wèn)量。

如下例所示就是采樣了test中32個(gè)桶中的第三個(gè)桶。

SELECT * FROM test 、、、TABLESAMPLE(BUCKET 3 OUT OF 32);

 

7、JOIN 原則

在使用寫(xiě)有 Join 操作的查詢語(yǔ)句時(shí)有一條原則:應(yīng)該將條目少的表/子查詢放在 Join 操作符的左邊

原因是在 Join 操作的 Reduce 階段,位于 Join 操作符左邊的表的內(nèi)容會(huì)被加載進(jìn)內(nèi)存,將條目少的表放在左邊,可以有效減少發(fā)生 OOM 錯(cuò)誤的幾率。

8、Map Join

Join 操作在 Map階段完成,不再需要Reduce,前提條件是需要的數(shù)據(jù)在 Map的過(guò)程中可以訪問(wèn)到

例如:

INSERT OVERWRITE TABLE phone_traffic
SELECT /*+MAPJOIN(phone_location) */ l.phone,p.location,l.traffic from phone_location p join log l on(p.phone=l.phone)

相關(guān)的參數(shù)為:

hive.join.emit.interval = 1000How many rows in the right-most join operand Hive should buffer before emittingthe join result.
hive.mapjoin.size.key = 10000
hive.mapjoin.cache.numrows =10000

 

9、Group By

Map 端部分聚合

并不是所有的聚合操作都需要在 Reduce 端完成,很多聚合操作都可以先在 Map 端進(jìn)行部分聚合,最后在 Reduce 端得出最終結(jié)果

 

基于 Hash

參數(shù)包括:

hive.map.aggr = true 是否在 Map 端進(jìn)行聚合,默認(rèn)為 True

hive.groupby.mapaggr.checkinterval =100000 在 Map 端進(jìn)行聚合操作的條目數(shù)目

有數(shù)據(jù)傾斜的時(shí)候進(jìn)行負(fù)載均衡

hive.groupby.skewindata = false

當(dāng)選項(xiàng)設(shè)定為 true,生成的查詢計(jì)劃會(huì)有兩個(gè) MR Job。第一個(gè) MR Job 中,Map 的輸出結(jié)果集合會(huì)隨機(jī)分布到 Reduce 中,每個(gè) Reduce 做部分聚合操作,并輸出結(jié)果,這樣處理的結(jié)果是相同的 Group ByKey 有可能被分發(fā)到不同的 Reduce 中,從而達(dá)到負(fù)載均衡的目的;第二個(gè) MR Job 再根據(jù)預(yù)處理的數(shù)據(jù)結(jié)果按照 Group By Key 分布到 Reduce 中(這個(gè)過(guò)程可以保證相同的 Group By Key 被分布到同一個(gè) Reduce 中),最后完成最終的聚合操作。

 

10、合并小文件

文件數(shù)目過(guò)多,會(huì)給 HDFS 帶來(lái)壓力,并且會(huì)影響處理效率,可以通過(guò)合并 Map 和 Reduce 的結(jié)果文件來(lái)消除這樣的影響:

hive.merge.mapfiles = true 是否和并 Map 輸出文件,默認(rèn)為 True

hive.merge.mapredfiles = false 是否合并 Reduce 輸出文件,默認(rèn)為 False

hive.merge.size.per.task =256*1000*1000 合并文件的大小


本文題目:Hive入門(mén)到剖析(三)
路徑分享:http://weahome.cn/article/psisog.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部