hive的執(zhí)行流程

1. 執(zhí)行流程概述

hive的執(zhí)行流程
查看hive語句的執(zhí)行流程：explain select ….from t_table …;

成都創(chuàng)新互聯(lián)是網(wǎng)站建設(shè)技術(shù)企業(yè)，為成都企業(yè)提供專業(yè)的網(wǎng)站建設(shè)、網(wǎng)站制作，網(wǎng)站設(shè)計，網(wǎng)站制作，網(wǎng)站改版等技術(shù)服務(wù)。擁有十多年豐富建站經(jīng)驗和眾多成功案例，為您定制適合企業(yè)的網(wǎng)站。十多年品質(zhì)，值得信賴！

查看hive語句的執(zhí)行流程：explain select ….from t_table …;
操作符是hive的最小執(zhí)行單元
Hive通過execmapper和execreducer執(zhí)行MapReduce程序，執(zhí)行模式有本地模式和分布式模式
每個操作符代表一個 HDFS 操作或者 MapReduce 作業(yè)
hive的操作符：

Hive編譯器的工作職責(zé)：
Parser：將Hql語句轉(zhuǎn)換成抽像的語法書（Abstract Syntax Tree）
Semantic Analyzer：將抽象語法樹轉(zhuǎn)換成查詢塊
Logic Plan Generator：將查詢樹，轉(zhuǎn)換成邏輯查詢計劃
Logic Optimizer：重寫邏輯查詢計劃，優(yōu)化邏輯執(zhí)行計劃
Physical Plan Gernerator：將邏輯執(zhí)行計劃轉(zhuǎn)化為物理計劃
Physical Optimizer：選擇最佳的join策略，優(yōu)化物理執(zhí)行計劃

2. Hive 工作原理

hive的執(zhí)行流程
流程大致步驟為：

1.?用戶提交查詢等任務(wù)給Driver。

2.?編譯器獲得該用戶的任務(wù)Plan。

3.?編譯器Compiler根據(jù)用戶任務(wù)去MetaStore中獲取需要的Hive的元數(shù)據(jù)信息。

4.?編譯器Compiler得到元數(shù)據(jù)信息，對任務(wù)進(jìn)行編譯，先將HiveQL轉(zhuǎn)換為抽象語法樹，然后將抽象語法樹轉(zhuǎn)換成查詢塊，將查詢塊轉(zhuǎn)化為邏輯的查詢計劃，重寫邏輯查詢計劃，將邏輯計劃轉(zhuǎn)化為物理的計劃（MapReduce）,?最后選擇最佳的策略。

5.?將最終的計劃提交給Driver。

Driver將計劃Plan轉(zhuǎn)交給ExecutionEngine去執(zhí)行，獲取元數(shù)據(jù)信息，提交給JobTracker或者SourceManager執(zhí)行該任務(wù)，任務(wù)會直接讀取HDFS中文件進(jìn)行相應(yīng)的操作。

7.?獲取執(zhí)行的結(jié)果。

8.?取得并返回執(zhí)行結(jié)果。

3. hive的具體執(zhí)行過程分析

（1）Join（reduce join）

例：SELECT pv.pageid, u.age FROM page_view pv JOIN user u ON pv.userid = u.userid;
hive的執(zhí)行流程
map 端：以 JOIN ON 條件中的列作為 Key，以page_view表中的需要字段，表標(biāo)識作為value，最終通過key進(jìn)行排序，也就是join字段進(jìn)行排序。
shuffle端：根據(jù) Key 的值進(jìn)行 Hash，并將 Key/Value 對按照 Hash 值推至不同對 Reduce 中
reduce 端：根據(jù)key進(jìn)行分組，根據(jù)不同的表的標(biāo)識，拿出不同的數(shù)據(jù)，進(jìn)行拼接。

（2）group by

例：SELECT pageid, age, count(1) FROM pv_users GROUP BY pageid, age;
hive的執(zhí)行流程
map 端：
key：以pageid, age作為key,并且在map輸出端有combiner。
value ：1次
reduce 端：對value進(jìn)行求和

（3）distinct

例：select distinct age from log;
map端：
key：age
value：null
reduce端：
一組只要一個輸出context.write(key,null)。

（4）distinct+count

例：select count(distinct userid) from weibo_temp;
即使設(shè)置了reduce個數(shù)為3個，最終也只會執(zhí)行一個，因為，count()是全局，只能開啟一個reducetask。
map端：
key：userid
value： null
reduce端：
一組只要一個，定義一個全局變量用于計數(shù)，在cleanup（Context context）中輸出context.write(key,count)
當(dāng)然distinct+count是一個容易產(chǎn)生數(shù)據(jù)傾斜的做法，應(yīng)該盡量避免，如果無法避免，那么就使用這種方法：
select count(1) from (select distinct userid from weibo_temp); 這樣可以并行多個reduce task任務(wù)，從而解決單節(jié)點的壓力過大。

標(biāo)題名稱：hive的執(zhí)行流程
當(dāng)前鏈接：http://weahome.cn/article/ihdsdg.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

hive的執(zhí)行流程

1. 執(zhí)行流程概述

2. Hive 工作原理

3. hive的具體執(zhí)行過程分析

（1）Join（reduce join）

（2）group by

（3）distinct

（4）distinct+count

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管