Hive中SQL數(shù)據(jù)傾斜及優(yōu)化的示例分析

這篇文章主要介紹了Hive中SQL數(shù)據(jù)傾斜及優(yōu)化的示例分析，具有一定借鑒價值，感興趣的朋友可以參考下，希望大家閱讀完這篇文章之后大有收獲，下面讓小編帶著大家一起了解一下。

網(wǎng)站建設(shè)公司,為您提供網(wǎng)站建設(shè),網(wǎng)站制作,網(wǎng)頁設(shè)計及定制網(wǎng)站建設(shè)服務(wù),專注于成都企業(yè)網(wǎng)站建設(shè),高端網(wǎng)頁制作,對OPP膠袋等多個行業(yè)擁有豐富的網(wǎng)站建設(shè)經(jīng)驗的網(wǎng)站建設(shè)公司。專業(yè)網(wǎng)站設(shè)計,網(wǎng)站優(yōu)化推廣哪家好,專業(yè)網(wǎng)站推廣優(yōu)化,H5建站,響應(yīng)式網(wǎng)站。

1數(shù)據(jù)傾斜的原因

1.1操作：

關(guān)鍵詞	情形	后果
Join	其中一個表較小，但是key集中	分發(fā)到某一個或幾個Reduce上的數(shù)據(jù)遠高于平均值
大表與大表，但是分桶的判斷字段0值或空值過多	這些空值都由一個reduce處理，灰常慢
group by	group by 維度過小，某值的數(shù)量過多	處理某值的reduce灰常耗時
Count Distinct	某特殊值過多	處理此特殊值的reduce耗時

1.2原因：

1)、key分布不均勻

2)、業(yè)務(wù)數(shù)據(jù)本身的特性

3)、建表時考慮不周

4)、某些SQL語句本身就有數(shù)據(jù)傾斜

1.3表現(xiàn)：

任務(wù)進度長時間維持在99%（或100%），查看任務(wù)監(jiān)控頁面，發(fā)現(xiàn)只有少量（1個或幾個）reduce子任務(wù)未完成。因為其處理的數(shù)據(jù)量和其他reduce差異過大。

單一reduce的記錄數(shù)與平均記錄數(shù)差異過大，通?？赡苓_到3倍甚至更多。最長時長遠大于平均時長。

2數(shù)據(jù)傾斜的解決方案

2.1參數(shù)調(diào)節(jié)：

hive.map.aggr=true

Map 端部分聚合，相當于Combiner

hive.groupby.skewindata=true

有數(shù)據(jù)傾斜的時候進行負載均衡，當選項設(shè)定為 true，生成的查詢計劃會有兩個 MR Job。第一個 MR Job 中，Map 的輸出結(jié)果集合會隨機分布到 Reduce 中，每個 Reduce 做部分聚合操作，并輸出結(jié)果，這樣處理的結(jié)果是相同的 Group By Key 有可能被分發(fā)到不同的 Reduce 中，從而達到負載均衡的目的；第二個 MR Job 再根據(jù)預(yù)處理的數(shù)據(jù)結(jié)果按照 Group By Key 分布到 Reduce 中（這個過程可以保證相同的 Group By Key 被分布到同一個 Reduce 中），最后完成最終的聚合操作。

2.2 SQL語句調(diào)節(jié)：

如何Join：

關(guān)于驅(qū)動表的選取，選用join key分布最均勻的表作為驅(qū)動表

做好列裁剪和filter操作，以達到兩表做join的時候，數(shù)據(jù)量相對變小的效果。

大小表Join：

使用map join讓小的維度表（1000條以下的記錄條數(shù)）先進內(nèi)存。在map端完成reduce.

大表Join大表：

把空值的key變成一個字符串加上隨機數(shù)，把傾斜的數(shù)據(jù)分到不同的reduce上，由于null值關(guān)聯(lián)不上，處理后并不影響最終結(jié)果。

count distinct大量相同特殊值

count distinct時，將值為空的情況單獨處理，如果是計算count distinct，可以不用處理，直接過濾，在最后結(jié)果中加1。如果還有其他計算，需要進行g(shù)roup by，可以先將值為空的記錄單獨處理，再和其他計算結(jié)果進行union。

group by維度過?。?/strong>

采用sum() group by的方式來替換count(distinct)完成計算。

特殊情況特殊處理：

在業(yè)務(wù)邏輯優(yōu)化效果的不大情況下，有些時候是可以將傾斜的數(shù)據(jù)單獨拿出來處理。最后union回去。

3典型的業(yè)務(wù)場景

3.1空值產(chǎn)生的數(shù)據(jù)傾斜

場景：如日志中，常會有信息丟失的問題，比如日志中的 user_id，如果取其中的 user_id 和用戶表中的user_id 關(guān)聯(lián)，會碰到數(shù)據(jù)傾斜的問題。

解決方法1： user_id為空的不參與關(guān)聯(lián)（紅色字體為修改后）

select * from log a
  join users b
  on a.user_id is not null
  and a.user_id = b.user_id
union all
select * from log a
  where a.user_id is null;

解決方法2 ：賦與空值分新的key值

select *
  from log a
  left outer join users b
  on case when a.user_id is null then concat(‘hive’,rand() ) else a.user_id end = b.user_id;

結(jié)論：方法2比方法1效率更好，不但io少了，而且作業(yè)數(shù)也少了。解決方法1中 log讀取兩次，jobs是2。解決方法2 job數(shù)是1 。這個優(yōu)化適合無效 id (比如 -99 , ’’, null 等) 產(chǎn)生的傾斜問題。把空值的 key 變成一個字符串加上隨機數(shù)，就能把傾斜的數(shù)據(jù)分到不同的reduce上 ,解決數(shù)據(jù)傾斜問題。

3.2不同數(shù)據(jù)類型關(guān)聯(lián)產(chǎn)生數(shù)據(jù)傾斜

場景：用戶表中user_id字段為int，log表中user_id字段既有string類型也有int類型。當按照user_id進行兩個表的Join操作時，默認的Hash操作會按int型的id來進行分配，這樣會導致所有string類型id的記錄都分配到一個Reducer中。

解決方法：把數(shù)字類型轉(zhuǎn)換成字符串類型

select * from users a
  left outer join logs b
  on a.usr_id = cast(b.user_id as string)

3.3小表不小不大，怎么用 map join 解決傾斜問題

使用 map join 解決小表(記錄數(shù)少)關(guān)聯(lián)大表的數(shù)據(jù)傾斜問題，這個方法使用的頻率非常高，但如果小表很大，大到map join會出現(xiàn)bug或異常，這時就需要特別的處理。 以下例子:

select * from log a
  left outer join users b
  on a.user_id = b.user_id;

users 表有 600w+ 的記錄，把 users 分發(fā)到所有的 map 上也是個不小的開銷，而且 map join 不支持這么大的小表。如果用普通的 join，又會碰到數(shù)據(jù)傾斜的問題。

解決方法：

select /*+mapjoin(x)*/* from log a
  left outer join (
    select  /*+mapjoin(c)*/d.*
      from ( select distinct user_id from log ) c
      join users d
      on c.user_id = d.user_id
    ) x
  on a.user_id = b.user_id;

假如，log里user_id有上百萬個，這就又回到原來map join問題。所幸，每日的會員uv不會太多，有交易的會員不會太多，有點擊的會員不會太多，有傭金的會員不會太多等等。所以這個方法能解決很多場景下的數(shù)據(jù)傾斜問題。

3.4GROUP BY替代COUNT(DISTINCT)達到優(yōu)化效果

計算 uv 的時候，經(jīng)常會用到 COUNT(DISTINCT)，但在數(shù)據(jù)比較傾斜的時候 COUNT(DISTINCT) 會比較慢。這時可以嘗試用 GROUP BY 改寫代碼計算 uv。

INSERT OVERWRITE TABLE s_dw_tanx_adzone_uv PARTITION (ds=20120329)

SELECT 20120329 AS thedate,adzoneid,COUNT(DISTINCT acookie) AS uv FROM s_ods_log_tanx_pv t WHERE t.ds=20120329 GROUP BY adzoneid

關(guān)于COUNT(DISTINCT)的數(shù)據(jù)傾斜問題不能一概而論，要依情況而定，下面是我測試的一組數(shù)據(jù)：

測試數(shù)據(jù)：169857條

#統(tǒng)計每日IP 
CREATE TABLE ip_2014_12_29 AS SELECT COUNT(DISTINCT ip) AS IP FROM logdfs WHERE logdate='2014_12_29'; 
耗時：24.805 seconds 
#統(tǒng)計每日IP（改造） 
CREATE TABLE ip_2014_12_29 AS SELECT COUNT(1) AS IP FROM (SELECT DISTINCT ip from logdfs WHERE logdate='2014_12_29') tmp; 
耗時：46.833 seconds

測試結(jié)果表名：明顯改造后的語句比之前耗時，這是因為改造后的語句有2個SELECT，多了一個job，這樣在數(shù)據(jù)量小的時候，數(shù)據(jù)不會存在傾斜問題。

3.5解決Hive對UNION ALL優(yōu)化的短板

Hive 對 union all 的優(yōu)化的特性：對 union all 優(yōu)化只局限于非嵌套查詢。

消滅子查詢內(nèi)的 group by

示例 1：子查詢內(nèi)有 group by

SELECT * FROM 
(SELECT * FROM t1 GROUP BY c1,c2,c3 UNION ALL SELECT * FROM t2 GROUP BY c1,c2,c3)t3 
GROUP BY c1,c2,c3

從業(yè)務(wù)邏輯上說，子查詢內(nèi)的 GROUP BY 怎么都看顯得多余（功能上的多余，除非有 COUNT(DISTINCT)），如果不是因為 Hive Bug 或者性能上的考量（曾經(jīng)出現(xiàn)如果不執(zhí)行子查詢 GROUP BY，數(shù)據(jù)得不到正確的結(jié)果的 Hive Bug）。所以這個 Hive 按經(jīng)驗轉(zhuǎn)換成如下所示：

SELECT * FROM (SELECT * FROM t1 UNION ALL SELECT * FROM t2)t3 GROUP BY c1,c2,c3

調(diào)優(yōu)結(jié)果：經(jīng)過測試，并未出現(xiàn) union all 的 Hive Bug，數(shù)據(jù)是一致的。MapReduce 的作業(yè)數(shù)由 3 減少到 1。

t1 相當于一個目錄，t2 相當于一個目錄，對 Map/Reduce 程序來說，t1，t2 可以作為 Map/Reduce 作業(yè)的 mutli inputs。這可以通過一個 Map/Reduce 來解決這個問題。Hadoop 的計算框架，不怕數(shù)據(jù)多，就怕作業(yè)數(shù)多。

但如果換成是其他計算平臺如 Oracle，那就不一定了，因為把大的輸入拆成兩個輸入，分別排序匯總后 merge（假如兩個子排序是并行的話），是有可能性能更優(yōu)的（比如希爾排序比冒泡排序的性能更優(yōu)）。

消滅子查詢內(nèi)的 COUNT(DISTINCT)，MAX，MIN。

SELECT * FROM 
(SELECT * FROM t1 
UNION ALL SELECT c1,c2,c3 COUNT(DISTINCT c4) FROM t2 GROUP BY c1,c2,c3) t3 
GROUP BY c1,c2,c3;

由于子查詢里頭有 COUNT(DISTINCT)操作，直接去 GROUP BY 將達不到業(yè)務(wù)目標。這時采用臨時表消滅 COUNT(DISTINCT)作業(yè)不但能解決傾斜問題，還能有效減少 jobs。

INSERT t4 SELECT c1,c2,c3,c4 FROM t2 GROUP BY c1,c2,c3; 
SELECT c1,c2,c3,SUM(income),SUM(uv) FROM 
(SELECT c1,c2,c3,income,0 AS uv FROM t1 
UNION ALL 
SELECT c1,c2,c3,0 AS income,1 AS uv FROM t2) t3 
GROUP BY c1,c2,c3;

job 數(shù)是 2，減少一半，而且兩次 Map/Reduce 比 COUNT(DISTINCT)效率更高。

調(diào)優(yōu)結(jié)果：千萬級別的類目表，member 表，與 10 億級得商品表關(guān)聯(lián)。原先 1963s 的任務(wù)經(jīng)過調(diào)整，1152s 即完成。

消滅子查詢內(nèi)的 JOIN

SELECT * FROM 
(SELECT * FROM t1 UNION ALL SELECT * FROM t4 UNION ALL SELECT * FROM t2 JOIN t3 ON t2.id=t3.id) x 
GROUP BY c1,c2;

上面代碼運行會有 5 個 jobs。加入先 JOIN 生存臨時表的話 t5，然后 UNION ALL，會變成 2 個 jobs。

INSERT OVERWRITE TABLE t5 
SELECT * FROM t2 JOIN t3 ON t2.id=t3.id; 
SELECT * FROM (t1 UNION ALL t4 UNION ALL t5);

調(diào)優(yōu)結(jié)果顯示：針對千萬級別的廣告位表，由原先 5 個 Job 共 15 分鐘，分解為 2 個 job 一個 8-10 分鐘，一個3分鐘。

4總結(jié)

使map的輸出數(shù)據(jù)更均勻的分布到reduce中去，是我們的最終目標。由于Hash算法的局限性，按key Hash會或多或少的造成數(shù)據(jù)傾斜。大量經(jīng)驗表明數(shù)據(jù)傾斜的原因是人為的建表疏忽或業(yè)務(wù)邏輯可以規(guī)避的。在此給出較為通用的步驟：

1、采樣log表，哪些user_id比較傾斜，得到一個結(jié)果表tmp1。由于對計算框架來說，所有的數(shù)據(jù)過來，他都是不知道數(shù)據(jù)分布情況的，所以采樣是并不可少的。

2、數(shù)據(jù)的分布符合社會學統(tǒng)計規(guī)則，貧富不均。傾斜的key不會太多，就像一個社會的富人不多，奇特的人不多一樣。所以tmp1記錄數(shù)會很少。把tmp1和users做map join生成tmp2,把tmp2讀到distribute file cache。這是一個map過程。

3、map讀入users和log，假如記錄來自log,則檢查user_id是否在tmp2里，如果是，輸出到本地文件a,否則生成的key,value對，假如記錄來自member,生成的key,value對，進入reduce階段。

4、最終把a文件，把Stage3 reduce階段輸出的文件合并起寫到hdfs。

如果確認業(yè)務(wù)需要這樣傾斜的邏輯，考慮以下的優(yōu)化方案：

1、對于join，在判斷小表不大于1G的情況下，使用map join

2、對于group by或distinct，設(shè)定 hive.groupby.skewindata=true

3、盡量使用上述的SQL語句調(diào)節(jié)進行優(yōu)化

hadoop處理數(shù)據(jù)的過程，有幾個顯著的特征:
不怕數(shù)據(jù)多，就怕數(shù)據(jù)傾斜。
對jobs數(shù)比較多的作業(yè)運行效率相對比較低，比如即使有幾百行的表，如果多次關(guān)聯(lián)多次匯總，產(chǎn)生十幾個jobs，沒半小時是跑不完的。map reduce作業(yè)初始化的時間是比較長的。
對sum，count來說，不存在數(shù)據(jù)傾斜問題。
對count(distinct ),效率較低，數(shù)據(jù)量一多，準出問題，如果是多count(distinct )效率更低。

優(yōu)化可以從幾個方面著手：
好的模型設(shè)計事半功倍。
解決數(shù)據(jù)傾斜問題。
減少job數(shù)。
設(shè)置合理的map reduce的task數(shù)，能有效提升性能。(比如，10w+級別的計算，用160個reduce，那是相當?shù)睦速M，1個足夠)。
自己動手寫sql解決數(shù)據(jù)傾斜問題是個不錯的選擇。set hive.groupby.skewindata=true;這是通用的算法優(yōu)化，但算法優(yōu)化總是漠視業(yè)務(wù)，習慣性提供通用的解決方法。 Etl開發(fā)人員更了解業(yè)務(wù)，更了解數(shù)據(jù)，所以通過業(yè)務(wù)邏輯解決傾斜的方法往往更精確，更有效。
對count(distinct)采取漠視的方法，尤其數(shù)據(jù)大的時候很容易產(chǎn)生傾斜問題，不抱僥幸心理。自己動手，豐衣足食。
對小文件進行合并，是行至有效的提高調(diào)度效率的方法，假如我們的作業(yè)設(shè)置合理的文件數(shù)，對云梯的整體調(diào)度效率也會產(chǎn)生積極的影響。
優(yōu)化時把握整體，單個作業(yè)最優(yōu)不如整體最優(yōu)。

細節(jié)上就是：
去除查詢中不需要的column
Where條件判斷等在TableScan階段就進行過濾
利用Partition信息，只讀取符合條件的Partition
Map端join，以大表作驅(qū)動，小表載入所有mapper內(nèi)存中
調(diào)整Join順序，確保以大表作為驅(qū)動表
對于數(shù)據(jù)分布不均衡的表Group by時，為避免數(shù)據(jù)集中到少數(shù)的reducer上，分成兩個map-reduce階段。第一個階段先用Distinct列進行shuffle，然后在reduce端部分聚合，減小數(shù)據(jù)規(guī)模，第二個map-reduce階段再按group-by列聚合。
在map端用hash進行部分聚合，減小reduce端數(shù)據(jù)處理規(guī)模。

感謝你能夠認真閱讀完這篇文章，希望小編分享的“Hive中SQL數(shù)據(jù)傾斜及優(yōu)化的示例分析”這篇文章對大家有幫助，同時也希望大家多多支持創(chuàng)新互聯(lián)，關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道，更多相關(guān)知識等著你來學習!

標題名稱：Hive中SQL數(shù)據(jù)傾斜及優(yōu)化的示例分析
分享路徑：http://weahome.cn/article/pgiooh.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆