Hive中Orderby,Sortby,Dristributeby,ClusterBy有什么用

這篇文章主要介紹了Hive中Order by, Sort by ,Dristribute by,Cluster By有什么用，具有一定借鑒價值，感興趣的朋友可以參考下，希望大家閱讀完這篇文章之后大有收獲，下面讓小編帶著大家一起了解一下。

在留壩等地區(qū)，都構(gòu)建了全面的區(qū)域性戰(zhàn)略布局，加強發(fā)展的系統(tǒng)性、市場前瞻性、產(chǎn)品創(chuàng)新能力，以專注、極致的服務(wù)理念，為客戶提供做網(wǎng)站、成都網(wǎng)站設(shè)計網(wǎng)站設(shè)計制作按需網(wǎng)站制作,公司網(wǎng)站建設(shè),企業(yè)網(wǎng)站建設(shè),品牌網(wǎng)站設(shè)計,營銷型網(wǎng)站,外貿(mào)營銷網(wǎng)站建設(shè),留壩網(wǎng)站建設(shè)費用合理。

Hive 中 Order by, Sort by ,Dristribute by,Cluster By 的作用和用法

1. order by

set hive.mapred.mode=nonstrict; (default value / 默認值)

set hive.mapred.mode=strict;

order by 和數(shù)據(jù)庫中的Order by 功能一致，按照某一項 & 幾項排序輸出。

與數(shù)據(jù)庫中 order by 的區(qū)別在于在hive.mapred.mode = strict 模式下必須指定 limit 否則執(zhí)行會報錯。

hive> select * from test order by id;

FAILED: Error in semantic analysis: 1:28 In strict mode, if ORDER BY is specified, LIMIT must also be specified. Error encountered near token 'id'

原因：在order by 狀態(tài)下所有數(shù)據(jù)會到一臺服務(wù)器進行reduce操作也即只有一個reduce，如果在數(shù)據(jù)量大的情況下會出現(xiàn)無法輸出結(jié)果的情況，如果進行 limit n ，那只有 n * map number 條記錄而已。只有一個reduce也可以處理過來。

2. sort by

sort by 不受 hive.mapred.mode 是否為strict ,nostrict 的影響

sort by 的數(shù)據(jù)只能保證在同一reduce中的數(shù)據(jù)可以按指定字段排序。

使用sort by 你可以指定執(zhí)行的reduce 個數(shù) （set mapred.reduce.tasks=）這樣可以輸出更多的數(shù)據(jù)。

對輸出的數(shù)據(jù)再執(zhí)行歸并排序，即可以得到全部結(jié)果。

注意：可以用limit子句大大減少數(shù)據(jù)量。使用limit n后，傳輸?shù)絩educe端（單機）的數(shù)據(jù)記錄數(shù)就減少到n* （map個數(shù)）。否則由于數(shù)據(jù)過大可能出不了結(jié)果。

http://www.alidata.org/archives/622

3. distribute by

按照指定的字段對數(shù)據(jù)進行劃分到不同的輸出reduce / 文件中。

insert overwrite local directory '/home/hadoop/out' select * from test order by name distribute by length(name);

此方法會根據(jù)name的長度劃分到不同的reduce中，最終輸出到不同的文件中。

length 是內(nèi)建函數(shù)，也可以指定其他的函數(shù)或這使用自定義函數(shù)。

4. DISTRIBUTE BY with SORT BY
DISTRIBUTE BY能夠控制map的輸出在reduce中如何劃分。其可以按照指定的字段對數(shù)據(jù)進行劃分到不同的輸出reduce/文件中。
DISTRIBUTE BY和GROUP BY有點類似，DISTRIBUTE BY控制reduce如何處理數(shù)據(jù)，而SORT BY控制reduce中的數(shù)據(jù)如何排序。
注意：hive要求DISTRIBUTE BY語句出現(xiàn)在SORT BY語句之前。

5. Cluster By

cluster by 除了具有 distribute by 的功能外還兼具 sort by 的功能。

默認倒序排序，但DISTRIBUTE BY的字段和SORT BY的字段必須相同，且不能指定排序規(guī)則。 asc 或者 desc。

總結(jié)：

ORDER BY是全局排序，但在數(shù)據(jù)量大的情況下，花費時間會很長
SORT BY是將reduce的單個輸出進行排序，不能保證全局有序
DISTRIBUTE BY可以按指定字段將數(shù)據(jù)劃分到不同的reduce中
當(dāng)DISTRIBUTE BY的字段和SORT BY的字段相同時，可以用CLUSTER BY來代替 DISTRIBUTE BY with SORT BY。

感謝你能夠認真閱讀完這篇文章，希望小編分享的“Hive中Order by, Sort by ,Dristribute by,Cluster By有什么用”這篇文章對大家有幫助，同時也希望大家多多支持創(chuàng)新互聯(lián)，關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道，更多相關(guān)知識等著你來學(xué)習(xí)!

標(biāo)題名稱：Hive中Orderby,Sortby,Dristributeby,ClusterBy有什么用
文章出自：http://weahome.cn/article/jgisce.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

Hive中Orderby,Sortby,Dristributeby,ClusterBy有什么用

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管