這篇文章將為大家詳細(xì)講解有關(guān)Hive中如何實(shí)現(xiàn)分桶表,小編覺得挺實(shí)用的,因此分享給大家做個(gè)參考,希望大家閱讀完這篇文章后可以有所收獲。
10多年的龍城網(wǎng)站建設(shè)經(jīng)驗(yàn),針對(duì)設(shè)計(jì)、前端、開發(fā)、售后、文案、推廣等六對(duì)一服務(wù),響應(yīng)快,48小時(shí)及時(shí)工作處理。成都營(yíng)銷網(wǎng)站建設(shè)的優(yōu)勢(shì)是能夠根據(jù)用戶設(shè)備顯示端的尺寸不同,自動(dòng)調(diào)整龍城建站的顯示方式,使網(wǎng)站能夠適用不同顯示終端,在瀏覽器中調(diào)整網(wǎng)站的寬度,無論在任何一種瀏覽器上瀏覽網(wǎng)站,都能展現(xiàn)優(yōu)雅布局與設(shè)計(jì),從而大程度地提升瀏覽體驗(yàn)。成都創(chuàng)新互聯(lián)公司從事“龍城網(wǎng)站設(shè)計(jì)”,“龍城網(wǎng)站推廣”以來,每個(gè)客戶項(xiàng)目都認(rèn)真落實(shí)執(zhí)行。通常,當(dāng)很難在列上創(chuàng)建分區(qū)時(shí),我們會(huì)使用分桶,比如某個(gè)經(jīng)常被篩選的字段,如果將其作為分區(qū)字段,會(huì)造成大量的分區(qū)。在Hive中,會(huì)對(duì)分桶字段進(jìn)行哈希,從而提供了中額外的數(shù)據(jù)結(jié)構(gòu),進(jìn)行提升查詢效率。
與分區(qū)表類似,分桶表的組織方式是將HDFS上的文件分割成多個(gè)文件。分桶可以加快數(shù)據(jù)采樣,也可以提升join的性能(join的字段是分桶字段),因?yàn)榉滞翱梢源_保某個(gè)key對(duì)應(yīng)的數(shù)據(jù)在一個(gè)特定的桶內(nèi)(文件),所以巧妙地選擇分桶字段可以大幅度提升join的性能。通常情況下,分桶字段可以選擇經(jīng)常用在過濾操作或者join操作的字段。
我們可以使用set.hive.enforce.bucketing = true啟用分桶設(shè)置。
當(dāng)使用分桶表時(shí),最好將bucketmapjoin標(biāo)志設(shè)置為true,具體配置參數(shù)為:
SET hive.optimize.bucketmapjoin = true
CREATE TABLE table_name
PARTITIONED BY (partition1 data_type, partition2 data_type,….) CLUSTERED BY (column_name1, column_name2, …)
SORTED BY (column_name [ASC|DESC], …)]
INTO num_buckets BUCKETS;
關(guān)于“Hive中如何實(shí)現(xiàn)分桶表”這篇文章就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,使各位可以學(xué)到更多知識(shí),如果覺得文章不錯(cuò),請(qǐng)把它分享出去讓更多的人看到。