這篇文章主要為大家展示了“Hive中如何實現(xiàn)分區(qū)表”,內(nèi)容簡而易懂,條理清晰,希望能夠幫助大家解決疑惑,下面讓小編帶領(lǐng)大家一起研究并學習一下“Hive中如何實現(xiàn)分區(qū)表”這篇文章吧。
目前成都創(chuàng)新互聯(lián)已為千余家的企業(yè)提供了網(wǎng)站建設(shè)、域名、網(wǎng)絡空間、網(wǎng)站托管運營、企業(yè)網(wǎng)站設(shè)計、永寧網(wǎng)站維護等服務,公司將堅持客戶導向、應用為本的策略,正道將秉承"和諧、參與、激情"的文化,與客戶和合作伙伴齊心協(xié)力一起成長,共同發(fā)展。
對于一張比較大的表,將其設(shè)計成分區(qū)表可以提升查詢的性能,對于一個特定分區(qū)的查詢,只會加載對應分區(qū)路徑的文件數(shù)據(jù),因此,當用戶使用特定分區(qū)列值執(zhí)行選擇查詢時,將僅針對該特定分區(qū)執(zhí)行查詢,由于將針對較少的數(shù)據(jù)量進行掃描,所以可以提供更好的性能。值得注意的是,分區(qū)字段的選擇是影響查詢性能的重要因素,盡量避免層級較深的分區(qū),這樣會造成太多的子文件夾。
現(xiàn)在問題來了,該使用哪些列進行分區(qū)呢?一條基本的法則是:選擇低基數(shù)屬性作為“分區(qū)鍵”,比如“地區(qū)”或“日期”等。
一些常見的分區(qū)字段可以是:
比如year、month、day或者hour,當表中存在時間或者日期字段時,可以使用些字段。
比如國家、省份、城市等
比如部門、銷售區(qū)域、客戶等等
CREATE TABLE table_name (
col1 data_type,
col2 data_type)
PARTITIONED BY (partition1 data_type, partition2 data_type,….);
以上是“Hive中如何實現(xiàn)分區(qū)表”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對大家有所幫助,如果還想學習更多知識,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道!