這篇文章主要介紹了Hive參數(shù)配置如何調(diào)優(yōu),具有一定借鑒價(jià)值,感興趣的朋友可以參考下,希望大家閱讀完這篇文章之后大有收獲,下面讓小編帶著大家一起了解一下。
成都創(chuàng)新互聯(lián)公司服務(wù)項(xiàng)目包括寧陜網(wǎng)站建設(shè)、寧陜網(wǎng)站制作、寧陜網(wǎng)頁(yè)制作以及寧陜網(wǎng)絡(luò)營(yíng)銷(xiāo)策劃等。多年來(lái),我們專注于互聯(lián)網(wǎng)行業(yè),利用自身積累的技術(shù)優(yōu)勢(shì)、行業(yè)經(jīng)驗(yàn)、深度合作伙伴關(guān)系等,向廣大中小型企業(yè)、政府機(jī)構(gòu)等提供互聯(lián)網(wǎng)行業(yè)的解決方案,寧陜網(wǎng)站推廣取得了明顯的社會(huì)效益與經(jīng)濟(jì)效益。目前,我們服務(wù)的客戶以成都為中心已經(jīng)輻射到寧陜省份的部分城市,未來(lái)相信會(huì)繼續(xù)擴(kuò)大服務(wù)區(qū)域并繼續(xù)獲得客戶的支持與信任!
hive通過(guò)將查詢劃分成一個(gè)或多個(gè)MapReduce任務(wù)達(dá)到并行處理的目的。每個(gè)任務(wù)都可能具有多個(gè)mapper和reducer任務(wù),其中至少有一些是可以并行執(zhí)行的。
確定最佳的mapper個(gè)數(shù)和reducer個(gè)數(shù)取決于多個(gè)變量,例如輸入的數(shù)據(jù)量大小以及對(duì)這些數(shù)據(jù)執(zhí)行的操作類(lèi)型等。
保持平衡性是很有必要的,對(duì)于Spark/Hadoop這樣的大數(shù)據(jù)系統(tǒng)來(lái)講,數(shù)據(jù)量大并不可怕,可怕的是數(shù)據(jù)傾斜,每個(gè)節(jié)點(diǎn)處理的運(yùn)算不均衡。
如果有太多的mapper或reducer任務(wù),就會(huì)導(dǎo)致啟動(dòng)階段、調(diào)度和運(yùn)行job過(guò)程中產(chǎn)生過(guò)多的開(kāi)銷(xiāo);而如果設(shè)置的數(shù)量太少,那就有可能沒(méi)充分利用好集群內(nèi)在并行性。
mapred.reduce.tasks
所提交 Job 的 reduer 的個(gè)數(shù),使用 Hadoop Client 的配置。
1
hive.mapred.mode
Map/Redure 模式,如果設(shè)置為 strict,將禁止3中類(lèi)型的查詢:
1.分區(qū)表的where篩選條件必須含有分區(qū)字段;
2.對(duì)使用了order by語(yǔ)句的查詢,必須使用limit語(yǔ)句(order by語(yǔ)句為執(zhí)行排序會(huì)將所有的結(jié)果集數(shù)據(jù)分發(fā)到同一個(gè)reducer中進(jìn)行處理,增加limit語(yǔ)句可以防止reducer額外執(zhí)行很長(zhǎng)時(shí)間)
3.限制笛卡兒積的查詢,就是有where語(yǔ)句,而沒(méi)有on語(yǔ)句。
'nonstrict'
hive.merge.mapfiles
在Map-only的任務(wù)結(jié)束時(shí)合并小文件
是否開(kāi)啟合并 Map 端小文件,當(dāng)Hive輸入由很多個(gè)小文件組成,由于每個(gè)小文件都會(huì)啟動(dòng)一個(gè)map任務(wù),如果文件過(guò)小,會(huì)使得map任務(wù)啟動(dòng)和初始化的時(shí)間大于邏輯處理的時(shí)間,造成資源浪費(fèi),甚至OOM。為此,當(dāng)我們啟動(dòng)一個(gè)任務(wù),發(fā)現(xiàn)輸入數(shù)據(jù)量小但任務(wù)數(shù)量多時(shí),需要注意在Map前端進(jìn)行輸入合并。當(dāng)然,在我們向一個(gè)表寫(xiě)數(shù)據(jù)時(shí),也需要注意輸出文件大小
true
hive.merge.mapredfiles
是否開(kāi)啟合并 Map/Reduce 小文件,即是否在Map-Reduce的任務(wù)結(jié)束時(shí)合并小文件
false
hive.exec.parallel
是否開(kāi)啟 map/reduce job的并發(fā)提交。
false
hive.limit.optimize.enable
當(dāng)使用LIMIT語(yǔ)句時(shí),其可以對(duì)數(shù)據(jù)源進(jìn)行抽樣,避免執(zhí)行整個(gè)查詢語(yǔ)句,然后再返回部分結(jié)果
但這個(gè)功能有個(gè)缺點(diǎn),有可能輸入中有用的數(shù)據(jù)永遠(yuǎn)不會(huì)被處理到。
hive.exec.reducers.bytes.per.reducer
每一個(gè) reducer 的平均負(fù)載字節(jié)數(shù)。
1000000000
hive.exec.reducers.max
設(shè)置reducer個(gè)數(shù)的上限,可以阻止某個(gè)查詢消耗過(guò)多的reducer資源,對(duì)這個(gè)屬性值大小的設(shè)定,一個(gè)建議的計(jì)算公式如下:
(集群總Reduce槽位個(gè)數(shù)*1.5) / (執(zhí)行中查詢的平均個(gè)數(shù))
1.5倍數(shù)是一個(gè)經(jīng)驗(yàn)系數(shù),用于防止未充分利用集群的情況。
999
hive.exec.rowoffset
hive提供了2種虛擬列:一種用于將要進(jìn)行劃分的輸入文件名,另一種用于文件中的塊內(nèi)偏移量。當(dāng)hive產(chǎn)生了非預(yù)期的或null的返回結(jié)果時(shí),可以通過(guò)這些虛擬列診斷查詢。通過(guò)這些“字段”,用戶可以查看到哪個(gè)文件甚至哪些數(shù)據(jù)導(dǎo)致出現(xiàn)問(wèn)題:
SELECT
INPUT_FILE_NAME,
BLOCK_OFFSET_INSIDE_FILE,
ROW_OFFSET_INSIDE_BLOCK,
line
FROM hive_text
WHERE line LIKE '%hive%' LIMIT 2;
true
hive.multigroupby.singlemr
一個(gè)特別的優(yōu)化,是否將查詢中的多個(gè)group by操作組裝到單個(gè)MapReduce任務(wù)中。
false
hive.exec.dynamic.partition
是否打開(kāi)動(dòng)態(tài)分區(qū)。
false
hive.exec.dynamic.partition.mode
打開(kāi)動(dòng)態(tài)分區(qū)后,動(dòng)態(tài)分區(qū)的模式,有 strict 和 nonstrict 兩個(gè)值可選,strict 要求至少包含一個(gè)靜態(tài)分區(qū)列,nonstrict 則無(wú)此要求。
strict
hive.exec.max.dynamic.partitions
所允許的最大的動(dòng)態(tài)分區(qū)的個(gè)數(shù)。
1000
hive.exec.max.dynamic.partitions.pernode
單個(gè) reduce 結(jié)點(diǎn)所允許的最大的動(dòng)態(tài)分區(qū)的個(gè)數(shù)。
100
hive.exec.default.partition.name
默認(rèn)的動(dòng)態(tài)分區(qū)的名稱,當(dāng)動(dòng)態(tài)分區(qū)列為''或者null時(shí),使用此名稱。''
'__HIVE_DEFAULT_PARTITION__'
hive.exec.mode.local.auto
決定 Hive 是否應(yīng)該自動(dòng)地根據(jù)輸入文件大小,在本地運(yùn)行(在GateWay運(yùn)行)
true
hive.exec.mode.local.auto.inputbytes.max
如果 hive.exec.mode.local.auto 為 true,當(dāng)輸入文件大小小于此閾值時(shí)可以自動(dòng)在本地模式運(yùn)行,默認(rèn)是 128兆。
134217728L
hive.exec.mode.local.auto.tasks.max
如果 hive.exec.mode.local.auto 為 true,當(dāng) Hive Tasks(Hadoop Jobs)小于此閾值時(shí),可以自動(dòng)在本地模式運(yùn)行。
4
hive.auto.convert.join
是否根據(jù)輸入小表的大小,自動(dòng)將 Reduce 端的 Common Join 轉(zhuǎn)化為 Map Join,從而加快大表關(guān)聯(lián)小表的 Join 速度。
false
hive.mapred.local.mem
Mapper/Reducer 在本地模式的最大內(nèi)存量,以字節(jié)為單位,0為不限制。
0
hive.exec.scratchdir
HDFS路徑,用于存儲(chǔ)不同 map/reduce 階段的執(zhí)行計(jì)劃和這些階段的中間輸出結(jié)果。
/tmp/<user.name>/hive
hive.metastore.warehouse.dir
Hive 默認(rèn)的數(shù)據(jù)文件存儲(chǔ)路徑,通常為 HDFS 可寫(xiě)的路徑。
"
hive.groupby.skewindata
決定 group by 操作是否支持傾斜的數(shù)據(jù)。
false
hive.default.fileformat
Hive 默認(rèn)的輸出文件格式,與創(chuàng)建表時(shí)所指定的相同,可選項(xiàng)為 'TextFile' 、 'SequenceFile' 或者 'RCFile'。
'TextFile'
hive.security.authorization.enabled
Hive 是否開(kāi)啟權(quán)限認(rèn)證。
false
hive.exec.plan
Hive 執(zhí)行計(jì)劃的路徑,會(huì)在程序中自動(dòng)進(jìn)行設(shè)置
null
hive.exec.submitviachild
決定 map/reduce Job 是否應(yīng)該使用各自獨(dú)立的 JVM 進(jìn)行提交(Child進(jìn)程),默認(rèn)情況下,使用與 HQL compiler 相同的 JVM 進(jìn)行提交。
false
hive.exec.script.maxerrsize
通過(guò) TRANSFROM/MAP/REDUCE 所執(zhí)行的用戶腳本所允許的最大的序列化錯(cuò)誤數(shù)。
100000
hive.exec.script.allow.partial.consumption
是否允許腳本只處理部分?jǐn)?shù)據(jù),如果設(shè)置為 true ,因 broken pipe 等造成的數(shù)據(jù)未處理完成將視為正常。
false
hive.exec.compress.output
決定查詢中最后一個(gè) map/reduce job 的輸出是否為壓縮格式。
false
hive.exec.compress.intermediate
決定查詢的中間 map/reduce job (中間 stage)的輸出是否為壓縮格式。
false
hive.intermediate.compression.codec
中間 map/reduce job 的壓縮編解碼器的類(lèi)名(一個(gè)壓縮編解碼器可能包含多種壓縮類(lèi)型),該值可能在程序中被自動(dòng)設(shè)置。
hive.intermediate.compression.type
中間 map/reduce job 的壓縮類(lèi)型,如 "BLOCK" "RECORD"。
hive.exec.pre.hooks
語(yǔ)句層面,整條 HQL 語(yǔ)句在執(zhí)行前的 hook 類(lèi)名。
"
hive.exec.post.hooks
語(yǔ)句層面,整條 HQL 語(yǔ)句在執(zhí)行完成后的 hook 類(lèi)名。
hive.exec.parallel.thread.number
并發(fā)提交時(shí)的并發(fā)線程的個(gè)數(shù)。
8
hive.mapred.reduce.tasks.speculative.execution
是否開(kāi)啟 reducer 的推測(cè)執(zhí)行,與 mapred.reduce.tasks.speculative.execution 作用相同。
false
hive.exec.counters.pull.interval
客戶端拉取 progress counters 的時(shí)間,以毫秒為單位。
1000L
hadoop.bin.path
Hadoop Client 可執(zhí)行腳本的路徑,該路徑用于通過(guò)單獨(dú)的 JVM 提交 job,使用 Hadoop Client 的配置。
$HADOOP_HOME/bin/hadoop
hadoop.config.dir
Hadoop Client 配置文件的路徑,使用 Hadoop Client 的配置。
$HADOOP_HOME/conf
fs.default.name
Namenode 的 URL,使用 Hadoop Client 的配置。
file:///
map.input.file
Map 的輸入文件,使用 Hadoop Client 的配置。
null
mapred.input.dir
Map 的輸入目錄,使用 Hadoop Client 的配置。
null
mapred.input.dir.recursive
輸入目錄是否可遞歸嵌套,使用 Hadoop Client 的配置。
false
mapred.job.tracker
Job Tracker 的 URL,使用 Hadoop Client 的配置,如果這個(gè)配置設(shè)置為 'local',將使用本地模式。
local
mapred.job.name
Map/Reduce 的 job 名稱,如果沒(méi)有設(shè)置,則使用生成的 job name,使用 Hadoop Client 的配置。
null
mapred.reduce.tasks.speculative.execution
Map/Reduce 推測(cè)執(zhí)行,使用 Hadoop Client 的配置。
null
hive.metastore.metadb.dir
Hive 元數(shù)據(jù)庫(kù)所在路徑。
"
hive.metastore.uris
Hive 元數(shù)據(jù)的 URI,多個(gè) thrift://地址,以英文逗號(hào)分隔。
"
hive.metastore.connect.retries
連接到 Thrift 元數(shù)據(jù)服務(wù)的最大重試次數(shù)。
3
javax.jdo.option.ConnectionPassword
JDO 的連接密碼。
"
hive.metastore.ds.connection.url.hook
JDO 連接 URL Hook 的類(lèi)名,該 Hook 用于獲得 JDO 元數(shù)據(jù)庫(kù)的連接字符串,為實(shí)現(xiàn)了 JDOConnectionURLHook 接口的類(lèi)。
"
javax.jdo.option.ConnectionURL
元數(shù)據(jù)庫(kù)的連接 URL。
"
hive.metastore.ds.retry.attempts
當(dāng)沒(méi)有 JDO 數(shù)據(jù)連接錯(cuò)誤后,嘗試連接后臺(tái)數(shù)據(jù)存儲(chǔ)的最大次數(shù)。
1
hive.metastore.ds.retry.interval
每次嘗試連接后臺(tái)數(shù)據(jù)存儲(chǔ)的時(shí)間間隔,以毫秒為單位。
1000
hive.metastore.force.reload.conf
是否強(qiáng)制重新加載元數(shù)據(jù)配置,一但重新加載,該值就會(huì)被重置為 false。
false
hive.metastore.server.min.threads
Thrift 服務(wù)線程池的最小線程數(shù)。
8
hive.metastore.server.max.threads
Thrift 服務(wù)線程池的最大線程數(shù)。
0x7fffffff
hive.metastore.server.tcp.keepalive
Thrift 服務(wù)是否保持 TCP 連接。
true
hive.metastore.archive.intermediate.original
用于歸檔壓縮的原始中間目錄的后綴,這些目錄是什么并不重要,只要能夠避免沖突即可。
'_INTERMEDIATE_ORIGINAL'
hive.metastore.archive.intermediate.archived
用于歸檔壓縮的壓縮后的中間目錄的后綴,這些目錄是什么并不重要,只要能夠避免沖突即可。
'_INTERMEDIATE_ARCHIVED'
hive.metastore.archive.intermediate.extracted
用于歸檔壓縮的解壓后的中間目錄的后綴,這些目錄是什么并不重要,只要能夠避免沖突即可。
'_INTERMEDIATE_EXTRACTED'
hive.cli.errors.ignore
是否忽略錯(cuò)誤,對(duì)于包含多的 SQL 文件,可以忽略錯(cuò)誤的行,繼續(xù)執(zhí)行下一行。
false
hive.session.id
當(dāng)前會(huì)話的標(biāo)識(shí)符,格式為“用戶名_時(shí)間”用于記錄在 job conf 中,一般不予以手動(dòng)設(shè)置。
"
hive.session.silent
當(dāng)前會(huì)話是否在 silent 模式運(yùn)行。 如果不是 silent 模式,所以 info 級(jí)打在日志中的消息,都將以標(biāo)準(zhǔn)錯(cuò)誤流的形式輸出到控制臺(tái)。
false
hive.query.string
當(dāng)前正在被執(zhí)行的查詢字符串。
"
hive.query.id
當(dāng)前正在被執(zhí)行的查詢的ID。
"
hive.query.planid
當(dāng)前正在被執(zhí)行的 map/reduce plan 的 ID。
"
hive.jobname.length
當(dāng)前 job name 的最大長(zhǎng)度,hive 會(huì)根據(jù)此長(zhǎng)度省略 job name 的中間部分。
50
hive.jar.path
通過(guò)單獨(dú)的 JVM 提交 job 時(shí),hive_cli.jar 所在的路徑
"
hive.aux.jars.path
各種由用戶自定義 UDF 和 SerDe 構(gòu)成的插件 jar 包所在的路徑。
"
hive.added.files.path
ADD FILE 所增加的文件的路徑。
"
hive.added.jars.path
ADD JAR 所增加的文件的路徑。
"
hive.added.archives.path
ADD ARCHIEVE 所增加的文件的路徑。
"
hive.table.name
當(dāng)前的 Hive 表的名稱,該配置將通過(guò) ScirptOperator 傳入到用戶腳本中。
"
hive.partition.name
當(dāng)前的 Hive 分區(qū)的名稱,該配置將通過(guò) ScriptOperator 傳入到用戶腳本中。
"
hive.script.auto.progress
腳本是否周期性地向 Job Tracker 發(fā)送心跳,以避免腳本執(zhí)行的時(shí)間過(guò)長(zhǎng),使 Job Tracker 認(rèn)為腳本已經(jīng)掛掉了。
false
hive.script.operator.id.env.var
用于識(shí)別 ScriptOperator ID 的環(huán)境變量的名稱。
'HIVE_SCRIPT_OPERATOR_ID'
hive.alias
當(dāng)前的 Hive 別名,該配置將通過(guò) ScriptOpertaor 傳入到用戶腳本中。
"
hive.map.aggr
決定是否可以在 Map 端進(jìn)行聚合操作
true
hive.join.emit.interval
Hive Join 操作的發(fā)射時(shí)間間隔,以毫秒為單位。
1000
hive.join.cache.size
Hive Join 操作的緩存大小,以字節(jié)為單位。
25000
hive.mapjoin.bucket.cache.size
Hive Map Join 桶的緩存大小,以字節(jié)為單位。
100
hive.mapjoin.size.key
Hive Map Join 每一行鍵的大小,以字節(jié)為單位。
10000
hive.mapjoin.cache.numrows
Hive Map Join 所緩存的行數(shù)。
25000
hive.groupby.mapaggr.checkinterval
對(duì)于 Group By 操作的 Map 聚合的檢測(cè)時(shí)間,以毫秒為單位。
100000
hive.map.aggr.hash.percentmemory
Hive Map 端聚合的哈稀存儲(chǔ)所占用虛擬機(jī)的內(nèi)存比例。
0.5
hive.map.aggr.hash.min.reduction
Hive Map 端聚合的哈稀存儲(chǔ)的最小 reduce 比例。
0.5
hive.udtf.auto.progress
Hive UDTF 是否周期性地報(bào)告心跳,當(dāng) UDTF 執(zhí)行時(shí)間較長(zhǎng)且不輸出行時(shí)有用。
false
hive.fileformat.check
Hive 是否檢查輸出的文件格式。
true
hive.querylog.location
Hive 實(shí)時(shí)查詢?nèi)罩舅诘哪夸?,如果該值為空,將不?chuàng)建實(shí)時(shí)的查詢?nèi)罩尽?nbsp;
'/tmp/$USER'
hive.script.serde
Hive 用戶腳本的 SerDe。
'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
hive.script.recordreader
Hive 用戶腳本的 RecordRedaer。
'org.apache.hadoop.hive.ql.exec.TextRecordReader'
hive.script.recordwriter
Hive 用戶腳本的 RecordWriter。
'org.apache.hadoop.hive.ql.exec.TextRecordWriter'
hive.hwi.listen.host
HWI 所綁定的 HOST 或者 IP。
'0.0.0.0'
hive.hwi.listen.port
HWI 所監(jiān)聽(tīng)的 HTTP 端口。
9999
hive.hwi.war.file
HWI 的 war 文件所在的路徑。
$HWI_WAR_FILE
hive.test.mode
是否以測(cè)試模式運(yùn)行 Hive
false
hive.test.mode.prefix
Hive 測(cè)試模式的前綴。
'test_'
hive.test.mode.samplefreq
Hive 測(cè)試模式取樣的頻率,即每秒鐘取樣的次數(shù)。
32
hive.test.mode.nosamplelist
Hive 測(cè)試模式取樣的排除列表,以逗號(hào)分隔。
"
hive.merge.size.per.task
每個(gè)任務(wù)合并后文件的大小,根據(jù)此大小確定 reducer 的個(gè)數(shù),默認(rèn) 256 M。
256000000
hive.merge.smallfiles.avgsize
需要合并的小文件群的平均大小,默認(rèn) 16 M。
16000000
hive.optimize.skewjoin
是否優(yōu)化數(shù)據(jù)傾斜的 Join,對(duì)于傾斜的 Join 會(huì)開(kāi)啟新的 Map/Reduce Job 處理。
false
hive.skewjoin.key
傾斜鍵數(shù)目閾值,超過(guò)此值則判定為一個(gè)傾斜的 Join 查詢。
1000000
hive.skewjoin.mapjoin.map.tasks
處理數(shù)據(jù)傾斜的 Map Join 的 Map 數(shù)上限。
10000
hive.skewjoin.mapjoin.min.split
處理數(shù)據(jù)傾斜的 Map Join 的最小數(shù)據(jù)切分大小,以字節(jié)為單位,默認(rèn)為32M。
33554432
mapred.min.split.size
Map Reduce Job 的最小輸入切分大小,與 Hadoop Client 使用相同的配置。
1
hive.mergejob.maponly
是否啟用 Map Only 的合并 Job。
true
hive.heartbeat.interval
Hive Job 的心跳間隔,以毫秒為單位。
1000
hive.mapjoin.maxsize
Map Join 所處理的最大的行數(shù)。超過(guò)此行數(shù),Map Join進(jìn)程會(huì)異常退出。
1000000
hive.hashtable.initialCapacity
Hive 的 Map Join 會(huì)將小表 dump 到一個(gè)內(nèi)存的 HashTable 中,該 HashTable 的初始大小由此參數(shù)指定。
100000
hive.hashtable.loadfactor
Hive 的 Map Join 會(huì)將小表 dump 到一個(gè)內(nèi)存的 HashTable 中,該 HashTable 的負(fù)載因子由此參數(shù)指定。
0.75
hive.mapjoin.followby.gby.localtask.max.memory.usage
MapJoinOperator后面跟隨GroupByOperator時(shí),內(nèi)存的最大使用比例
0.55
hive.mapjoin.localtask.max.memory.usage
Map Join 的本地任務(wù)使用堆內(nèi)存的最大比例
0.9
hive.mapjoin.localtask.timeout
Map Join 本地任務(wù)超時(shí),淘寶版特有特性
600000
hive.mapjoin.check.memory.rows
設(shè)置每多少行檢測(cè)一次內(nèi)存的大小,如果超過(guò) hive.mapjoin.localtask.max.memory.usage 則會(huì)異常退出,Map Join 失敗。
100000
hive.debug.localtask
是否調(diào)試本地任務(wù),目前該參數(shù)沒(méi)有生效
false
hive.task.progress
是否開(kāi)啟 counters ,以記錄 Job 執(zhí)行的進(jìn)度,同時(shí)客戶端也會(huì)拉取進(jìn)度 counters。
false
hive.input.format
Hive 的輸入 InputFormat。
默認(rèn)是org.apache.hadoop.hive.ql.io.HiveInputFormat,其他還有org.apache.hadoop.hive.ql.io.CombineHiveInputFormat
hive.enforce.bucketing
是否啟用強(qiáng)制 bucketing。
false
hive.enforce.sorting
是否啟用強(qiáng)制排序。
false
hive.mapred.partitioner
Hive 的 Partitioner 類(lèi)。
'org.apache.hadoop.hive.ql.io.DefaultHivePartitioner'
hive.exec.script.trust
Hive Script Operator For trust
false
hive.hadoop.supports.splittable.combineinputformat
是否支持可切分的 CombieInputFormat
false
hive.optimize.cp
是否優(yōu)化列剪枝。
true
hive.optimize.ppd
是否優(yōu)化謂詞下推。
true
hive.optimize.groupby
是否優(yōu)化 group by。
true
hive.optimize.bucketmapjoin
是否優(yōu)化 bucket map join。
false
hive.optimize.bucketmapjoin.sortedmerge
是否在優(yōu)化 bucket map join 時(shí)嘗試使用強(qiáng)制 sorted merge bucket map join。
false
hive.optimize.reducededuplication
是否優(yōu)化 reduce 冗余。
true
hive.hbase.wal.enabled
是否開(kāi)啟 HBase Storage Handler。
true
hive.archive.enabled
是否啟用 har 文件。
false
hive.archive.har.parentdir.settable
是否啟用 har 文件的父目錄可設(shè)置。
false
hive.outerjoin.supports.filters
是否啟動(dòng)外聯(lián)接支持過(guò)濾條件。
true
hive.fetch.output.serde
對(duì)于 Fetch Task 的 SerDe 類(lèi)
'org.apache.hadoop.hive.serde2.DelimitedJSONSerDe'
hive.semantic.analyzer.hook
Hive 語(yǔ)義分析的 Hook,在語(yǔ)義分析階段的前后被調(diào)用,用于分析和修改AST及生成的執(zhí)行計(jì)劃,以逗號(hào)分隔。
null
hive.cli.print.header
是否顯示查詢結(jié)果的列名,默認(rèn)為不顯示。
false
hive.cli.encoding
Hive 默認(rèn)的命令行字符編碼。
'UTF8'
hive.log.plan.progress
是否記錄執(zhí)行計(jì)劃的進(jìn)度。
true
hive.exec.script.wrapper
Script Operator 腳本調(diào)用的封裝,通常為腳本解釋程序。例如,可以把該變量值的名稱設(shè)置為"python",那么傳遞到 Script Operator 的腳本將會(huì)以"python <script command>"的命令形式進(jìn)行調(diào)用,如果這個(gè)值為null或者沒(méi)有設(shè)置,那么該腳本將會(huì)直接以"<script command>"的命令形式調(diào)用。
null
hive.check.fatal.errors.interval
客戶端通過(guò)拉取 counters 檢查嚴(yán)重錯(cuò)誤的周期,以毫秒為單位,淘寶特有配置項(xiàng)。
5000L
感謝你能夠認(rèn)真閱讀完這篇文章,希望小編分享的“Hive參數(shù)配置如何調(diào)優(yōu)”這篇文章對(duì)大家有幫助,同時(shí)也希望大家多多支持創(chuàng)新互聯(lián),關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,更多相關(guān)知識(shí)等著你來(lái)學(xué)習(xí)!